Llama 4模型:Meta AI開源的最佳模型

如今,即使是人工智慧公司最微小的更新,也會被當作重大突破來宣傳。Meta 是否也是如此?我可不這麼認為。他們跳過了戲劇化的過程,一口氣推出了不是一個,而是三個新模型的 “Llama 4 叢集”。Llama 4 模型-Scout、Maverick 和 Behemoth -從輕量級部署到企業級推理,每個模型版本都有明確的用途。最棒的是什麼?其中兩個模型現在已經向公眾開放!在本文中,我們將瞭解如何訪問 Meta 的 Llama 4 模型,並探索它們的功能、特性、基準測試結果以及與其他頂級模型相比的實際效能。

Llama 4模型三劍客:Scout, Maverick和Behemoth

Meta 的 Llama 4 模型群:Scout、Maverick 和 Behemoth 是一組高效的開源多模式模型。當 OpenAI、谷歌和 X.com 等公司正在建立越來越龐大但封閉的模型時,Meta 選擇了一條不同的道路:讓強大的人工智慧變得開放、易用。事實上,Llama 4 Maverick 已經突破了 LMarena 1400 基準,擊敗了 GPT 4o、DeepSeek V3、Gemini 2.0 Flash 等模型!同樣值得注意的是,這些模型支援 1000 萬個令牌上下文長度,這是迄今為止所有開放式重量級 LLM 中最長的。讓我們來詳細瞭解一下這些模型。

Llama 4模型三劍客

Llama 4 Scout:小巧、快速、智慧

Scout 是 Llama 4 系列中最高效的模型。它速度快、重量輕,是無法使用大型 GPU 叢集的開發人員和研究人員的理想選擇。

Llama 4 Scout的主要特點:

  • 架構:Scout 採用專家混合(MoE)架構,有 16 個專家,每次只啟用 2 個,因此總共有 109B 的活動引數,其中 17B 為活動引數。它支援 1 千萬個令牌上下文視窗。
  • 效率:該模型採用 Int4 量化技術,可在單個 H100 GPU 上高效執行,是一種經濟實惠的高效能選擇。
  • 效能:Scout 在基準測試中的表現優於 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等同類模型。
  • 訓練:它已在 200 種語言中進行了預訓練,其中 100 種語言每種語言都包含超過 10 億個詞庫,並在各種影像和影片資料上進行了訓練,在單個提示中支援多達 8 幅影像。
  • 應用:得益於先進的影像區域基礎,它可以提供精確的視覺推理。這使它成為長語境記憶聊天機器人、程式碼總結工具、教育問答機器人以及針對移動或嵌入式系統最佳化的助手等應用的理想選擇。

Llama 4 Maverick:強大而可靠

Maverick 是開放式重量模型的旗艦產品。它專為高階推理、編碼和多模態應用而設計。它比 Scout 更強大,但採用相同的 MoE 策略,保持了高效性。

Llama 4 Maverick的主要特點:

  • 架構:Maverick 採用混合專家架構,擁有 128 個路由專家和一個共享專家,在推理過程中只啟用 400B 總引數中的 17B 引數。它使用文字和影像輸入的早期融合進行訓練,最多可支援 8 個影像輸入。
  • 效率:該模型可在單個 H100 DGX 主機上高效執行,也可跨 GPU 擴充套件。
  • 效能:它在 LMSYS Chatbot Arena 上的 ELO 得分為 1417 分,超過了 GPT-4o 和 Gemini 2.0 Flash,同時在推理、編碼和多語言能力方面與 DeepSeek v3.1 不相上下。
  • 訓練:Maverick 採用了 MetaP 超引數縮放、FP8 精度訓練和 30 萬億個令牌資料集等尖端技術。它具有強大的影像理解能力、多語種推理能力以及超越 Llama 3.3 70B 模型的經濟高效效能。
  • 應用:它的優勢使其成為人工智慧配對程式設計、企業級文件理解和教育輔導系統的理想選擇。

Llama 4 Behemoth:教師模型

Behemoth 是 Meta 迄今為止最大的模型。它不對外開放,但在幫助 Scout 和 Maverick 成為今天的樣子的過程中發揮了至關重要的作用。

Llama 4 Behemoth的主要特點:

  • 架構:Behemoth 是 Meta 最大、最強大的模型,採用專家混合架構(Mixture of Experts),擁有 16 位專家,在推理過程中可啟用近 2 萬億個引數中的 288B 個引數。它具有原生多模態功能,在推理、數學和視覺語言任務中表現出色。
  • 效能:在 MATH-500、GPQA Diamond 和 BIG-bench 等 STEM 基準測試中,Behemoth 的表現始終優於 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
  • 作用:作為教師模型,它發揮著關鍵作用,指導 Scout 和 Maverick 利用兼顧軟監督和硬監督的新型損失函式進行協同蒸餾。
  • 訓練:該模型採用 FP8 精度進行訓練,最佳化了 MoE 並行性,速度比 Llama 3 提高了 10 倍,並採用了新的強化學習策略。這包括硬提示取樣、多能力批次構建以及從各種系統指令中取樣。

儘管 Behemoth 尚未公開,但它已成為 Meta 評估和內部提煉的黃金標準。

如何訪問Llama 4模型?

您現在就可以根據自己的目標,透過多個易於使用的平臺開始使用 Llama 4,無論是研究、應用開發還是功能測試。

  • llama.meta.com:這是 Meta 官方的 Llama 模型中心。它包括模型卡片、論文、技術文件以及 Scout 和 Maverick 的開放權重。開發人員可以下載模型,並在本地或雲端執行。
  • Hugging Face:Hugging Face 承載著可立即使用的 Llama 4 版本。你可以直接在瀏覽器中使用推理端點測試模型,也可以透過 Transformers 庫部署模型。此外,還支援與 Gradio 和 Streamlit 等常用工具的整合。
  • Meta應用程式:Llama 4 模型還支援 WhatsApp、Instagram、Messenger 和 Facebook 中的 Meta 人工智慧助手。這樣,使用者就可以直接在日常應用程式中體驗模型在真實世界中的對話。
  • 網頁:您可以使用網頁介面直接訪問最新的 Llama 4 模型。

Llama 4模型試用體驗

在 Meta 的任何應用程式或網頁介面上試用最新的 Llama 4 模型都非常簡單。雖然在這些應用程式中都沒有明確提及後臺使用的是 Scout、Maverick 和 Behemoth 中的哪種模型。到目前為止,Meta AI 還沒有提供在其應用程式或介面上選擇要使用的模型的選項。不過,我將測試 Llama 4 模型的三項任務: 創意規劃、編碼和影像生成。

任務 1:創意規劃

提示詞: Create a Social Media content strategy for a Shoe Brand – Soles to help them engage with the Gen z audience.

輸出:

Llama 4創意規劃

觀察點評

  • Llama 4 模型非常快速!該模型能快速繪製出詳細而簡潔的社交媒體戰略計劃。
  • 在網頁介面,目前還不能上傳任何檔案或圖片。
  • 此外,它還不支援網路搜尋或畫布功能。

任務 2:編碼

提示詞:Write a python program that shows a ball bouncing inside a spinning pentagon, following the laws of Physics, increasing its speed every time it bounces off an edge.

輸出:

Llama 4 模型執行編碼

觀察點評

  • 它生成的程式碼有錯誤。
  • 該模型能快速處理需求,但準確性不高。

任務 3:影像生成

提示詞:Create an image of a person working on a laptop with a document open in the laptop with the title “llama 4”, the image should be taken in a way the screen of the person is visible, the table on which the laptop is kept has a coffee mug and a plant.

輸出:

AI影像生成

觀察點評

  • 它生成了 4 幅影像!其中,我覺得上面的圖片最好。
  • 你還可以對生成的圖片進行“Edit”和“Animate”。
  • 編輯允許你修改圖片的某些部分,而動畫允許你建立圖片的 gif。

Llama 4模型的訓練和後期訓練

Meta 採用了結構化的兩步流程:前期訓練和後期訓練,並融入了新技術,以提高效能、可擴充套件性和效率。讓我們來分析一下整個過程:

前期培訓階段

預培訓是模型知識和能力的基礎。Meta 在這一階段引入了多項創新:

  • 多模態資料:Llama 4 模型在超過 30 萬億個來自不同文字、影像和影片資料集的標記上進行了訓練。它們是原生的多模態資料,這意味著它們從一開始就能同時處理語言和視覺資料。
  • 專家混合(MoE):每次推理時,只有模型總引數的一個子集處於活動狀態。這種有選擇性的路由選擇可以讓像 Maverick(總引數達 400B)和 Behemoth(約 2T)這樣的大型模型更加高效。

前期培訓階段

Source: Meta

  • 早期融合架構:使用早期融合技術對文字和視覺輸入進行聯合訓練,將兩者整合到共享的模型骨幹中。
  • MetaP 超引數調整:這項新技術可讓 Meta 設定每層學習率和初始化規模,並在不同模型規模和訓練配置之間進行良好轉換。
  • FP8 精確度:所有模型都使用 FP8 進行訓練,在不影響模型質量的前提下提高了計算效率。
  • iRoPE 架構:一種使用交錯注意力層的新方法,無需位置嵌入和推理時間溫度縮放,有助於 Scout 泛化到超長輸入(多達 1,000 萬個標記)。

後期訓練階段

訓練完基礎模型後,團隊使用精心設計的序列對其進行微調:

  • 輕量級監督微調(SFT):Meta 使用 Llama 模型作為評委,過濾掉簡單的提示,只使用較難的示例來微調複雜推理任務的效能。
  • 線上強化學習(RL):他們利用困難提示、自適應過濾和課程設計實施了持續的 RL 訓練,以保持推理、編碼和對話能力。
  • 直接偏好最佳化(DPO):在 RL 之後,他們應用輕量級 DPO 來微調特定的角情況和響應質量,在有用性和安全性之間取得平衡。
  • Behemoth Codistillation:Behemoth 充當了教師的角色,為訓練 Scout 和 Maverick 生成輸出。Meta 甚至引入了一個新穎的損失函式,以動態平衡軟監督目標和硬監督目標。

這些步驟共同建立的模型不僅規模大,而且經過深度最佳化,更安全,更能勝任各種任務。

Meta Llama 4基準效能

Meta 分享了所有三個 Llama 4 模型的詳細基準測試結果,反映了每個模型在設計目標和引數大小基礎上的表現。它們還在幾個新引入的具有特別挑戰性和綜合性的基準測試中表現優於領先模型。

Llama 4 Scout

儘管 Scout 是該系列中最小的模型,但在注重效率的評估中卻表現出色:

Llama 4 Scout效率評估

  • ARC(AI2 推理挑戰賽):在同級別的模型中,尤其是在常識推理方面,得分極具競爭力。
  • MMLU Lite:在歷史、基礎科學和邏輯推理等任務中表現可靠。
  • 推理速度:即使在單個 H100 GPU 上,速度也非常快,在質量保證和聊天機器人任務中的響應延遲很低。
  • 程式碼生成:在簡單到中級的程式設計任務中表現出色,可用於教育編碼助手。
  • 大海撈針 (NiH):在多達 1,000 萬位元組文字或 20 小時影片的長文字任務中實現了近乎完美的檢索,展示了無與倫比的長期記憶能力。

Llama 4 Maverick

Maverick 為效能而生,而且效能全面:

Llama 4 Maverick效能

  • MMLU(多工語言理解):在知識密集型任務中的表現優於 GPT-4o、Gemini 1.5 Flash 和 Claude 3 Sonnet。
  • HumanEval(程式碼生成):在生成功能程式碼和解決演算法問題方面,效能達到或超過 GPT-4。
  • DROP(段落離散推理):顯示出很強的語境理解能力和數字推理能力。
  • VQAv2(視覺化問題解答):擅長準確回答基於影像的查詢,展示了 Maverick 強大的視覺語言能力。
  • NiH(大海撈針):在多達 100 萬個標記的長文件中成功檢索出隱藏資訊,準確率接近滿分,在上下文深度極深的情況下僅有少量遺漏。

Llama 4 Behemoth

Behemoth 不對外開放,但卻是 Meta 最強大的評估基準。它用於提煉和指導其他模型:

Llama 4 Behemoth

  • 內部 STEM 基準:在科學、數學和推理的內部 Meta 測試中名列前茅。
  • SuperGLUE 和 BIG-bench:獲得內部最高分,反映了最先進的語言建模能力。
  • 視覺語言整合:在需要綜合理解文字和影像的任務中表現出卓越的效能,往往超過所有已知的公共模型。

這些基準測試凸顯了每個模型在其角色中的卓越表現: Scout 可提供速度和效率,Maverick 可處理功率和通用任務,而 Behemoth 則是用於提煉和評估的研究級教師模型。

比較Llama 4模型

雖然這三種模型都有各自的特點,但下面的簡要總結可以幫助您找到適合自己任務的 Llama 4 模型:

模型 引數 活動引數 專家 上下文長度 執行於 公開訪問 適用於
Scout 109B 17B 16 10M tokens 單個 H100 輕量人工智慧任務,長記憶體應用程式
Maverick 400B 17B 128 不明 單 GPU 或多 GPU 研究、編碼、企業使用
Behemoth ~2T 288B 16 不明 內部資料 內部提煉 + 基準

小結

隨著 Llama 4 的釋出,Meta 所做的不僅僅是與時俱進,而是樹立了一個新的標準。這些模型強大、高效、開放。開發人員不再需要鉅額預算就能使用頂級人工智慧。從小型企業到大型企業,從教室到研究實驗室,Llama 4 讓每個人都能掌握最先進的人工智慧。在不斷發展的人工智慧世界中,開放性不再是題外話,而是未來的趨勢。而 Meta 剛剛為它發出了強有力的聲音。

評論留言