大型語言模型(LLM)已成為現代人工智慧應用不可或缺的一部分,但評估其能力仍是一項挑戰。長期以來,傳統基準一直是衡量 LLM 效能的標準,但隨著人工智慧的快速發展,許多人開始質疑這些基準是否仍然適用。這些基準是否仍然是衡量 LLM 實際效能的可靠指標?還是它們已經成為過時的指標,無法捕捉到現代人工智慧的真正潛力?本文旨在透過探討一些最廣泛使用的基準、它們是如何評估 LLM 的,以及結果與真實世界效能的比較,來了解標準 LLM 基準是否仍然適用。
什麼是LLM基準?
LLM 基準是標準化的評估工具,用於評估 LLM 在特定任務中的表現。將它們視為人工智慧模型的考試,旨在測試推理、語言理解、編碼等技能。每個基準都使用特定的評估標準,從簡單的準確率和精確匹配分數到更復雜的基於模型的引數。
所有這些基準都旨在量化 LLM 處理特定挑戰的效率。它們有助於研究人員和開發人員公平地比較模型,並瞭解其優勢和侷限性。一些流行的 LLM 基準包括 MMLU、GPQA 和 MATH。
LLM基準衡量什麼?
那麼,這些基準究竟測試模型的哪些方面呢?不同的 LLM 基準側重於不同的能力。以下是這些評估通常測試的細目:
- 推理和常識:這些任務檢查模型是否能應用邏輯和日常知識來回答覆雜或細微的問題。
- 語言理解與問題解答(QA):這些任務評估 LLM 對書面內容的掌握程度,以及提取或推斷正確答案的能力。
- 程式設計與程式碼生成:編碼基準測試模型能否用各種程式語言編寫、修復或解釋程式碼。
- 對話能力:有些基準會評估模型能否自然地參與對話、保持連貫並提供與上下文相關的答案。
- 翻譯技能:這些基準重點考察模型在保留意義的前提下將文字從一種語言準確轉換為另一種語言的能力。
- 數學推理:從基本算術到高階數學問題,這些測試評估計算的準確性和解決問題的方法。
- 邏輯思維:以邏輯為導向的基準考查學生遵循演繹或歸納推理模式的能力。
- 標準化考試成績:基於 SAT 或 GRE 等考試的基準模擬真實世界的教育評估,以評估一般認知能力。
有些基準只涉及少量任務,有些則包含數千個測試專案。無論如何,它們都是衡量 LLM 在不同領域表現的結構化方法。
儘管如此,重要的是要注意這些基準與特定應用系統測試不同。基準測試基於固定的資料集和受控環境,測試 LLM 在特定任務中的熟練程度。而後者則是評估模型在針對特定產品或服務的實際用例中的表現。
開發人員如何選擇正確的基準
您可能會經常注意到,並非所有 LLMS 都在所有基準上進行了測試。或者至少,開發人員只選擇公佈那些能顯示其模型優秀的結果。那麼,這些公司是如何選擇正確的基準來測試它們的模型的呢?選擇正確的基準來評估 LLM 取決於幾個因素:
- 任務一致性: 他們選擇的基準應能準確反映他們希望模型展示的能力。這可以是文字摘要、編碼、輔導或任何其他他們認為其模型可以執行的最佳任務。
- 領域相關性: 他們要確保基準與應用領域密切相關。例如,法律技術模型將接受法律語言理解能力測試,而金融技術工具則將接受基於數學和推理的基準測試。
- 任務多樣性: 大多數開發人員會選擇更通用或更廣泛的標準基準,如基於質量保證或 STEM 的基準,以便更全面地瞭解模型在各種挑戰中的表現。
評估方法: 開發人員需要考慮基準是使用人工評估、精確匹配評分還是基於 LLM 的評估。這一點很重要,因為它會影響對結果的解釋。
評估 LLM 的常用基準
基準對於評估 LLM 的優缺點至關重要。在本指南中,我將介紹 20 個最受歡迎的 LLM 基準,並將其分為四個關鍵能力領域:
- 一般語言與推理
- 編碼
- 數學與 STEM
- 多模態和視覺語言
這些基準通常用於研究論文、產品評估和公共排行榜。
以下是我們將介紹的基準:
- MMLU(大規模多工語言理解)
- Humanity’s Last Exam
- GPQA Diamond (pass@1)
- LLM Arena Leaderboard
- ARC(人工智慧2推理挑戰賽)
- TruthfulQA
- HumanEval
- SWE-bench 驗證
- Aider Polyglot
- LiveCodeBench v5
- MBPP(大部分基本程式設計問題)
- MTPB(多圈程式設計基準)
- GSM8K
- 數學基準
- AIME 2025(pass@1)
- ScienceQA
- MGSM(多語種小學數學)
- MMMU(大規模多模態多工理解)
- VQAv2(視覺化問題解答)
- BFCL(伯克利函式呼叫排行榜)
現在,讓我們來了解一下這些基準在現實世界中的意義。
通用語言與推理基準
這些基準測試LLM對自然語言、世界知識、邏輯的掌握程度,以及完成跨學科複雜推理任務的能力。
測試內容
- 跨領域的學科知識
- 常識推理和事實推理
- 語言理解和閱讀理解
- 回答開放式和封閉式問題的能力
以下是該類別中的一些常用基準。
1. MMLU(大規模多工語言理解)
MMLU 旨在評估 LLM 在 57 個學科中的知識和推理能力,包括 STEM(科學、技術、工程、數學)、人文、社會科學和商業。它是評估人工智慧模型跨學科事實回憶和問題解決能力的最全面基準之一。
測試方法:
測試由不同領域的多項選擇題組成,以真實世界的考試為藍本。該基準採用零次或少量評估方法,即在測試前不對模型進行資料集微調。效能的衡量標準是準確性,即人工智慧在四個選項中選擇正確答案的頻率。
資料集:資料集來自真實世界的學術考試和專業測試,確保問題反映教育評估中的難度水平。
這一基準結果意味著什麼?
MMLU 高分表明常識和推理能力較強。這意味著該模型非常適合用於輔導、研究協助和回答現實世界應用中的複雜查詢。例如,如果一個模型的得分超過 85 分,它就能以專家級的推理能力處理廣泛的主題。與此同時,得分低於 30 分的模型很可能在更深層次的學科知識和推理方面遇到困難,這意味著它的答案可能不一致或過於簡單。
目前得分最高的模型: GPT-4 o1(300b),得分率為 87%。
2. Humanity’s Last Exam
Humanity’s Last Exam 是一項旨在測試 LLM 解決高度複雜和新穎問題的能力,從而將其推向極限的基準。與評估特定技能(如邏輯推理、事實回憶或模式識別)的傳統基準不同,該基準向模型提出了完全未曾見過的、需要深刻理解和洞察力的創意或哲學問題的挑戰。
測試方法:
該基準包括一系列沒有明確答案的開放式問題。人工智慧模型的評估基於定性指標,如回答的連貫性、推理的深度和新穎性。由於自動評分方法可能不夠充分,人工評估人員可能會參與對回答進行評分。
資料集:沒有固定的資料集;問題是動態策劃的,以保持不可預測性,並評估真正的人工智慧,而不是死記硬背。
該基準測試結果意味著什麼?
在這一基準測試中的高分表明,人工智慧有能力進行類似人類的高階推理,因此適合研究、哲學以及需要深度創造力和新穎見解的任務。例如,如果一個模型的得分在 80 分或以上,它就能解決需要抽象思維和邏輯的高難度推理問題。與此同時,如果一個模型的得分低於 40 分,那麼它就很可能在多步驟推理方面舉步維艱,在複雜的問題解決任務中也可能表現不佳。
目前得分最高的模型:Gemini 2.5 Pro Exp,得分率為 18.8%(基於公開分數)。
3. GPQA Diamond
GPQA Diamond 是通用問題解答(GPQA)基準的一個子集,旨在評估人工智慧模型以單一正確答案回答高度專業化和困難問題的能力。
測試方法:
給定一個問題,模型必須在一次嘗試中做出準確、符合事實的正確回答(pass@1)。測試難度明顯高於標準質量保證資料集,重點是技術、科學和特定領域的知識。準確率以首次嘗試的正確答案百分比來衡量。
資料集:由人工編輯的一組具有挑戰性的問題,橫跨多個學科,包括高等數學、法律推理和科學研究。
該基準結果意味著什麼?
GPQA Diamond 高分表明,人工智慧模型擅長在複雜領域檢索和制定高度準確的答案,非常適合作為人工智慧專家助理、法律諮詢和學術研究支援。例如,如果一個模型的得分超過 85 分,那麼它就能準確而深入地處理複雜的特定領域問題。與此同時,得分低於 30 分的模型在處理專業知識時會很吃力,經常會提供模糊或錯誤的答案。
目前得分最高的模型:Gemini 2.5 Pro Exp,得分率為 18.8%.
4. LLM Arena Leaderboard
LLM Arena Leaderboard 是一個眾包排名系統,使用者根據真實世界的互動和使用案例對 LLM 進行評估。
測試方法:
對人工智慧模型進行開放式互動,使用者根據回答問題的流暢性、連貫性、事實準確性和整體有效性對其進行評分。
資料集:由使用者生成的動態資料集,該資料集由不同應用中的真實互動建立而成。
基準測試結果意味著什麼?
在 LLM Arena 排行榜上排名靠前的人工智慧模型表明,該模型在通用輔助、業務自動化和研究支援等實際應用中廣受好評。例如,如果一個模型排名前三,那麼它在準確性、連貫性和推理方面就一直優於競爭對手。與此同時,排名在前 20 名以外的模型可能在複雜任務方面存在明顯弱點,因此在高階應用方面不太可靠。
目前得分最高的模型:Gemini 2.5 Pro Exp,得分 1439。
5. ARC (AI2 推理挑戰賽)
ARC 專為評估人工智慧模型的常識推理和邏輯推理而設計。試題類似於小學科學考試,但其結構旨在挑戰人工智慧應用邏輯的能力,而不僅僅是識別模式。
測試方法:
測試分為“簡單”組和“挑戰”組。挑戰集包含的問題對於純粹依靠統計相關性的人工智慧模型來說有一定難度。對人工智慧模型的評估基於多選題的準確性,特別強調其回答需要推斷表面知識以外的問題的能力。
資料集:教育考試中的科學問題集,經過篩選,強調推理而非簡單的回憶。
這一基準結果意味著什麼?
ARC 高分表明人工智慧模型具有很強的邏輯推理能力,是教育輔導、決策支援和自動推理等任務的理想選擇。例如,如果一個模型的得分在 80 分或以上,它就能解決需要抽象思維和邏輯的高難度推理問題。與此同時,如果一個模型的得分低於 40 分,那麼它就很可能在多步驟推理方面舉步維艱,在複雜的問題解決任務中也可能表現不佳。
6. TruthfulQA
TruthfulQA 可評估人工智慧在避免錯誤資訊和常見誤解的同時生成符合事實的準確回答的能力。它特別適用於評估需要高度信任的人工智慧應用,如新聞和醫療援助。
測試方法:
TruthfulQA 在不允許調整的“0-shot”設定中對模型進行評估。它包括兩項任務:生成(模型生成 1-3 句話的答案)和多項選擇任務。此外,測試還包括一系列問題,旨在引出常見錯誤資訊的回答。
人工智慧模型的評分標準是其答案的真實性和資訊量,而不僅僅是語言流暢度。對於每個問題,模型的得分介於 0-1 之間,其中 0 代表完全錯誤的答案,1 代表完全真實的答案。在大多數情況下,回答真實問題的百分比被作為一個基準。
資料集:這是一個經過精心策劃的事實核查問題集,旨在就常見的錯誤和偏見對人工智慧模型提出質疑。它由 817 個問題組成,涉及 38 個類別,包括健康、法律、金融和政治。
該基準結果意味著什麼?
TruthfulQA 得分越高,表明人工智慧模型生成誤導或錯誤資訊的可能性越小,因此適合應用於事實核查、醫療保健、教育和可信人工智慧部署。
例如,如果一個模型的平均得分高於 0.5,或 75% 的答案是誠實的,這就意味著該模型是值得信賴的。換句話說,這證明該模型通常能提供有理有據、事實正確的答案,誤導資訊極少。與此同時,如果模型的得分低於 0.2,或者誠實回答問題的比例低於 30%,那麼它就很容易捏造或歪曲事實。這就使其在對真相有嚴格要求的應用中變得不可靠。
評估LLM的編碼基準
編碼基準可衡量 LLM 跨程式語言生成、理解和除錯程式碼的能力。這些基準對於輔助開發人員或自主編寫程式碼的工具至關重要。
測試內容
- 從自然語言生成程式碼
- 程式碼正確性和邏輯一致性
- 多步驟和多輪程式設計能力
- 支援各種程式語言
以下是我們將在本節中探討的常用編碼基準。
7. HumanEval
HumanEval 是一項基準測試,旨在評估 LLM 根據問題描述生成 Python 功能程式碼的能力。它評估人工智慧的程式設計能力、邏輯推理能力和編寫正確解決方案的能力。
測試方法:
向模型發出提示,描述要實現的功能。生成程式碼的正確性透過單元測試來驗證,測試中將模型的輸出與預期結果進行比較。評估指標為 pass@k,用於衡量模型在 k 次嘗試內生成正確解決方案的機率。
資料集:HumanEval 由 OpenAI 建立,包含 164 個 Python 程式設計問題,涵蓋各種程式設計概念和挑戰。
基準測試結果意味著什麼?
HumanEval 高分表明人工智慧模型精通編碼,並能生成功能性強、語法正確的 Python 程式碼,這對軟體開發和人工智慧輔助程式設計任務非常有用。例如,如果一個模型的評分超過 85%,它就能可靠地編寫工作程式碼、解決演算法問題並協助開發人員完成複雜的編碼任務。與此同時,得分低於 40% 的模型很可能會生成錯誤或低效的程式碼,從而無法滿足現實世界的程式設計需求。
目前得分最高的模型:Claude 3.5 Sonnet,得分 100。
8. SWE-bench Verified
SWE-bench (Software Engineering Benchmark) Verified 是一項基準測試,旨在評估人工智慧模型理解、除錯和改進軟體程式碼的能力。
測試方法:
人工智慧模型在真實世界的軟體開發任務中進行測試,包括錯誤修復、重構和功能實現。解決方案必須透過各種驗證檢查,以確認正確性。對模型的評估基於其生成功能齊全且經過驗證的解決方案的能力。
資料集:基於真實世界軟體庫的程式設計挑戰集,包括開源專案和企業級程式碼庫。
基準測試結果意味著什麼?
SWE-bench Verified 的高分表明人工智慧模型在軟體工程方面具有很強的能力,使其在自動程式碼生成、除錯和人工智慧輔助程式設計方面具有重要價值。例如,如果模型得分在 80 分或以上,它就能準確修復複雜的錯誤並重構程式碼。與此同時,得分低於 40 分的模型在處理現實世界中的軟體問題時可能會陷入困境,併產生不可靠的修復結果。
9. Aider Polyglot
Aider Polyglot 是一項基準,旨在評估人工智慧生成和理解多種程式語言程式碼的能力。它評估模型在語言間切換、理解跨語言語法差異以及生成正確高效程式碼的能力。重點是人工智慧對各種程式設計正規化的適應能力,以及在不同環境下生成成語程式碼的能力。
測試方法:
向人工智慧模型提出不同語言的程式設計任務。評估重點是語法正確性、執行準確性和效率。此外,還測試了人工智慧處理跨語言推理的能力,例如在保持功能和效率的前提下在不同語言之間轉換程式碼。
資料集:該基準測試使用的程式設計問題資料集來自真實世界場景、程式設計競賽挑戰和開源資源庫。這些任務涉及多種語言,包括 Python、JavaScript、C++ 和 Java。
基準測試結果意味著什麼?
高分表明人工智慧模型精通多語言編碼任務,這對開發人員跨多個技術棧、程式碼翻譯和除錯各種語言的任務非常有價值。例如,如果一個模型的得分超過 85 分,那麼它就可以無縫地為 Python、Java 和 C++ 等多種語言提供幫助。與此同時,得分低於 40 分的模型可能會在不同程式語言的語法和上下文方面遇到困難。
目前得分最高的模型: Gemini 2.5 Pro Exp,得分率為 74%。
10. LiveCodeBench v5
LiveCodeBench v5 測試人工智慧在現實世界的限制條件下生成即時可執行程式碼的能力。與靜態編碼測試不同,它側重於人工智慧互動式解決編碼問題的能力,並結合了執行時反饋和迭代除錯。
測試方法:
人工智慧的任務是互動式地解決編碼問題。對其進行評估的標準包括初始程式碼的準確性、處理執行時錯誤的能力以及效率。模型的適應性也要接受測試,因為它必須根據即時反饋和不斷變化的測試用例來調整解決方案。
資料集:資料集包括競技程式設計中的互動式編碼問題、真實開發場景以及開源軟體庫中的除錯任務。
基準測試結果意味著什麼?
高分表明人工智慧在即時編碼方面非常有效,這對人工智慧驅動的程式碼完成、除錯輔助和互動式程式設計環境非常有用,而這些對提高開發人員的工作效率至關重要。例如,如果一個模型的得分在 90 分以上,它就能高精度地處理動態編碼挑戰、除錯和自動完成。與此同時,得分低於 40 分的模型在保持編碼上下文方面會很吃力,並可能頻繁出錯。
目前得分最高的模型:Kimi-k1.6-IOI-high,程式碼生成得分 73.8。
11. MBPP(最基本的程式設計問題)
MBPP 評估 LLM 使用自然語言指令解決初級到中級程式設計任務的能力。它非常適合測試模型的核心演算法理解能力和基本編碼技能。
測試方法:
給模型提供簡短的問題陳述,並要求其生成 Python 程式碼來解決所描述的問題。每個問題都有一個簡短的自然語言提示來描述任務,並要求模型生成能解決該問題的 Python 程式碼。
生成的程式碼會自動評估功能正確性、語法有效性以及與問題描述的邏輯一致性。這通常是在 “少量嘗試 ”的設定中完成的,即模型在嘗試新問題之前,先看到少量已解決的示例。零次評估和微調評估也很常見。
資料集:MBPP 包含 974 個來自教育和競技程式設計平臺的問題。任務包括對字串、列表和字典的操作,以及數學、條件、遞迴和簡單的檔案處理。所有問題均可在 10 行 Python 程式碼以內解決,並附帶 3 個單元測試。
基準測試結果意味著什麼?
MBPP 高分反映了模型遵循清晰指令和生成功能程式碼的能力。
例如,得分超過 80 分的模型可以處理編碼教程,併為初學者提供幫助。這樣的模型是程式碼輔導、自動完成工具和初級開發支援的理想選擇。另一方面,得分低於 30 分的模型可能會生成錯誤百出或語法無效的程式碼。
目前得分最高的模型:QualityFlow 採用 Claude 3.5-Sonnet,準確率為 94.2。
12. MTPB(多輪程式設計基準)
MTPB 評估人工智慧模型參與多輪程式碼生成對話的能力。它模擬真實世界的軟體開發場景,開發人員根據反饋、除錯輸出和不斷變化的指令完善程式碼。它可以測試多輪對話中的上下文記憶、跟進和問題解決能力。這些技能對參與程式碼配對程式設計或擔任副駕駛的 LLM 至關重要。
測試方法:
每項任務都以描述編碼目標的使用者詢問開始。模型會提出一個解決方案,隨後模擬使用者(或測試指令碼)會提供反饋,其中可能會指出錯誤、要求新增功能或提出修改建議。這樣的迴圈會持續 3-5 次。
然後,根據一組功能要求和單元測試對最終輸出進行測試。評估會考慮最終程式碼的正確性、模型納入細微反饋的能力以及整個對話的穩定性和連貫性。此外,它還考察了模型為獲得有效解決方案所需的互動次數。
資料集:MTPB 資料集包含 115 個真實的軟體工程問題。其中包括使用者反饋迴圈、程式碼重構任務和增量功能實現。反饋資訊的設計既模糊又明確,模仿了開發人員在實際場景中收到的指令型別。
基準測試結果意味著什麼?
高 MTPB 得分表明,模型可以在多個回合中遵循指令,而不會脫離上下文或出現倒退。這意味著模型非常適合迭代程式碼審查、結對程式設計和輔導等任務。
例如,如果模型得分超過 85 分,它就能迭代改進程式碼、理解測試用例並提供有用的除錯建議。與此同時,如果一個模型的得分低於 40 分,那麼它很可能在多步驟程式設計任務中舉步維艱,併產生不完整或不正確的解決方案。
評估LLM的數學與STEM基準
本類別側重於計算能力和結構化推理,包括純數學以及與科學相關的問題解決。這些基準測試模型逐步推理和解釋定量資料的能力。
測試內容
- 算術、代數、幾何和高等數學
- 多步驟問題解決和符號推理
- 科學理解和邏輯推理
- 嚴格正確性約束下的效能
以下是一些測試 LLM 數學和 STEM 能力的常用基準。
13. GSM8K
GSM8K 是一個小學數學字詞問題資料集,旨在評估 LLM 在算術和基本代數推理方面的能力。這些問題需要多步計算、邏輯推導以及對基本數學原理的理解。
測試方法:
向模型提出數學單詞問題,並要求其逐步求解。評估的依據是最終答案是否符合正確的解決方案。此外,還對中間推理步驟進行評估,以衡量邏輯連貫性和解決問題的深度。
資料集:GSM8K 包含 1,319 個高質量的校級問題。這些問題由人類專家手動編寫,確保了數學挑戰的多樣性和真實性。
該基準測試結果意味著什麼?
GSM8K 高分意味著強大的算術和初等代數推理能力。它表明模型有能力協助小學教育、自動輔導和基本財務計算。
例如,如果一個模型的得分超過 80 分,它就能可靠地解決非難代數、幾何和數論問題。與此同時,得分低於 30 分的模型很可能無法進行復雜的多步推理,在精確度方面也會有困難。
目前得分最高的模型:Claude 3.5 Sonnet (HPT),得分 97.72。
14. MATH Benchmark
MATH 基準評估的是人工智慧模型解決高階、高中級數學問題的能力,需要深入的邏輯推理、符號操作和多步驟解決問題的技能。
測試方法:
測試包括代數、幾何、微積分和數論問題。人工智慧模型必須生成完整的、循序漸進的解決方案,而不僅僅是最終答案。評估過程會檢查中間步驟的正確性和邏輯合理性。
資料集:資料集由 12500 個問題組成,這些問題來自真實世界的數學競賽和高中課程挑戰。
基準成績意味著什麼?
高 MATH 基準得分表明,人工智慧模型可以在科技、數學、工程和數學輔導、研究等技術領域表現出色,甚至可以協助數學證明和計算建模。
例如,如果一個模型的得分在 70 分或以上,它就能可靠地解決具有挑戰性的代數、微積分和幾何問題。與此同時,如果一個模型的得分低於 30 分,那麼它很可能在多步驟數學推理中失敗,並在解決抽象問題時陷入困境。
15. AIME 2025 (pass@1)
AIME(人工智慧數學評估)2025 是一項基準測試,旨在評估人工智慧模型解決高階數學問題的能力。其中的問題來自著名的數學競賽。
測試方法:
在該文字中,模型必須在第一次嘗試時提供正確答案(pass@1),沒有重試機會。問題包括代數、組合學、數論和幾何。對模型效能的評估是基於給出正確最終答案的準確性。
資料集:問題來自高階數學競賽和大學問題集。
基準測試結果意味著什麼?
AIME 2025 的高分表明人工智慧具有很強的數學推理能力,適合輔助研究、STEM 教育和科學計算。例如,如果一個模型的得分超過 80 分,那麼它就能可靠地解決非瑣碎的代數、幾何和數論問題。與此同時,得分低於 30 分的模型很可能無法完成複雜的多步推理,在精確度方面也會有困難。
目前得分最高的模型:具有擴充套件思維的 Grok 3 (Beta) 得分為 93.3%,是該基準的最高分。
16. ScienceQA
ScienceQA 是一個多模式資料集,用於評估人工智慧模型使用文字和視覺資訊進行推理的能力,特別是針對科學相關主題的推理能力。
測試方法:
該資料集包含基於科學的多項選擇題,人工智慧模型在生成正確答案之前必須同時分析文字和圖表。
資料集:收集了 21,000 道多模態問題,涵蓋物理、化學和生物,均來自教育材料。
基準測試結果意味著什麼?
科學QA的高分表明在人工智慧輔助教育、輔導平臺和科學文件分析方面的能力。例如,如果一個模型的得分超過 85 分,它就能深入解釋科學概念,從而在教育和研究中發揮作用。與此同時,得分低於 40 分的模型可能會曲解資料,在科學推理方面舉步維艱。
17. MGSM (多語種小學數學)
MGSM 測試模型用多種語言進行小學數學推理的能力。它評估多語言理解和邏輯問題解決的交叉點,幫助確定一個 LLM 是否能夠跨語言推廣數學能力。
測試方法:
該基準包括解決涉及算術、邏輯和基礎代數的數學單詞問題。每個問題都被翻譯成 10 多種語言,包括西班牙語、印地語、法語、中文和阿拉伯語。模型必須準確解釋指定語言的問題,執行正確的計算或推理,並返回正確的數字或文字答案。評估基於精確匹配的準確性和推理的正確性(如果顯示)。
資料集:MGSM 以 GSM8K 資料集為基礎,使用了超過 8500 道小學數學題,並進行了人工翻譯,以保留題意和措辭。該資料集引入了成語、句子結構變化和數字詞格式等語言複雜性。
這一基準結果意味著什麼?
MGSM 高分表明該模型可以彌合語言和推理之間的差距。這對於構建用於教育和輔導的包容性多語言人工智慧系統至關重要。
例如,得分超過 80 分的模型可以有效地用母語教授數學或回答問題。另一方面,得分低於 40 分的模型則會顯示出語言理解能力的差距或推理能力的缺陷。
評估LLM的多模態和視覺語言基準
多模態基準測試模型解釋和推理文字與視覺資料的能力。這對於影像字幕、文件理解和視覺質量保證等應用至關重要。
測試內容
- 理解影像、圖表和視覺化佈局
- 將視覺輸入與基於文字的推理相結合
- 回答視覺問題和解釋標題
- 文字和視覺任務的跨領域表現
讓我們進一步瞭解多模態 LLM 和視覺模型的一些流行基準。
18. MMMU(大規模多模態多工理解)
MMMU 評估人工智慧模型在文字、影像和圖表等多種模式下進行處理和推理的能力,這對多模式人工智慧應用至關重要。
測試方法:
對模型進行測試的任務需要同時解釋文字和視覺輸入。這些任務包括回答有關影像的問題、對圖表進行推理以及從多媒體資料中提取見解。
資料集:經過整理的影像-文字對集合,涵蓋科學圖表、圖表、醫學影像和日常場景。
基準測試結果意味著什麼?
MMMU 高分表明人工智慧模型有能力在自動文件分析、人工智慧輔助醫療成像和智慧資料視覺化等領域表現出色。例如,如果一個模型的得分超過 80 分,它就能準確處理和響應複雜的多模態查詢。與此同時,得分低於 40 分的模型在跨模態推理方面可能會遇到困難,併產生不一致的結果。
19. VQAv2(視覺問題解答)
VQAv2 測試人工智慧模型解釋影像並回答相應文字問題的能力。它被廣泛用於評估人工智慧在視覺語言理解方面的表現。
測試方法:
為人工智慧模型提供影像和自然語言問題。根據生成的答案是否符合人類標註的正確答案來衡量準確性。
資料集:資料集由 265,000 個影像-問題-答案三元組組成,可確保在不同領域進行穩健的評估。
該基準結果意味著什麼?
VQAv2 高分意味著在可訪問性應用、自動影像字幕和人工智慧驅動的內容稽覈方面具有很強的能力。例如,如果一個模型的得分超過 80%,它就能準確理解和描述複雜的影像。與此同時,得分低於 40% 的模型可能會誤解影像,難以理解上下文,並提供不正確或含糊不清的回覆。
20. BFCL(伯克利函式呼叫排行榜)
BFCL 測試模型理解 API 文件和執行函式呼叫任務的能力。它模擬了人工智慧助手必須將自然語言翻譯成結構化 API 呼叫的場景。這是基於 LLM 的代理與外部工具和環境互動的關鍵技能。
測試方法:
測試提供了一條自然語言指令(如“檢視明天中午巴黎的天氣”)和一個帶有輸入引數的可用函式定義列表。模式必須返回格式正確、符合使用者意圖的函式呼叫。
評估將檢查該模式是否能找到與預期函式簽名完全匹配的函式,是否能正確對映引數和值,是否能正確使用資料型別和約束條件。引數不匹配、幻覺函式或誤解引數等錯誤會導致得分降低。
資料集:資料集包括數千個真實 API 場景,如天氣查詢、日曆排程和搜尋任務。每個提示都有明確的規範和引數,並配有以結構化 JSON 類語法定義的函式模式。
基準測試結果意味著什麼?
BFCL 高分表明模型能夠正確解釋結構化輸入、遵循約束條件並進行精確的函式呼叫。這對與外掛或 API 等工具整合的 LLM 至關重要。
如果模型在這一基準中得分超過 90 分,則表明其具有很強的工具使用能力。而得分低於 50 分的模型則可能反映出引數處理不佳和容易產生幻覺的行為。
Leaderboard基準與官方基準對比
LLM 在受控環境中進行測試,外部偏差或額外的人為干預不會影響測試結果。大多數官方基準(如 MMLU 和 HumanEval)都是如此,它們評估的是特定的能力。然而,真實世界的排行榜(如 LLM Arena 和 Hugging Face Open LLM Leaderboard)則依賴於使用者反饋和眾包評價。因此,後者能對 LLM 的有效性進行更動態的評估。
官方基準提供標準化的評估指標,但往往不能反映真實世界的表現。基於排行榜的評估,如 LMSys 或 Hugging Face 上的評估,可以捕捉到即時的使用者反饋,從而使其成為衡量 LLM 可用性的更實用的標準。
- 官方基準允許進行可重複的測試,而排行榜基準則會根據使用者互動情況進行調整。
- 排行榜可以捕捉到靜態測試可能忽略的新出現的優點和缺點。
- 行業專家越來越青睞排行榜,因為它具有現實世界的適用性。
LMSys、Hugging Face 和 Open LLM Leaderboards 等平臺提供了動態、真實的評估。此類平臺上由社羣驅動的反饋顯示了 LLM 是如何隨著時間的推移而發展的,而不是一次性的固定基準測試。此外,大多數標準基準只公佈最終結果,這就會引起對其真實性的質疑,尤其是當高分模型在現實中表現不佳時。在這種情況下,開源基準鼓勵合作和透明,從而帶來更可靠的 LLM 評估。
以下是比較流行人工智慧模型在實際任務中表現的文章列表:
- GPT 4o、Gemini 2.5 Pro 或 Grok 3:哪個是最佳影像生成模型?
- Grok 3 比 GPT 4.5 更好嗎?
- Claude 3.7 Sonnet 更擅長編碼?
- 谷歌最新AI模型Gemini 2.5 Pro能否打敗GPT 4.5?
基準是否反映真實世界的效能?
雖然基準對於評估原始能力非常有用,但它們並不總能反映真實世界的效能。它們也沒有考慮到使用者如何體驗人工智慧模型。因此,諸如延遲、上下文管理和對使用者特定需求的適應性等因素並不能透過標準化測試完全反映出來。
例如,一個在 MMLU 上得分很高的模型在處理即時互動或需要上下文記憶的複雜提示時可能仍然會很吃力。例如,GPT-4、Gemini 2.5 Pro 和Claude 3在 MMLU 中得分很高,但在實際任務中卻大相徑庭。
諸如此類的例子清楚地表明,雖然基準分數經常被用作效能指標,但它們並不總能轉化為實際效果。
以下是一些文章,它們真實地比較了一些流行人工智慧模型的已釋出基準與它們在實際應用中的真實表現:
- Llama 4 模型:Meta AI正在開源最佳模型
- 關於 OpenAI 的 GPT-4.5 你需要知道的一切
- 我們試用了 Google 2.5 Pro 實驗性模型,它令人驚歎!
- 谷歌的 Gemma 3:功能、基準、效能和實現
小結
LLM 基準對於比較模型仍然很有價值,但面對真實世界的應用,其相關性正在減弱。雖然它們能提供有價值的見解,但真實世界測試和動態排行榜評估能更準確地反映人工智慧模型在實際場景中的表現。雖然基準測試提供了結構化的評估,但現實世界中的 LLM 效能往往會因及時工程、檢索增強生成(RAG)和人為反饋迴路而有所不同。
LLM Arena Leaderboard 等眾包評估提供了傳統基準之外的更多真實世界見解。隨著人工智慧系統的互動性越來越強,排行榜排名和使用者反饋等動態評估可以更準確地衡量 LLM 的能力。基準測試的未來可能涉及將傳統評估與真實世界測試環境相結合的混合方法。
評論留言