2025年14個熱門LLM基準測試

熱門LLM基準測試

大型語言模型(LLM)已被證明是一種強大的工具,在解釋和生成模仿人類語言的文字方面表現出色。然而,這些模型的廣泛使用帶來了準確評估其效能的複雜任務。在此,LLM 基準佔據了中心位置,它提供了系統的評估,以衡量模型在語言理解和高階推理等任務中的技能。本文探討了它們的關鍵作用,重點介紹了著名的示例,並研究了它們的侷限性,全面介紹了它們對語言技術的影響。

基準測試對於評估大型語言模型(LLM)至關重要,是衡量和比較效能的標準。它們為評估從基本語言理解到高階推理和程式設計等技能提供了一致的方法。

什麼是LLM基準測試?

LLM 基準測試是結構化測試,旨在評估語言模型在特定任務中的表現。它們有助於回答一些關鍵問題,例如

  • 該 LLM 能否有效處理編碼任務?
  • 它在對話中提供相關答案的能力如何?
  • 它是否能夠解決複雜的推理問題?

LLM基準測試的主要特點

  • 標準化測試:每個基準都由一組已知正確答案的任務組成,以便進行一致的評估。
  • 評估領域多樣化:基準可側重於各種技能,包括
    • 語言理解能力
    • 數學問題解決能力
    • 編碼能力
    • 對話質量
    • 安全和道德考慮

制定LLM基準測試的必要性何在?

評估的標準化和透明度

  • 比較一致性:基準有助於在 LLM 之間進行直接比較,確保評估的透明度和可重複性。
  • 績效快照:基準可快速評估新的 LLM 相對於已有模式的能力。

進度跟蹤和改進

  • 監測進展:基準有助於觀察模型效能隨時間推移的改進情況,幫助研究人員完善模型。
  • 發現侷限:這些工具可以指出模型的不足之處,從而指導未來的研發工作。

模型選擇

  • 知情選擇:對於從業人員來說,基準是為特定任務選擇模型時的重要參考,可確保為聊天機器人或客戶支援系統等應用做出明智的決策。

LLM基準測試的工作原理

以下是分步流程:

  • 資料集輸入和測試
    • 基準測試提供各種任務供 LLM 完成,如回答問題或生成程式碼。
    • 每個基準都包含一個文字輸入資料集和相應的“地面實況”答案,以供評估。
  • 效能評估和評分:完成任務後,根據任務型別,使用準確率或 BLEU 分數等標準化指標對模型的回答進行評估。
  • LLM 排名和排行榜:根據得分對模型進行排名,排名通常顯示在彙總多個基準結果的排行榜上。

推理基準測試

1. ARC:抽象與推理挑戰

抽象與推理語料庫(ARC)從瑞文漸進矩陣(Raven’s Progressive Matrices)中汲取靈感,對機器智慧進行基準測試。它挑戰人工智慧系統根據幾個例子識別序列中的下一幅影象,促進反映人類認知能力的少量學習。通過強調泛化和利用 “先驗”(關於世界的內在知識),ARC 旨在推動人工智慧向人類推理的方向發展。該資料集採用結構化課程,系統地指導系統完成日益複雜的任務,同時通過預測準確性來衡量效能。儘管取得了進步,但人工智慧仍難以達到人類水平,這凸顯了人工智慧研究不斷進步的必要性。

ARC:抽象與推理挑戰

Source: Link

抽象與推理語料庫包括人類和人工智慧系統都能解決的各種任務。受瑞文漸進矩陣(Raven’s Progressive Matrices)的啟發,任務形式要求參與者識別序列中的下一幅影象,以測試他們的認知能力。

2. 大規模多學科多模態理解(MMMU)

大規模多學科多模態理解和推理(MMMU)基準評估了大學水平知識和推理任務中的多模態模型。它包括來自六個學科的考試、測驗和教科書中的 11.5K 個問題: 藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程。

這些問題橫跨 30 個學科和 183 個子領域,包含 30 種不同的影象型別,如圖表、示意圖、地圖和化學結構。MMMU 側重於利用特定領域的知識進行高階感知和推理,挑戰模型執行專家級任務,旨在測量大型多模態模型(LMM)的感知、知識和推理技能。對包括 GPT-4V 在內的現有模型的評估顯示,即使高階模型也只能達到 56% 左右的準確率,但仍有很大的改進空間。為了加強評估,我們引入了一個更強大的基準版本–MMMU-Pro。

大規模多學科多模態理解(MMMU)

Source: Link

各學科的 MMMU 示例。這些問題和圖片需要專家級的知識才能理解和推理。

3. GPQA:高階推理的挑戰性基準測試

GPQA 是一個包含 448 道生物、物理和化學選擇題的資料集,旨在挑戰專家和高階人工智慧。擁有博士學位的領域專家建立並驗證了這些問題,以確保問題的高質量和高難度。儘管網際網路訪問不受限制,專家們的準確率達到了 65%(回溯發現的錯誤為 74%),而擁有其他領域博士學位的非專家們的準確率僅為 34%,這證明這些問題 “不受谷歌影響”。GPT-4 等領先的人工智慧模型的準確率僅為 39%。GPQA 支援對超越人類能力的人工智慧進行可擴充套件監督的研究,幫助人類提取真實的資訊,即使是他們專業知識以外的主題。

GPQA:高階推理的挑戰性基準測試

Source: Link

起初,我們會精心設計一個問題,然後由同一領域的專家提供答案和反饋,其中可能包括對問題的修改建議。隨後,問題撰寫人根據專家的反饋意見修改問題。修改後的問題會被髮送給同一領域的另一位專家和其他領域的三位非專家驗證者。如果專家驗證者最初回答正確,或者在看到正確答案後對其最初的錯誤做出了明確解釋,或者對問題撰寫者的解釋表現出了透徹的理解,我們就認為他們同意(*)。

4. 測量大規模多工語言理解能力(MMLU)

大規模多工語言理解(MMLU)基準測試,旨在衡量文字模型在預培訓期間獲得的知識。MMLU 針對 57 種不同任務對模型進行評估,包括初等數學、美國曆史、電腦科學、法律等。它採用多項選擇題的格式,使評估簡單明瞭。

與以往的基準測試相比,該基準測試旨在對語言理解能力進行更全面、更具挑戰性的測試,要求將知識與推理相結合。論文介紹了幾個模型的結果,表明即使是大型預訓練模型在 MMLU 上也很吃力,這表明語言理解能力還有很大的提升空間。此外,論文還探討了規模和微調對 MMLU 效能的影響。

測量大規模多工語言理解能力(MMLU)

Source: Link

這項任務要求理解詳細和不協調的情景,運用適當的法律先例,並選擇正確的解釋。綠色複選標記為基本事實。

編碼基準測試

5. HumanEval:評估根據語言模型生成的程式碼

HumanEval 是一個旨在評估由語言模型生成的程式碼的功能正確性的基準測試。它由 164 個程式設計問題組成,包含函式簽名、docstring 和幾個單元測試。這些問題評估語言理解、推理、演算法和簡單數學方面的技能。與以往依賴語法相似性的基準不同,HumanEval 評估生成的程式碼是否真正通過了所提供的單元測試,從而衡量功能的正確性。該基準突顯了當前語言模型與人類級程式碼生成之間的差距,揭示了即使是大型模型也很難始終如一地生成正確的程式碼。它是評估程式碼生成語言模型能力的一項具有挑戰性的實用測試。

HumanEval

Source: Link

以下是 HumanEval 資料集中的三個示例問題,並附有 Codex-12B 單個樣本通過單元測試的概率: 0.9、0.17 和 0.005。提交給模型的提示顯示在白色背景上,而模型生成的成功完成則突出顯示在黃色背景上。雖然這並不能保證問題的新穎性,但所有問題都是手工精心製作的,而不是從現有資源中以程式設計方式複製而來,從而確保了資料集的獨特性和挑戰性。

6. SWE-Bench

SWE-Bench 是一項基準測試,旨在評估大型語言模型(LLM)解決 GitHub 上實際軟體問題的能力。它由 2294 個軟體工程問題組成,這些問題來自 GitHub 上的真實問題和 12 個流行 Python 倉庫中相應的拉取請求。任務包括向語言模型提供程式碼庫和問題描述,要求它生成一個能解決問題的補丁。然後根據版本庫的測試框架對模型提出的解決方案進行評估。SWE-bench 專注於評估整個 “代理 ”系統,其中包括人工智慧模型和負責生成提示、解析輸出和管理互動迴圈的周邊軟體支架2。經過人工驗證的子集名為 SWE-bench Verified,由 500 個樣本組成,可確保任務的可解決性,並能更清晰地衡量編碼代理的效能。

SWE-Bench

Source: Link

SWE-bench 通過連線 GitHub 問題和解決相關測試的合併拉取請求解決方案,從現實世界的 Python 程式碼庫中獲取任務例項。有了問題文字和程式碼庫快照,模型就會生成補丁,並根據實際測試進行評估。

7. SWE-Lancer

SWE-Lancer 是一個基準測試,用於評估前沿語言模型(LLM)在完成來自 Upwork 的真實世界自由軟體工程任務方面的能力,總價值達 100 萬美元。它包括 1,400 多項任務,從價值 50 美元的簡單錯誤修復到價值高達 32,000 美元的複雜功能實現,不一而足。該基準評估了兩類任務: 個人貢獻者(IC)任務,即模型生成程式碼補丁,並由專業工程師進行端到端測試驗證;SWE 管理員任務,即模型從多個選項中選擇最佳實施方案。研究結果表明,即使是先進的模型也很難解決大多數任務,這凸顯了當前人工智慧能力與現實世界軟體工程需求之間的差距。通過將模型效能與貨幣價值掛鉤,SWE-Lancer 旨在促進研究人工智慧在軟體開發中的經濟意義。

SWE-Lancer

Source: Link

IC SWE 任務的評估過程包括對模型效能進行全面測試的嚴格評估。模型會收到一組任務,它必須生成滿足所有適用測試的解決方案,才能獲得報酬。這一評估流程可確保模型的輸出不僅正確,而且全面,符合真實世界軟體工程任務的高標準要求。

8. 實時程式碼工作臺

LiveCodeBench 是一種新型基準測試,旨在通過解決現有基準測試的侷限性,對程式碼相關任務中的大型語言模型(LLM)進行全面、無汙染的評估。它使用的問題來自 LeetCode、AtCoder 和 CodeForces 等平臺上的每週編碼競賽,並標註了釋出日期以防止汙染,除程式碼生成外,還在自我修復、程式碼執行和測試輸出預測方面對 LLM 進行評估。LiveCodeBench 在 2023 年 5 月至 2024 年 5 月期間釋出了 500 多個編碼問題,具有高質量的問題和測試、均衡的問題難度,並揭示了某些模型與 HumanEval 的潛在過度擬合,突出了不同模型在不同編碼任務中的不同優勢。

實時程式碼工作臺

Source: Link

LiveCodeBench 通過呈現各種編碼場景,提供了一種全面的評估方法。編碼是一項複雜的任務,我們建議通過一系列評估設定來評估大型語言模型(LLM),這些設定可以捕捉到一系列與編碼相關的技能。除了典型的程式碼生成設定外,我們還引入了另外三個場景:自我修復、程式碼執行和新穎的測試輸出預測任務。

9. 程式碼力量

CodeForces 是一項新穎的基準測試,旨在通過與 CodeForces 平臺直接對接,評估大型語言模型(LLM)的競賽級程式碼生成能力。這種方法通過訪問隱藏測試用例、支援特殊裁判和一致的執行環境來確保準確的評估。CodeForces 引入了標準化的 Elo 評級系統,該系統與 CodeForces 自身的評級系統保持一致,但減少了差異,從而允許 LLM 與人類競爭對手進行直接比較。對 33 個 LLM 的評估顯示了顯著的效能差異,OpenAI 的 o1-mini 獲得了 1578 的最高 Elo 評級,在人類參賽者中排名前 90%。該基準揭示了先進模型所取得的進步,以及當前大多數 LLMs 在程式設計競技能力方面仍有相當大的提升空間。CodeForces 基準及其 Elo 計算邏輯是公開的。

程式碼力量

Source: Link

CodeForces 提出了廣泛的程式設計挑戰,每個問題的結構都經過精心設計,包括基本元件。這些組成部分通常包括 1)描述性標題;2)解決方案的時間限制;3)程式的記憶體限制;4)詳細的問題描述;5)輸入格式;6)預期輸出格式;7)指導程式設計師的測試用例;8)提供額外背景或提示的可選註釋。其中一個問題名為 “CodeForces 問題 E”,可通過以下網址訪問:https://codeforces.com/contest/2034/problem/E 。這個問題經過精心設計,旨在測試程式設計師在競爭激烈的編碼環境中的技能,挑戰他們在給定的時間和記憶體限制內建立高效和有效的解決方案。

工具使用(代理)基準測試

10. TAU-Bench

τ-Bench積極評估語言代理與(模擬)人類使用者和程式設計應用程式介面互動的能力,同時遵守特定領域的政策。現有的基準測試通常以簡化的指令遵循設定為特色,與之不同的是,τ-bench 模擬了使用者(由語言模型模擬)與配備了特定領域 API 工具和策略指南的語言代理之間的動態對話。該基準採用了一個模組化框架,其中包括真實的資料庫和應用程式介面、特定領域的政策文件以及針對不同使用者場景的指令和相應的地面實況註釋。τ-bench 的一個主要特點是其評估流程,該流程將對話結束時的資料庫狀態與註釋的目標狀態進行比較,從而對代理的決策進行客觀衡量。

該基準還引入了一個新指標–pass^k,用於評估代理行為在多次試驗中的可靠性,突出了在真實世界應用中,代理需要能夠始終如一地行動並可靠地遵守規則。初步實驗表明,即使是最先進的函式呼叫代理,在複雜推理、遵守策略和處理複合請求方面也會遇到困難。

TAU-Bench

Source: Link

τ-bench 是一種創新基準測試,在該基準測試中,代理與資料庫 API 工具和 LM 模擬使用者進行互動,以完成任務。它評估了代理通過多種互動方式收集並向使用者傳達相關資訊的能力,同時還測試了代理實時解決複雜問題的能力,以確保遵守特定領域政策檔案中列出的準則。在 τ-airline 任務中,代理必須根據領域政策拒絕使用者更改基本經濟艙航班的請求,然後提出替代解決方案–取消和重新預訂。這項任務要求代理在涉及資料庫、規則和使用者意圖的複雜環境中進行零點推理。

語言理解和問題解答基準測試

11. 超級語言學習

SuperGLUE 通過高階基準測試評估自然語言理解(NLU)模型的能力,提供比其前身 GLUE 要求更高的評估。在保留 GLUE 兩項最具挑戰性任務的同時,SuperGLUE 引入了更復雜的新任務,需要更深入的推理、常識性知識和上下文理解。它超越了 GLUE 的句子和句對分類,增加了問題解答和核心參照解析等任務。SuperGLUE 的設計者創造了受過大學教育的英語使用者能夠完成的任務,但這些任務仍然超出了當前最先進系統的能力。該基準為比較提供了全面的人類基準,併為模型評估提供了工具包。SuperGLUE 旨在衡量和推動通用語言理解技術的發展。

超級語言學習

Source: Link

SuperGLUE 任務開發集提供了多種多樣的示例,每種示例都以獨特的格式呈現。這些示例通常包括粗體文字,以表明每個任務的特定格式。模型輸入整合了斜體文字,以提供重要的背景或資訊。它特別標註了輸入內容中的下劃線文字,通常是為了突出特定的重點或要求。最後,它使用單倍行距字型來表示預期輸出,展示預期響應或解決方案。

12. HelloSwag

HellaSwag 是用於評估常識自然語言推理(NLI)的基準資料集。它挑戰機器根據給定語境完成句子。該資料集由 Zellers 等人開發,包含 70,000 個問題。人類的準確率超過 95%,而頂級模型的準確率低於 50%。該資料集使用對抗過濾(Adversarial Filtering,AF)來生成具有誤導性但看似合理的錯誤答案,從而增加了模型找到正確答案的難度。這凸顯了 BERT 等深度學習模型在常識推理方面的侷限性。HellaSwag 強調了不斷髮展基準的必要性,這些基準能讓人工智慧系統在理解類似人類的場景時不斷面臨挑戰。

HelloSwag

Source: Link

BERT 等模型在完成 HellaSwag 中的句子時經常會遇到困難,即使這些句子與訓練資料分佈相同。不正確的結尾雖然與上下文相關,但卻不符合人類的正確性和合理性標準。例如,在 WikiHow 的一個段落中,選項 A 建議司機在紅燈前只停兩秒鐘,這顯然是錯誤和不切實際的。

數學基準測試

13. 數學資料集

文章中介紹的 MATH 資料集包含 12,500 道具有挑戰性的數學競賽題。它可以評估機器學習模型解決問題的能力。這些問題來自 AMC 10、AMC 12 和 AIME 等競賽,涵蓋不同難度級別和科目,如前代數、代數、數論和幾何。與可以用已知公式解決的典型數學問題不同,MATH 問題需要解決問題的技巧和啟發式方法。每個問題都包括一個逐步的解決方案,幫助模型學習生成答案推導和解釋,以獲得更多可解釋的輸出結果。

數學資料集

Source: Link

該示例包括各種數學問題的生成解和相應的地面實況解。最近一次 AIME 於 2 月 6 日舉行,很快引起了數學界的興趣。考試結束後,人們很快就在 YouTube、線上論壇和部落格上分享了問題和解決方案。這種快速的討論凸顯了社羣對這些挑戰的熱情。例如,第一個問題生成的解決方案正確且解釋清楚,顯示了成功的模型輸出。相比之下,第二個問題涉及組合學和一個圖形,對模型提出了挑戰,導致了一個錯誤的解決方案。

14. 2025年美國數學邀請賽

美國數學邀請賽(AIME)是一項著名的數學競賽,也是選拔美國隊參加國際數學奧林匹克競賽的第二階段。大多數參賽者是高中生,但每年也有一些優秀的初中生獲得參賽資格。這項考試由美國數學協會舉辦。

數學界很快就對 2 月 6 日舉行的奧林匹克數學競賽產生了興趣,考試結束後不久就在 YouTube、論壇和部落格上分享和討論問題及解決方案。這種快速的分析反映了社羣對這些具有挑戰性的競賽的熱情。

2025年美國數學邀請賽

Source: Link

本圖表示 AIME 2025 論文中的一個示例問題和解決方案。該基準側重於 LLM 的數學推理能力。

小結

開發人員幾乎每天都要在大型資料集上建立和訓練新模型,使其具備各種能力。LLM 基準測試在比較這些模型方面起著至關重要的作用,它能回答一些基本問題,如哪種模型最適合編寫程式碼、哪種模型在推理方面最出色、哪種模型能最有效地處理 NLP 任務等。因此,在這些基準測試上對模型進行評估就成了必經之路。隨著我們向 AGI 快速邁進,研究人員也在建立新的基準測試,以跟上時代的進步。

評論留言