3月初,又一個人工智慧模型超越了 GPT-4,至少在基準測試中是如此。這一次是 Anthropic,由前 OpenAI 成員 Daniela 和 Dario Amodei 兄妹成立的公司。該公司推出了 Claude 3 系列模型,包括 Opus(最大、效能最強)、Sonnet(中型)和 Haiku(最小)。Anthropic 稱,Claude 3 Opus 模型在所有常用基準測試中均優於 GPT-4 和 Gemini 1.0 Ultra。
Claude 3 基準測試
Anthropic 在 MMLU、GPQA、GSM8K、MATH、HumanEval、HellaSwag 等流行基準測試了所有三種模型。在 MMLU 中,Claude 3 Opus 的得分是 86.8%,而 GPT-4 的報告得分是 86.4%。Gemini 1.0 Ultra 在同樣的 5 次提示技術中獲得了 83.7% 的分數。
圖片來源:Anthropic
在測試編碼能力的 HumanEval 基準測試中,最大的 Opus 模型得分 84.9%,遠高於 GPT-4 的 67% 和 Gemini 1.0 Ultra 的 74.4%。Clade 3 Opus 模型甚至在 HellaSwag 測試中擊敗了 GPT-4,但略有差距。它的得分率為 95.4%,而 GPT-4 為 95.3%,Gemini 1.0 Ultra 為 87.8%。
Claude 3 效能
總的來說,最大的 Claude 3 Opus 模型看起來很有前途,後續肯定會將它與 GPT-4、Gemini 1.5 Pro 和 Mistral Large 進行對比測試,敬請關注。除此以外,Anthropic 還表示,這三個模型在分析和預測、細微內容建立、程式碼生成以及西班牙語、日語和法語等國際語言的流暢性方面都有很強的能力。
圖片來源:Anthropic
Claude 3 模型也具有視覺功能,但 Anthropic 並未將其作為多模態模型進行營銷。Anthropic 表示,Claude 3 的視覺功能可以幫助企業客戶處理圖表、圖形和技術圖表。在基準測試中,它的表現優於 GPT-4V,但略遜於 Gemini 1.0 Ultra。
200K 上下文長度
在上下文長度方面,Anthropic 表示所有三種型號最初都將提供 20 萬個 token 的上下文視窗,不得不說這是相當大的。此外,該公司還表示,Claude 3 系列模型可以處理 100 多萬個 token,但這一功能只提供給特定客戶。
圖片來源:Anthropic
在超過 20 萬個詞條的 “乾草堆中的針”(Needle In A Haystack,NIAH)測試中,Opus 模型表現出色,檢索準確率超過 99%,與 Gemini 1.5 Pro 一樣。
Claude 一直是長語境檢索的最佳人工智慧模型之一,而 Claude 3 的效能有了顯著提高。
效能和價格
在效能方面,Anthropic 表示 Claude 3 模型速度相當快,最大的 Opus 模型與 Claude 2 和 2.1 效能相同,但智慧性更好。中型的 Sonnet 模型比 Claude 2 和 2.1 快近 2 倍。除此之外,Anthropic 還提到 Claude 3 模型拒絕應答的可能性大大降低,而這在早期模型中是個問題。
你可以通過訂閱 Claude Pro 開始使用模型 Opus,稅後價格為 23.60 美元。中型的 Claude 3 Sonnet 已經部署在免費版的 claude.ai 上。最後,開發人員可以立即訪問 Opus 和 Sonnet 模型的 API。
圖片來源:Anthropic
至於 API 的定價,Claude 3 Opus 200K 上下文視窗的價格為每百萬 token(輸入)15 美元,每百萬 token(輸出)75 美元。與 GPT-4 Turbo(10 美元輸入/30 美元輸出,128K 上下文)相比,該定價顯得相當昂貴。
不過,您對 Anthropic 釋出的新系列模型,尤其是 Opus 模型有何看法?請在下面的評論區告訴我們。
評論留言