Anthropic釋出Claude 3人工智慧模型以對抗GPT-4和Gemini 1.0 Ultra

Anthropic釋出Claude 3人工智慧模型

3月初，又一個人工智慧模型超越了 GPT-4，至少在基準測試中是如此。這一次是 Anthropic，由前 OpenAI 成員 Daniela 和 Dario Amodei 兄妹成立的公司。該公司推出了 Claude 3 系列模型，包括 Opus（最大、效能最強）、Sonnet（中型）和 Haiku（最小）。Anthropic 稱，Claude 3 Opus 模型在所有常用基準測試中均優於 GPT-4 和 Gemini 1.0 Ultra。

Claude 3 基準測試

Anthropic 在 MMLU、GPQA、GSM8K、MATH、HumanEval、HellaSwag 等流行基準測試了所有三種模型。在 MMLU 中，Claude 3 Opus 的得分是 86.8%，而 GPT-4 的報告得分是 86.4%。Gemini 1.0 Ultra 在同樣的 5 次提示技術中獲得了 83.7% 的分數。

Claude 3 基準測試

圖片來源：Anthropic

在測試編碼能力的 HumanEval 基準測試中，最大的 Opus 模型得分 84.9%，遠高於 GPT-4 的 67% 和 Gemini 1.0 Ultra 的 74.4%。Clade 3 Opus 模型甚至在 HellaSwag 測試中擊敗了 GPT-4，但略有差距。它的得分率為 95.4%，而 GPT-4 為 95.3%，Gemini 1.0 Ultra 為 87.8%。

Claude 3 效能

總的來說，最大的 Claude 3 Opus 模型看起來很有前途，後續肯定會將它與 GPT-4、Gemini 1.5 Pro 和 Mistral Large 進行對比測試，敬請關注。除此以外，Anthropic 還表示，這三個模型在分析和預測、細微內容建立、程式碼生成以及西班牙語、日語和法語等國際語言的流暢性方面都有很強的能力。

Claude 3 效能

圖片來源：Anthropic

Claude 3 模型也具有視覺功能，但 Anthropic 並未將其作為多模態模型進行營銷。Anthropic 表示，Claude 3 的視覺功能可以幫助企業客戶處理圖表、圖形和技術圖表。在基準測試中，它的表現優於 GPT-4V，但略遜於 Gemini 1.0 Ultra。

200K 上下文長度

在上下文長度方面，Anthropic 表示所有三種型號最初都將提供 20 萬個 token 的上下文視窗，不得不說這是相當大的。此外，該公司還表示，Claude 3 系列模型可以處理 100 多萬個 token，但這一功能只提供給特定客戶。

200K 上下文長度

圖片來源：Anthropic

在超過 20 萬個詞條的 “乾草堆中的針”（Needle In A Haystack，NIAH）測試中，Opus 模型表現出色，檢索準確率超過 99%，與 Gemini 1.5 Pro 一樣。
Claude 一直是長語境檢索的最佳人工智慧模型之一，而 Claude 3 的效能有了顯著提高。

效能和價格

在效能方面，Anthropic 表示 Claude 3 模型速度相當快，最大的 Opus 模型與 Claude 2 和 2.1 效能相同，但智慧性更好。中型的 Sonnet 模型比 Claude 2 和 2.1 快近 2 倍。除此之外，Anthropic 還提到 Claude 3 模型拒絕應答的可能性大大降低，而這在早期模型中是個問題。

你可以通過訂閱 Claude Pro 開始使用模型 Opus，稅後價格為 23.60 美元。中型的 Claude 3 Sonnet 已經部署在免費版的 claude.ai 上。最後，開發人員可以立即訪問 Opus 和 Sonnet 模型的 API。

效能和價格

圖片來源：Anthropic

至於 API 的定價，Claude 3 Opus 200K 上下文視窗的價格為每百萬 token（輸入）15 美元，每百萬 token（輸出）75 美元。與 GPT-4 Turbo（10 美元輸入/30 美元輸出，128K 上下文）相比，該定價顯得相當昂貴。

不過，您對 Anthropic 釋出的新系列模型，尤其是 Opus 模型有何看法？請在下面的評論區告訴我們。

Anthropic釋出Claude 3人工智慧模型以對抗GPT-4和Gemini 1.0 Ultra

Claude 3 基準測試

Claude 3 效能

200K 上下文長度

效能和價格

評論留言

取消回覆

文章目录

Anthropic釋出Claude 3人工智慧模型以對抗GPT-4和Gemini 1.0 Ultra

Claude 3 基準測試

Claude 3 效能

200K 上下文長度

效能和價格

相關文章

評論留言

取消回覆

文章目录