3月初,又一个人工智能模型超越了 GPT-4,至少在基准测试中是如此。这一次是 Anthropic,由前 OpenAI 成员 Daniela 和 Dario Amodei 兄妹成立的公司。该公司推出了 Claude 3 系列模型,包括 Opus(最大、性能最强)、Sonnet(中型)和 Haiku(最小)。Anthropic 称,Claude 3 Opus 模型在所有常用基准测试中均优于 GPT-4 和 Gemini 1.0 Ultra。
Claude 3 基准测试
Anthropic 在 MMLU、GPQA、GSM8K、MATH、HumanEval、HellaSwag 等流行基准测试了所有三种模型。在 MMLU 中,Claude 3 Opus 的得分是 86.8%,而 GPT-4 的报告得分是 86.4%。Gemini 1.0 Ultra 在同样的 5 次提示技术中获得了 83.7% 的分数。
图片来源:Anthropic
在测试编码能力的 HumanEval 基准测试中,最大的 Opus 模型得分 84.9%,远高于 GPT-4 的 67% 和 Gemini 1.0 Ultra 的 74.4%。Clade 3 Opus 模型甚至在 HellaSwag 测试中击败了 GPT-4,但略有差距。它的得分率为 95.4%,而 GPT-4 为 95.3%,Gemini 1.0 Ultra 为 87.8%。
Claude 3 性能
总的来说,最大的 Claude 3 Opus 模型看起来很有前途,后续肯定会将它与 GPT-4、Gemini 1.5 Pro 和 Mistral Large 进行对比测试,敬请关注。除此以外,Anthropic 还表示,这三个模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等国际语言的流畅性方面都有很强的能力。
图片来源:Anthropic
Claude 3 模型也具有视觉功能,但 Anthropic 并未将其作为多模态模型进行营销。Anthropic 表示,Claude 3 的视觉功能可以帮助企业客户处理图表、图形和技术图表。在基准测试中,它的表现优于 GPT-4V,但略逊于 Gemini 1.0 Ultra。
200K 上下文长度
在上下文长度方面,Anthropic 表示所有三种型号最初都将提供 20 万个 token 的上下文窗口,不得不说这是相当大的。此外,该公司还表示,Claude 3 系列模型可以处理 100 多万个 token,但这一功能只提供给特定客户。
图片来源:Anthropic
在超过 20 万个词条的 “干草堆中的针”(Needle In A Haystack,NIAH)测试中,Opus 模型表现出色,检索准确率超过 99%,与 Gemini 1.5 Pro 一样。
Claude 一直是长语境检索的最佳人工智能模型之一,而 Claude 3 的性能有了显著提高。
性能和价格
在性能方面,Anthropic 表示 Claude 3 模型速度相当快,最大的 Opus 模型与 Claude 2 和 2.1 性能相同,但智能性更好。中型的 Sonnet 模型比 Claude 2 和 2.1 快近 2 倍。除此之外,Anthropic 还提到 Claude 3 模型拒绝应答的可能性大大降低,而这在早期模型中是个问题。
你可以通过订阅 Claude Pro 开始使用模型 Opus,税后价格为 23.60 美元。中型的 Claude 3 Sonnet 已经部署在免费版的 claude.ai 上。最后,开发人员可以立即访问 Opus 和 Sonnet 模型的 API。
图片来源:Anthropic
至于 API 的定价,Claude 3 Opus 200K 上下文窗口的价格为每百万 token(输入)15 美元,每百万 token(输出)75 美元。与 GPT-4 Turbo(10 美元输入/30 美元输出,128K 上下文)相比,该定价显得相当昂贵。
不过,您对 Anthropic 发布的新系列模型,尤其是 Opus 模型有何看法?请在下面的评论区告诉我们。
评论留言