继早些时候对 Gemini 1.5 Pro 和 GPT-4 进行比较之后,我们又对 Anthropic 的 Claude 3 Opus 模型进行了新的人工智能模型测试。该公司称,Claude 3 Opus 最终在流行基准测试中击败了 OpenAI 的 GPT-4 模型。为了验证这一说法,我们对 Claude 3 Opus、GPT-4 和 Gemini 1.5 Pro 进行了详细对比。
如果你想了解 Claude 3 Opus 模型在高级推理、数学、长语境数据、图像分析等方面的表现,请看下面的对比。
1. 苹果测试
I have 3 apples today, yesterday I ate an apple. How many apples do I have now?(今天我有 3 个苹果,昨天我吃了一个苹果。我现在有几个苹果?)
让我们从流行的苹果测试开始,它可以评估 LLM 的推理能力。在这个测试中,Claude 3 Opus 模型的回答是正确的,它说你现在有三个苹果。不过,为了得到正确的回答,我必须设置一个系统提示,补充说明你是一个智能助理,是高级推理专家。
在没有系统提示的情况下,Opus 模型给出的答案是错误的。而 Gemini 1.5 Pro 和 GPT-4 则给出了正确答案,与我们之前的测试结果一致。
胜出者:Claude 3 Opus, Gemini 1.5 Pro, 和 GPT-4
2. 计算时间
If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?(如果在太阳下烘干 15 条毛巾需要 1 小时,那么烘干 20 条毛巾需要多长时间?)
在这项测试中,我们试图欺骗人工智能模型,看看它们是否表现出任何智能迹象。遗憾的是,Claude 3 Opus 和 Gemini 1.5 Pro 一样,都没有通过测试。我还在系统提示中添加了问题可能比较棘手的提示,所以要聪明地思考。然而,Opus 模型却钻研数学,得出了错误的结论。
在我们之前的比较中,GPT-4 在这项测试中也给出了错误的答案。不过,在我们公布结果后,GPT-4 一直在不断生成输出,经常是错的,有时是对的。今天上午,我们再次运行了相同的提示,GPT-4 也给出了错误的输出,甚至在被告知不使用代码解释器时也是如此。
胜出者:没有
3. 评估重量
What’s heavier, a kilo of feathers or a pound of steel?(一公斤羽毛和一磅钢铁哪个更重?)
接下来,我们让所有三个人工智能模型回答一公斤羽毛是否比一磅钢重。结果,Claude 3 Opus 回答错误,说一磅钢和一公斤羽毛的重量相同。
Gemini 1.5 Pro 和 GPT-4 人工智能模型给出了正确答案。一公斤任何材料都比一磅钢重,因为一公斤的质量值是一磅的 2.2 倍。
胜出者:Gemini 1.5 Pro 和 GPT-4
4. 解决数学问题
If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?(如果 x 和 y 分别是乘积 725 278 * 67 066 的十位数和个位数,那么 x + y 的值是多少。你能解释不计算整数的最简便解法吗?)
在下一个问题中,我们要求 Claude 3 Opus 模型在不计算整数的情况下解决一个数学问题。结果它又失败了。每次我运行提示时,不管有没有系统提示,它都会给出不同程度的错误答案。
我很高兴看到 Claude 3 Opus 在数学基准测试中获得 60.1% 的分数,超过了 GPT-4(52.9%)和 Gemini 1.0 Ultra(53.2%)。
看来通过思维链提示,Claude 3 Opus 模型可以获得更好的结果。就目前而言,GPT-4 和 Gemini 1.5 Pro 在 zero-shot 提示下都给出了正确答案。
胜出者:Gemini 1.5 Pro 和 GPT-4
5. 遵循用户指令
Generate 10 sentences that end with the word “apple”(生成 10 个以 “apple” 结尾的句子)
在执行用户指令方面,Claude 3 Opus 模型的表现非常出色。它有效地击败了所有人工智能模型。当被要求生成 10 个以 “apple” 结尾的句子时,它能生成 10 个完全符合逻辑的以 “apple” 结尾的句子。
相比之下,GPT-4 能生成九个这样的句子,而 Gemini 1.5 Pro 的表现最差,甚至连三个这样的句子都生成不了。我想说,如果你正在寻找一个人工智能模型,而遵循用户指令对你的任务至关重要,那么 Claude 3 Opus 是一个可靠的选择。
当一位 X 用户要求 Claude 3 Opus 遵循多个复杂的指令,并在 Andrej Karpathy 的 Tokenizer 视频中创建一个书本章节时,我们看到了这一点。Opus 模型表现出色,创建了一个包含说明、示例和相关图片的精美书章。
胜出者:Claude 3 Opus
6. 大海捞针(NIAH)测试
Anthropic 是推动人工智能模型支持大型上下文窗口的公司之一。Gemini 1.5 Pro 可加载多达一百万个 token(预览版),而 Claude 3 Opus 的上下文窗口为 20 万个 token。根据 NIAH 的内部研究结果,Opus 模型检索针的准确率超过 99%。
在仅有 8K 标记的测试中,Claude 3 Opus 无法找到针,而 GPT-4 和 Gemini 1.5 Pro 却能轻松找到。我们还在 Claude 3 Sonnet 上进行了测试,但再次失败。我们需要对 Claude 3 模型进行更广泛的测试,以了解它们在长文本数据上的性能。但现在看来,Anthropic 的情况并不乐观。
胜出者:Gemini 1.5 Pro 和 GPT-4
7. 猜电影(视觉测试)
Claude 3 Opus 是一个多模态模型,也支持图像分析。因此,我们添加了谷歌 Gemini demo 的剧照,让它猜电影。它给出了正确答案: Breakfast at Tiffany’s。干得好,Anthropic!
GPT-4 也给出了正确的电影名称,但奇怪的是,Gemini 1.5 Pro 却给出了错误的答案。我不知道谷歌在搞什么鬼。不过,Claude 3 Opus 的图像处理能力相当不错,与 GPT-4 不相上下。
given the play on words of these images, guess the name of the movie(根据这些图片的文字游戏,猜猜电影的名字)
胜出者:Claude 3 Opus 和 GPT-4
小结
在对 Claude 3 Opus 模型进行了一天的测试后,我们发现这款模型似乎很有能力,但在一些你期望它表现出色的任务中却表现不佳。在我们的常识推理测试中,Opus 模型表现不佳,落后于 GPT-4 和 Gemini 1.5 Pro。除了遵循用户指令外,它在 NIAH(本应是其强项)和数学方面的表现也不尽如人意。
此外,请记住,Anthropic 将 Claude 3 Opus 的基准测试成绩与 GPT-4 在 2023 年 3 月首次发布时的初始报告成绩进行了比较。正如 Tolga Bilge 在 X 上指出的那样,与 GPT-4 的最新基准分数相比,Claude 3 Opus 输给了 GPT-4。
尽管如此,Claude 3 Opus 也有自己的优势。X 上的一位用户报告说,Claude 3 Opus 仅凭翻译对数据库就能将俄语翻译成切尔克斯语(一种很少有人会说的罕见语言)。凯文-费舍尔(Kevin Fischer)进一步分享说,Claude 3 可以理解博士级量子物理学的细微差别。另一位用户演示了 Claude 3 Opus 一次就能学会自我类型注释,比 GPT-4 更好。
因此,除了基准测试和棘手的问题之外,Claude 3 在一些专业领域的表现也更出色。因此,请继续查看 Claude 3 Opus 模型,看看它是否适合您的工作流程。如果您有任何问题,请在下面的评论区告诉我们。
评论留言