Gemini 1.5 Pro对比评测:很多方面的表现比GPT-4和Gemini 1.0 Ultra还要厉害

Gemini 1.5 Pro对比评测

二月中旬前,谷歌宣布推出新一代 Gemini 模型- Gemini 1.5 Pro,直到二月终,我们终于可以体验这个备受期待的模型的 100 万个 token 上下文窗口。

在展示 Gemini 1.5 Pro 与 GPT-4 和 Gemini 1.0 Ultra 的对比结果之前,我们先来了解一下新款 Gemini 1.5 Pro 的基本情况。

什么是 Gemini 1.5 Pro 人工智能模型?

经过几个月的等待,Gemini 1.5 Pro 模型似乎成为了谷歌稳定的多模态 LLM。与 Gemini 1.0 系列模型所基于的传统密集模型不同,Gemini 1.5 Pro 模型采用了专家混合物(MoE)架构

有趣的是,MoE 架构也被 OpenAI 应用GPT-4 模型上。

但这还不是全部,Gemini 1.5 Pro 可以处理 100 万个 token 的超大上下文长度,远远超过 GPT-4 Turbo 的 128K 和 Claude 2.1 的 200K token 上下文长度。谷歌还在内部对该模型进行了多达 1,000 万个 token 的测试,Gemini 1.5 Pro 机型能够摄取海量数据,展示了强大的检索能力。

谷歌还表示,尽管 Gemini 1.5 Pro 比最大的 Gemini 1.0 Ultra 型号(通过 Gemini Advanced 提供)要小,但它的性能大致处于同一水平。那么,我们来评估一下这些高大上的说法吧?

Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4

1. Apple 测试

此前有外国媒体进行的 Gemini 1.0 Ultra 和 GPT-4 对比中,谷歌在测试 LLM 逻辑推理能力的标准 Apple 测试中输给了 OpenAI。然而,新发布的 Gemini 1.5 Pro 模型正确回答了这一问题,这意味着谷歌确实在 Gemini 1.5 Pro 模型上改进了高级推理能力。

谷歌又回来了!和之前一样,GPT-4 回答了正确答案,而双子座 1.0 Ultra 仍然给出了错误答案,说你还剩 2 个苹果。

我今天有 3 个苹果,昨天我吃了一个苹果。我现在有几个苹果?(I have 3 apples today, yesterday I ate an apple. How many apples do I have now?)

胜出者:Gemini 1.5 Pro 和 GPT-4

Apple 测试

2. 毛巾问题

为了评估 Gemini 1.5 Pro 的高级推理能力,我进行了另一项测试,提出了广受欢迎的毛巾问题。遗憾的是,所有三个模型都错了,包括 Gemini 1.5 Pro、Gemini 1.0 Ultra 和 GPT-4。

这些人工智能模型都没有理解问题的基本前提,而是用数学计算答案,得出了错误的结论。人工智能模型要想和人类一样进行推理,还有很长的路要走。

如果在太阳下晒干 15 条毛巾需要 1 小时,那么晒干 20 条毛巾需要多长时间?(If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?)

胜出者:

毛巾问题

3. 哪个更重

然后,我运行了一个修改版的重量评估测试,以检查 Gemini 1.5 Pro 的复杂推理能力,它与 GPT-4 一起成功通过了测试。然而,Gemini 1.0 Ultra 再次未能通过测试。

Gemini 1.5 Pro 和 GPT-4 都正确识别了单位,但没有深入研究密度,并表示包括羽毛在内的任何材料一公斤的重量总是重于一磅钢或任何东西。谷歌干得漂亮!

一公斤羽毛和一磅钢材哪个重?(What’s heavier, a kilo of feathers or a pound of steel?)

胜出者:Gemini 1.5 Pro 和 GPT-4

哪个更重

4. 解决数学问题

Maxime Labonne 的帮助下,我借用了他的一个数学提示来评估 Gemini 1.5 Pro 的数学能力。Gemini 1.5 Pro 以优异的成绩通过了测试

我还在 GPT-4 上进行了同样的测试,结果也是正确的。不过,我们已经知道 GPT 的能力很强。顺便说一句,我明确要求 GPT-4 避免使用代码解释器插件进行数学计算。不出所料,Gemini 1.0 Ultra 没有通过测试,并给出了错误的输出结果。我的意思是,我为什么要把 Ultra 包括在这个测试中呢?

如果 x 和 y 分别是乘积 725 278 * 67 066 的十位数和个位数,那么 x + y 的值是多少。你能解释不计算整数的最简便解法吗?(If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?)

胜出者:Gemini 1.5 Pro 和 GPT-4

解决数学问题

5. 遵循用户指令

接下来,我们进行了另一项测试,评估 Gemini 1.5 Pro 能否正确遵从用户指令。我们要求它生成 10 个以 “apple” 结尾的句子。

Gemini 1.5 Pro 在这项测试中惨败,只生成了 3 个这样的句子,而 GPT-4 则生成了 9 个这样的句子。双子座 1.0 Ultra 只能生成两个以 “apple” 结尾的句子。

生成 10 个以 “apple” 结尾的句子(generate 10 sentences that end with the word “apple”)

胜出者:GPT-4

遵循用户指令

6. 大海捞针(NIAH)测试

Gemini 1.5 Pro 的最大特点是可以处理 100 万个 token 的巨大上下文长度。谷歌已经对 NIAH 进行了大量测试,其准确率高达 99%。因此,我自然也做了类似的测试。

我选取了维基百科中最长的一篇文章(Spanish Conquest of Petén),它有近 10 万个字符,消耗了约 24000 个标记。我在文本中间插入了一根针(随机语句),以增加人工智能模型检索语句的难度。

研究人员表明,如果在中间插入一根针,人工智能模型在长上下文窗口中的表现会更差

大海捞针(NIAH)测试

Gemini 1.5 Pro 发挥了它的威力,非常准确地结合上下文正确回答了问题。 然而,GPT-4 却无法从大型文本窗口中找到针。Gemini 1.0 Ultra(通过 Gemini Advanced 提供)目前支持的上下文窗口约为 8K token,远低于市场上宣称的 32K 上下文长度。尽管如此,我们还是用 8K token进行了测试,但 Gemini 1.0 Ultra 还是没能找到文本语句。

因此,在长语境检索方面,Gemini 1.5 Pro 模型才是王者,谷歌已经超越了所有人工智能模型。

胜出者:Gemini 1.5 Pro

7. 多模态视频测试

虽然 GPT-4 是多模态模型,但它还不能处理视频。Gemini 1.0 Ultra 也是一种多模态模式,但谷歌尚未为该模式解锁该功能。因此,你无法在 Gemini Advanced 上上传视频。

不过,我通过 Google AI Studio(访问)访问的 Gemini 1.5 Pro 除了可以上传各种文件、图片甚至由不同文件类型组成的文件夹外,还可以上传视频。因此,国外测试员上传了一段 5 分钟的 OnePlus Watch 2 评测视频(1080p,65MB),这当然不是训练数据的一部分。

多模态视频测试

视频内容提炼

视频要素提问

视频脚本生成

使用 gemini 1.5 pro 上传视频并提出相关问题

模型花了一分钟处理视频,消耗了 1,048,576 个 token 中的大约 75,000 个token(不到 10%)。

现在,我向 Gemini 1.5 Pro 提出了一些问题,首先是视频的内容。我还要求它显示手表的所有主要功能。它花了近 20 秒来回答每个问题。它的回答非常准确,没有任何幻觉的迹象。接下来,我问评论员坐在哪里,它给出了详细的答案。之后,我问表带的颜色是什么,它说:”绿色”: “绿色”。干得好!

最后,我要求 Gemini Pro 生成视频的文字记录,它在一分钟内就准确地生成了文字记录。Gemini 1.5 Pro 的多模态能力让我大开眼界。它能够成功地分析视频的每一帧,并智能地推断含义。

这使得 Gemini 1.5 Pro 成为一个强大的多模态模型,超越了我们迄今为止所看到的一切。正如 Simon Willison 在博客中所说,视频是 Gemini 1.5 Pro 的杀手级应用。

胜出者:Gemini 1.5 Pro

8. 多模态图像测试

在最后的测试中,我测试了 Gemini 1.5 Pro 模型的视觉能力。我上传了谷歌在 Gemini 1.0 发布时演示的剧照(视频)。在我之前的测试中,Gemini 1.0 Ultra 没有通过图像分析测试,因为谷歌尚未在 Gemini Advanced 上为 Ultra 型号启用多模态功能。

多模态图像测试

尽管如此,Gemini 1.5 Pro 型号还是很快做出了反应,并正确回答了电影名称 “The Breakfast Club“。GPT-4 也给出了正确的答案。而 Gemini 1.0 Ultra 根本无法处理图片,理由是图片上有人物的脸,但奇怪的是事实并非如此。

胜出者:Gemini 1.5 Pro 和 GPT-4

谷歌终于推出了 Gemini 1.5 Pro

在玩了一整天 Gemini 1.5 Pro 之后,我可以说,谷歌终于交出了一份满意的答卷。这家搜索巨头在 MoE 架构上开发了一个强大的多模态模型,与 OpenAI 的 GPT-4 模型不相上下。

它在常识推理方面表现出色,在长文本检索、多模态能力、视频处理和支持各种文件格式等多个方面甚至优于 GPT-4。别忘了,我们现在讨论的是 Gemini 1.5 Pro 中型机型。如果将来推出 Gemini 1.5 Ultra 机型,它的性能将更加出众。

当然,Gemini 1.5 Pro 目前仍处于预览阶段,仅供开发人员和研究人员测试和评估。在通过 Gemini Advanced 大范围公开推广之前,谷歌可能会添加额外的防护措施,这可能会削弱模型的性能,但我希望这次不会出现这种情况。

另外,请记住,当 1.5 Pro 模型公开发布时,用户不会获得 100 万 token 的大规模上下文窗口。谷歌表示,该机型的标准上下文长度为 12.8 万个 token,这仍然非常大。当然,开发者可以利用 100 万个上下文窗口为最终用户创建独特的产品。

继 Gemini 发布之后,谷歌还在开源许可下发布了一系列轻量级 Gemma 模型。最近,该公司还卷入了一场围绕 Gemini 的人工智能图像生成失败的争议中,所以也请阅读一下这篇文章。

现在,你对 Gemini 1.5 Pro 的性能有什么看法?谷歌终于重返人工智能领域,并准备挑战 OpenAI(OpenAI 最近发布了其人工智能文本到视频生成模型 Sora),你对此有什么看法吗?请在下面的评论区告诉我们。

评论留言