Google 2.5 Pro 实验性模型:各项能力指标全方位提升

Google 2.5 Pro 实验性模型:各项指标全方位提升

谷歌 DeepMind 最近发布了其在人工智能领域的最新进展:Gemini 2.5 Pro(实验性)模型。在发布的短短几个小时内,这款新模型就在人工智能领域掀起了一场风暴,在LMArena 排行榜上名列第一!在其前代产品的基础上,这款新模型承诺增强功能和特性,以满足复杂任务和应用的需要。本文将介绍如何访问 Gemini 2.5 Pro,并探讨其功能、基准测试性能以及实际应用。

什么是Gemini 2.5 Pro?

Gemini 2.5 Pro 是 Google DeepMind 最新推出的人工智能模型,其性能、效率和功能均优于前代产品。它是 Gemini 2.5 系列的一部分,代表专业级版本,为开发人员和企业兼顾了功能和成本效益。

Gemini 2.5 Pro与Gemini 1.5 Pro有何不同?

Gemini 2.5 Pro(实验性版本)比 Gemini 1.5 Pro 更先进:

  • 它在语言理解和多模态任务中表现出更高的准确性。
  • 计算效率更高,即速度更快、成本更低。
  • 先进的编码和推理能力使其成为人工智能开发人员的理想选择。

Gemini 2.5 Pro的主要功能

Gemini 2.5 Pro 引入了几项显著的增强功能。

  1. 多模态功能:Gemini 2.5 Pro 支持多种数据类型,包括文本、图像、视频、音频和代码库。因此,它可以处理各种输入和输出,成为不同领域的通用工具。
  2. 先进的推理系统:Gemini 2.5 Pro 的核心是其先进的推理系统,它能让人工智能在生成响应之前有条不紊地分析信息。这种经过深思熟虑的方法可实现更准确、更贴近上下文的输出。
  3. 扩展的上下文窗口:Gemini 2.5 Pro 的扩展上下文窗口可容纳 100 万个标记。这使它能够同时处理和理解更大量的信息。
  4. 增强的编码性能:该模型在编码任务方面有显著改进,可为开发人员提供更高效、更准确的代码生成和帮助。
  5. 扩展知识库:与大多数其他模型相比,Gemini 2.5 是在更新近的数据基础上进行训练的,其知识截止日期为 2025 年 1 月。

谷歌将很快在顶点人工智能平台上推出 Gemini 2.5 Pro。谷歌还计划推出该模型的改进版,支持 200 万个 tokens 的上下文窗口。

如何访问Gemini 2.5 Pro

Gemini 2.5 Pro(试验版本)目前可在 Google AI Studio 上供所有人使用,也可在 Gemini 应用程序上供 Gemini Advanced 用户使用。以下是访问方法:

通过Google AI Studio:

开发人员可通过 Google AI Studio 访问 Gemini 2.5 Pro,方法是从模型选择下拉框中选择模型。

通过Google AI Studio访问Gemini 2.5 Pro

通过Google Gemini网站:

Gemini Advanced 用户可以直接在聊天机器人的网页界面上试用 Gemini 2.5 Pro 实验性模型,方法是从模型选择下拉框中选择 experimental 模型。

通过Google Gemini网站访问

Gemini 2.5 Pro Experimental测试体验

既然我们已经知道了如何访问模型,那就让我们亲自尝试一下,看看它是否达到了预期的效果。由于目前只推出了部分多模态功能,我们将在以下 3 个任务中对模型进行测试:

  1. 逻辑推理
  2. 图像生成
  3. 图像分析

任务 1:逻辑推理

我们首先要测试 Gemini 2.5 Pro 的高级推理能力。在这项任务中,我给模型出了一道逻辑推理题,让它根据一系列线索来解决。

提示词:There are 5 ships in a port:

  1. The Greek ship leaves at six and carries coffee.
  2. The Ship in the middle has a black exterior.
  3. The English ship leaves at nine.
  4. The French ship with blue exterior is to the left of a ship that carries coffee.
  5. To the right of the ship carrying cocoa is a ship going to Marseille.
  6. The Brazilian ship is heading for Manila.
  7. Next to the ship carrying rice is a ship with a green exterior.
  8. A ship going to Genoa leaves at five.
  9. The Spanish ship leaves at seven and is to the right of the ship going to Marseille.
  10. The ship with a red exterior goes to Hamburg.
  11. Next to the ship leaving at seven is a ship with a white exterior.
  12. The ship on the border carries corn.
  13. The ship with a black exterior leaves at eight.
  14. The ship carrying corn is anchored next to the ship carrying rice.
  15. The ship to Hamburg leaves at six.

Which ship goes to Port Said? Which ship carries tea?

(Note: ‘to the right’ means anywhere on the right side from the given point, not only right next to. Likewise for left.)

响应:

Gemini 2.5 Pro逻辑推理响应

点评:

首先,Gemini 2.5 Pro 显示了它的整个思维过程。大多数思维模型在显示其思维过程时都是在不断地输入回复,而双子座 2.5 Pro 则不同,它是分批显示的–每次一步,但都很详细。这让我们更容易理解。

该模型将谜题分解,以编号步骤解释推理过程,使用户更容易理解。它从表格开始,在分析每条线索后填写信息。最后,它不仅能推导出正确答案,还能给出一个可以导出到 Google Sheets 的表格。

任务 2:生成图像

现在让我们看看 Gemini 2.5 Pro(实验版)生成图像的能力如何。

提示词:Create an image of a sunset at the beach viewed through a full-height glass window of a living room.

响应:

Gemini 2.5 Pro生成图像响应

点评:

谷歌 Gemini 2.5 Pro2.5 Pro(实验版)按照提示创建了一幅精美逼真的图像。家具的纹理和光线的差异证明了模特对背景的理解和创造力。我对这一反应印象深刻!

任务 3:图像分析

提示词:Explain the image.

输入图像:

光合作用图示

响应:

光合作用图示解释

点评:

Gemini 2.5 Pro 能够理解图像,并准确、详细地解释图像。它可以读取图像中的文字,跟随箭头和标记,并根据上下文理解视觉内容。该模型的图像分析功能可将复杂的图表分解为简单的解释,从而帮助学生更好、更轻松地学习。

 

Google Gemini 2.5 Pro(实验版): 基准性能测试

现在,让我们来看看该模型在标准基准测试中的表现如何。

1. 推理与知识 (Humanity’s Last Exam):

Gemini 2.5 Pro(实验版)在这一基准测试中取得了 18.8% 的高分,明显优于其他流行模型,如 OpenAI 的 GPT-4.5、Anthropic 的 Claude 3.7 Sonnet、X.AI 的 Grok 3 Beta 和 DeepSeek-R1。这显示了它在复杂推理任务中的强大能力,尤其是在没有外部工具的情况下。

2. GPQA Diamond (科学):

Gemini 2.5 Pro 在基准测试中名列前茅,得分率高达 84%。它比 GPT-4.5 高出近 5%,比所有其他模型也高出很多。这表明它在科学推理和知识应用方面具有很强的能力。

Google Gemini 2.5 Pro(实验版): 基准性能测试

3. 数学(AIME 2025):

谷歌的 Gemini 2.5 Pro 在这一数学基准测试中取得了 86.7% 的分数,与 OpenA 的 GPT-4.5 (86.5%) 几乎相同。同时,它还大大超过了 Claude 3.7 Sonnet 和 Grok 3Beta。不过,它的表现明显不如 DeepSeek-R1,后者在这一特定测试中的得分率为 93.3%。

4. LMArena:

在 LM Chatbot Arena 中,谷歌的 Gemini 2.5 Pro(实验版)以 1443 分遥遥领先,明显高于排名第二的 Grok-3 Preview(1404 分)。这表明,新模型大有可为,尤其是在实际编码任务中。

LM Chatbot Arena

以下是谷歌 Gemini 2.5 Pro 实验性模型的更多基准测试成绩,证明了其更强大的功能。

Gemini 2.5 Pro 实验性模型基准测试成绩

Gemini 2.5 Pro的应用

Gemini 2.5 Pro 的先进功能为各行各业带来了众多应用。

  • 软件开发:凭借增强的编码功能,开发人员可利用 Gemini 2.5 Pro 生成代码、进行调试,并在开发过程中提供实时协助。
  • 数据分析:该模型处理大型数据集的能力使其适用于复杂的数据分析任务,使企业能够更有效地获得洞察力并做出明智决策。
  • 内容创建:Gemini 2.5 Pro 支持多种数据类型,允许内容创建者生成和完善文本、图像、视频和音频内容,从而简化了创作流程。
  • 对话式人工智能:先进的推理系统可提高聊天机器人和虚拟助手的交互质量,为用户提供更准确、更能感知上下文的响应。

小结

Gemini 2.5 Pro 的推出标志着谷歌人工智能进步的一个重要里程碑。凭借增强的推理能力、扩展的上下文处理和多模态功能,该模型有望成为跨行业的多功能人工智能工具。随着企业和开发人员开始将 Gemini 2.5 Pro 集成到他们的工作流程和应用中,它有望推动创新,全面提升人工智能应用的标准。

评论留言