Google 2.5 Pro 實驗性模型:各項能力指標全方位提升

Google 2.5 Pro 實驗性模型:各項指標全方位提升

谷歌 DeepMind 最近釋出了其在人工智慧領域的最新進展:Gemini 2.5 Pro(實驗性)模型。在釋出的短短幾個小時內,這款新模型就在人工智慧領域掀起了一場風暴,在LMArena 排行榜上名列第一!在其前代產品的基礎上,這款新模型承諾增強功能和特性,以滿足複雜任務和應用的需要。本文將介紹如何訪問 Gemini 2.5 Pro,並探討其功能、基準測試效能以及實際應用。

什麼是Gemini 2.5 Pro?

Gemini 2.5 Pro 是 Google DeepMind 最新推出的人工智慧模型,其效能、效率和功能均優於前代產品。它是 Gemini 2.5 系列的一部分,代表專業級版本,為開發人員和企業兼顧了功能和成本效益。

Gemini 2.5 Pro與Gemini 1.5 Pro有何不同?

Gemini 2.5 Pro(實驗性版本)比 Gemini 1.5 Pro 更先進:

  • 它在語言理解和多模態任務中表現出更高的準確性。
  • 計算效率更高,即速度更快、成本更低。
  • 先進的編碼和推理能力使其成為人工智慧開發人員的理想選擇。

Gemini 2.5 Pro的主要功能

Gemini 2.5 Pro 引入了幾項顯著的增強功能。

  1. 多模態功能:Gemini 2.5 Pro 支援多種資料型別,包括文字、影像、影片、音訊和程式碼庫。因此,它可以處理各種輸入和輸出,成為不同領域的通用工具。
  2. 先進的推理系統:Gemini 2.5 Pro 的核心是其先進的推理系統,它能讓人工智慧在生成響應之前有條不紊地分析資訊。這種經過深思熟慮的方法可實現更準確、更貼近上下文的輸出。
  3. 擴充套件的上下文視窗:Gemini 2.5 Pro 的擴充套件上下文視窗可容納 100 萬個標記。這使它能夠同時處理和理解更大量的資訊。
  4. 增強的編碼效能:該模型在編碼任務方面有顯著改進,可為開發人員提供更高效、更準確的程式碼生成和幫助。
  5. 擴充套件知識庫:與大多數其他模型相比,Gemini 2.5 是在更新近的資料基礎上進行訓練的,其知識截止日期為 2025 年 1 月。

谷歌將很快在頂點人工智慧平臺上推出 Gemini 2.5 Pro。谷歌還計劃推出該模型的改進版,支援 200 萬個 tokens 的上下文視窗。

如何訪問Gemini 2.5 Pro

Gemini 2.5 Pro(試驗版本)目前可在 Google AI Studio 上供所有人使用,也可在 Gemini 應用程式上供 Gemini Advanced 使用者使用。以下是訪問方法:

透過Google AI Studio:

開發人員可透過 Google AI Studio 訪問 Gemini 2.5 Pro,方法是從模型選擇下拉框中選擇模型。

透過Google AI Studio訪問Gemini 2.5 Pro

透過Google Gemini網站:

Gemini Advanced 使用者可以直接在聊天機器人的網頁介面上試用 Gemini 2.5 Pro 實驗性模型,方法是從模型選擇下拉框中選擇 experimental 模型。

透過Google Gemini網站訪問

Gemini 2.5 Pro Experimental測試體驗

既然我們已經知道了如何訪問模型,那就讓我們親自嘗試一下,看看它是否達到了預期的效果。由於目前只推出了部分多模態功能,我們將在以下 3 個任務中對模型進行測試:

  1. 邏輯推理
  2. 影像生成
  3. 影像分析

任務 1:邏輯推理

我們首先要測試 Gemini 2.5 Pro 的高階推理能力。在這項任務中,我給模型出了一道邏輯推理題,讓它根據一系列線索來解決。

提示詞:There are 5 ships in a port:

  1. The Greek ship leaves at six and carries coffee.
  2. The Ship in the middle has a black exterior.
  3. The English ship leaves at nine.
  4. The French ship with blue exterior is to the left of a ship that carries coffee.
  5. To the right of the ship carrying cocoa is a ship going to Marseille.
  6. The Brazilian ship is heading for Manila.
  7. Next to the ship carrying rice is a ship with a green exterior.
  8. A ship going to Genoa leaves at five.
  9. The Spanish ship leaves at seven and is to the right of the ship going to Marseille.
  10. The ship with a red exterior goes to Hamburg.
  11. Next to the ship leaving at seven is a ship with a white exterior.
  12. The ship on the border carries corn.
  13. The ship with a black exterior leaves at eight.
  14. The ship carrying corn is anchored next to the ship carrying rice.
  15. The ship to Hamburg leaves at six.

Which ship goes to Port Said? Which ship carries tea?

(Note: ‘to the right’ means anywhere on the right side from the given point, not only right next to. Likewise for left.)

響應:

Gemini 2.5 Pro邏輯推理響應

點評:

首先,Gemini 2.5 Pro 顯示了它的整個思維過程。大多數思維模型在顯示其思維過程時都是在不斷地輸入回覆,而雙子座 2.5 Pro 則不同,它是分批顯示的–每次一步,但都很詳細。這讓我們更容易理解。

該模型將謎題分解,以編號步驟解釋推理過程,使使用者更容易理解。它從表格開始,在分析每條線索後填寫資訊。最後,它不僅能推匯出正確答案,還能給出一個可以匯出到 Google Sheets 的表格。

任務 2:生成影像

現在讓我們看看 Gemini 2.5 Pro(實驗版)生成影像的能力如何。

提示詞:Create an image of a sunset at the beach viewed through a full-height glass window of a living room.

響應:

Gemini 2.5 Pro生成影像響應

點評:

谷歌 Gemini 2.5 Pro2.5 Pro(實驗版)按照提示建立了一幅精美逼真的影像。傢俱的紋理和光線的差異證明了模特對背景的理解和創造力。我對這一反應印象深刻!

任務 3:影像分析

提示詞:Explain the image.

輸入影像:

光合作用圖示

響應:

光合作用圖示解釋

點評:

Gemini 2.5 Pro 能夠理解影像,並準確、詳細地解釋影像。它可以讀取影像中的文字,跟隨箭頭和標記,並根據上下文理解視覺內容。該模型的影像分析功能可將複雜的圖表分解為簡單的解釋,從而幫助學生更好、更輕鬆地學習。

 

Google Gemini 2.5 Pro(實驗版): 基準效能測試

現在,讓我們來看看該模型在標準基準測試中的表現如何。

1. 推理與知識 (Humanity’s Last Exam):

Gemini 2.5 Pro(實驗版)在這一基準測試中取得了 18.8% 的高分,明顯優於其他流行模型,如 OpenAI 的 GPT-4.5、Anthropic 的 Claude 3.7 Sonnet、X.AI 的 Grok 3 Beta 和 DeepSeek-R1。這顯示了它在複雜推理任務中的強大能力,尤其是在沒有外部工具的情況下。

2. GPQA Diamond (科學):

Gemini 2.5 Pro 在基準測試中名列前茅,得分率高達 84%。它比 GPT-4.5 高出近 5%,比所有其他模型也高出很多。這表明它在科學推理和知識應用方面具有很強的能力。

Google Gemini 2.5 Pro(實驗版): 基準效能測試

3. 數學(AIME 2025):

谷歌的 Gemini 2.5 Pro 在這一數學基準測試中取得了 86.7% 的分數,與 OpenA 的 GPT-4.5 (86.5%) 幾乎相同。同時,它還大大超過了 Claude 3.7 Sonnet 和 Grok 3Beta。不過,它的表現明顯不如 DeepSeek-R1,後者在這一特定測試中的得分率為 93.3%。

4. LMArena:

在 LM Chatbot Arena 中,谷歌的 Gemini 2.5 Pro(實驗版)以 1443 分遙遙領先,明顯高於排名第二的 Grok-3 Preview(1404 分)。這表明,新模型大有可為,尤其是在實際編碼任務中。

LM Chatbot Arena

以下是谷歌 Gemini 2.5 Pro 實驗性模型的更多基準測試成績,證明了其更強大的功能。

Gemini 2.5 Pro 實驗性模型基準測試成績

Gemini 2.5 Pro的應用

Gemini 2.5 Pro 的先進功能為各行各業帶來了眾多應用。

  • 軟體開發:憑藉增強的編碼功能,開發人員可利用 Gemini 2.5 Pro 生成程式碼、進行除錯,並在開發過程中提供即時協助。
  • 資料分析:該模型處理大型資料集的能力使其適用於複雜的資料分析任務,使企業能夠更有效地獲得洞察力並做出明智決策。
  • 內容建立:Gemini 2.5 Pro 支援多種資料型別,允許內容建立者生成和完善文字、影像、影片和音訊內容,從而簡化了創作流程。
  • 對話式人工智慧:先進的推理系統可提高聊天機器人和虛擬助手的互動質量,為使用者提供更準確、更能感知上下文的響應。

小結

Gemini 2.5 Pro 的推出標誌著谷歌人工智慧進步的一個重要里程碑。憑藉增強的推理能力、擴充套件的上下文處理和多模態功能,該模型有望成為跨行業的多功能人工智慧工具。隨著企業和開發人員開始將 Gemini 2.5 Pro 整合到他們的工作流程和應用中,它有望推動創新,全面提升人工智慧應用的標準。

評論留言