谷歌 DeepMind 最近釋出了其在人工智慧領域的最新進展:Gemini 2.5 Pro(實驗性)模型。在釋出的短短幾個小時內,這款新模型就在人工智慧領域掀起了一場風暴,在LMArena 排行榜上名列第一!在其前代產品的基礎上,這款新模型承諾增強功能和特性,以滿足複雜任務和應用的需要。本文將介紹如何訪問 Gemini 2.5 Pro,並探討其功能、基準測試效能以及實際應用。
什麼是Gemini 2.5 Pro?
Gemini 2.5 Pro 是 Google DeepMind 最新推出的人工智慧模型,其效能、效率和功能均優於前代產品。它是 Gemini 2.5 系列的一部分,代表專業級版本,為開發人員和企業兼顧了功能和成本效益。
Gemini 2.5 Pro與Gemini 1.5 Pro有何不同?
Gemini 2.5 Pro(實驗性版本)比 Gemini 1.5 Pro 更先進:
- 它在語言理解和多模態任務中表現出更高的準確性。
- 計算效率更高,即速度更快、成本更低。
- 先進的編碼和推理能力使其成為人工智慧開發人員的理想選擇。
Gemini 2.5 Pro的主要功能
Gemini 2.5 Pro 引入了幾項顯著的增強功能。
- 多模態功能:Gemini 2.5 Pro 支援多種資料型別,包括文字、影像、影片、音訊和程式碼庫。因此,它可以處理各種輸入和輸出,成為不同領域的通用工具。
- 先進的推理系統:Gemini 2.5 Pro 的核心是其先進的推理系統,它能讓人工智慧在生成響應之前有條不紊地分析資訊。這種經過深思熟慮的方法可實現更準確、更貼近上下文的輸出。
- 擴充套件的上下文視窗:Gemini 2.5 Pro 的擴充套件上下文視窗可容納 100 萬個標記。這使它能夠同時處理和理解更大量的資訊。
- 增強的編碼效能:該模型在編碼任務方面有顯著改進,可為開發人員提供更高效、更準確的程式碼生成和幫助。
- 擴充套件知識庫:與大多數其他模型相比,Gemini 2.5 是在更新近的資料基礎上進行訓練的,其知識截止日期為 2025 年 1 月。
谷歌將很快在頂點人工智慧平臺上推出 Gemini 2.5 Pro。谷歌還計劃推出該模型的改進版,支援 200 萬個 tokens 的上下文視窗。
如何訪問Gemini 2.5 Pro
Gemini 2.5 Pro(試驗版本)目前可在 Google AI Studio 上供所有人使用,也可在 Gemini 應用程式上供 Gemini Advanced 使用者使用。以下是訪問方法:
透過Google AI Studio:
開發人員可透過 Google AI Studio 訪問 Gemini 2.5 Pro,方法是從模型選擇下拉框中選擇模型。
透過Google Gemini網站:
Gemini Advanced 使用者可以直接在聊天機器人的網頁介面上試用 Gemini 2.5 Pro 實驗性模型,方法是從模型選擇下拉框中選擇 experimental 模型。
Gemini 2.5 Pro Experimental測試體驗
既然我們已經知道了如何訪問模型,那就讓我們親自嘗試一下,看看它是否達到了預期的效果。由於目前只推出了部分多模態功能,我們將在以下 3 個任務中對模型進行測試:
- 邏輯推理
- 影像生成
- 影像分析
任務 1:邏輯推理
我們首先要測試 Gemini 2.5 Pro 的高階推理能力。在這項任務中,我給模型出了一道邏輯推理題,讓它根據一系列線索來解決。
提示詞:There are 5 ships in a port:
- The Greek ship leaves at six and carries coffee.
- The Ship in the middle has a black exterior.
- The English ship leaves at nine.
- The French ship with blue exterior is to the left of a ship that carries coffee.
- To the right of the ship carrying cocoa is a ship going to Marseille.
- The Brazilian ship is heading for Manila.
- Next to the ship carrying rice is a ship with a green exterior.
- A ship going to Genoa leaves at five.
- The Spanish ship leaves at seven and is to the right of the ship going to Marseille.
- The ship with a red exterior goes to Hamburg.
- Next to the ship leaving at seven is a ship with a white exterior.
- The ship on the border carries corn.
- The ship with a black exterior leaves at eight.
- The ship carrying corn is anchored next to the ship carrying rice.
- The ship to Hamburg leaves at six.
Which ship goes to Port Said? Which ship carries tea?
(Note: ‘to the right’ means anywhere on the right side from the given point, not only right next to. Likewise for left.)
響應:
點評:
首先,Gemini 2.5 Pro 顯示了它的整個思維過程。大多數思維模型在顯示其思維過程時都是在不斷地輸入回覆,而雙子座 2.5 Pro 則不同,它是分批顯示的–每次一步,但都很詳細。這讓我們更容易理解。
該模型將謎題分解,以編號步驟解釋推理過程,使使用者更容易理解。它從表格開始,在分析每條線索後填寫資訊。最後,它不僅能推匯出正確答案,還能給出一個可以匯出到 Google Sheets 的表格。
任務 2:生成影像
現在讓我們看看 Gemini 2.5 Pro(實驗版)生成影像的能力如何。
提示詞:Create an image of a sunset at the beach viewed through a full-height glass window of a living room.
響應:
點評:
谷歌 Gemini 2.5 Pro2.5 Pro(實驗版)按照提示建立了一幅精美逼真的影像。傢俱的紋理和光線的差異證明了模特對背景的理解和創造力。我對這一反應印象深刻!
任務 3:影像分析
提示詞:Explain the image.
輸入影像:
響應:
點評:
Gemini 2.5 Pro 能夠理解影像,並準確、詳細地解釋影像。它可以讀取影像中的文字,跟隨箭頭和標記,並根據上下文理解視覺內容。該模型的影像分析功能可將複雜的圖表分解為簡單的解釋,從而幫助學生更好、更輕鬆地學習。
Google Gemini 2.5 Pro(實驗版): 基準效能測試
現在,讓我們來看看該模型在標準基準測試中的表現如何。
1. 推理與知識 (Humanity’s Last Exam):
Gemini 2.5 Pro(實驗版)在這一基準測試中取得了 18.8% 的高分,明顯優於其他流行模型,如 OpenAI 的 GPT-4.5、Anthropic 的 Claude 3.7 Sonnet、X.AI 的 Grok 3 Beta 和 DeepSeek-R1。這顯示了它在複雜推理任務中的強大能力,尤其是在沒有外部工具的情況下。
2. GPQA Diamond (科學):
Gemini 2.5 Pro 在基準測試中名列前茅,得分率高達 84%。它比 GPT-4.5 高出近 5%,比所有其他模型也高出很多。這表明它在科學推理和知識應用方面具有很強的能力。
3. 數學(AIME 2025):
谷歌的 Gemini 2.5 Pro 在這一數學基準測試中取得了 86.7% 的分數,與 OpenA 的 GPT-4.5 (86.5%) 幾乎相同。同時,它還大大超過了 Claude 3.7 Sonnet 和 Grok 3Beta。不過,它的表現明顯不如 DeepSeek-R1,後者在這一特定測試中的得分率為 93.3%。
4. LMArena:
在 LM Chatbot Arena 中,谷歌的 Gemini 2.5 Pro(實驗版)以 1443 分遙遙領先,明顯高於排名第二的 Grok-3 Preview(1404 分)。這表明,新模型大有可為,尤其是在實際編碼任務中。
以下是谷歌 Gemini 2.5 Pro 實驗性模型的更多基準測試成績,證明了其更強大的功能。
Gemini 2.5 Pro的應用
Gemini 2.5 Pro 的先進功能為各行各業帶來了眾多應用。
- 軟體開發:憑藉增強的編碼功能,開發人員可利用 Gemini 2.5 Pro 生成程式碼、進行除錯,並在開發過程中提供即時協助。
- 資料分析:該模型處理大型資料集的能力使其適用於複雜的資料分析任務,使企業能夠更有效地獲得洞察力並做出明智決策。
- 內容建立:Gemini 2.5 Pro 支援多種資料型別,允許內容建立者生成和完善文字、影像、影片和音訊內容,從而簡化了創作流程。
- 對話式人工智慧:先進的推理系統可提高聊天機器人和虛擬助手的互動質量,為使用者提供更準確、更能感知上下文的響應。
小結
Gemini 2.5 Pro 的推出標誌著谷歌人工智慧進步的一個重要里程碑。憑藉增強的推理能力、擴充套件的上下文處理和多模態功能,該模型有望成為跨行業的多功能人工智慧工具。隨著企業和開發人員開始將 Gemini 2.5 Pro 整合到他們的工作流程和應用中,它有望推動創新,全面提升人工智慧應用的標準。
評論留言