二月中旬前,谷歌宣佈推出新一代 Gemini 模型- Gemini 1.5 Pro,直到二月終,我們終於可以體驗這個備受期待的模型的 100 萬個 token 上下文視窗。
在展示 Gemini 1.5 Pro 與 GPT-4 和 Gemini 1.0 Ultra 的對比結果之前,我們先來了解一下新款 Gemini 1.5 Pro 的基本情況。
什麼是 Gemini 1.5 Pro 人工智慧模型?
經過幾個月的等待,Gemini 1.5 Pro 模型似乎成為了谷歌穩定的多模態 LLM。與 Gemini 1.0 系列模型所基於的傳統密集模型不同,Gemini 1.5 Pro 模型採用了專家混合物(MoE)架構。
有趣的是,MoE 架構也被 OpenAI 應用在 GPT-4 模型上。
但這還不是全部,Gemini 1.5 Pro 可以處理 100 萬個 token 的超大上下文長度,遠遠超過 GPT-4 Turbo 的 128K 和 Claude 2.1 的 200K token 上下文長度。谷歌還在內部對該模型進行了多達 1,000 萬個 token 的測試,Gemini 1.5 Pro 模型能夠攝取海量資料,展示了強大的檢索能力。
谷歌還表示,儘管 Gemini 1.5 Pro 比最大的 Gemini 1.0 Ultra 型號(通過 Gemini Advanced 提供)要小,但它的效能大致處於同一水平。那麼,我們來評估一下這些高大上的說法吧?
Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4
1. Apple 測試
此前有外國媒體進行的 Gemini 1.0 Ultra 和 GPT-4 對比中,谷歌在測試 LLM 邏輯推理能力的標準 Apple 測試中輸給了 OpenAI。然而,新發布的 Gemini 1.5 Pro 模型正確回答了這一問題,這意味著谷歌確實在 Gemini 1.5 Pro 模型上改進了高階推理能力。
谷歌又回來了!和之前一樣,GPT-4 回答了正確答案,而雙子座 1.0 Ultra 仍然給出了錯誤答案,說你還剩 2 個蘋果。
我今天有 3 個蘋果,昨天我吃了一個蘋果。我現在有幾個蘋果?(I have 3 apples today, yesterday I ate an apple. How many apples do I have now?)
勝出者:Gemini 1.5 Pro 和 GPT-4
2. 毛巾問題
為了評估 Gemini 1.5 Pro 的高階推理能力,我進行了另一項測試,提出了廣受歡迎的毛巾問題。遺憾的是,所有三個模型都錯了,包括 Gemini 1.5 Pro、Gemini 1.0 Ultra 和 GPT-4。
這些人工智慧模型都沒有理解問題的基本前提,而是用數學計算答案,得出了錯誤的結論。人工智慧模型要想和人類一樣進行推理,還有很長的路要走。
如果在太陽下晒乾 15 條毛巾需要 1 小時,那麼晒乾 20 條毛巾需要多長時間?(If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?)
勝出者:無
3. 哪個更重
然後,我執行了一個修改版的重量評估測試,以檢查 Gemini 1.5 Pro 的複雜推理能力,它與 GPT-4 一起成功通過了測試。然而,Gemini 1.0 Ultra 再次未能通過測試。
Gemini 1.5 Pro 和 GPT-4 都正確識別了單位,但沒有深入研究密度,並表示包括羽毛在內的任何材料一公斤的重量總是重於一磅鋼或任何東西。谷歌幹得漂亮!
一公斤羽毛和一磅鋼材哪個重?(What’s heavier, a kilo of feathers or a pound of steel?)
勝出者:Gemini 1.5 Pro 和 GPT-4
4. 解決數學問題
在 Maxime Labonne 的幫助下,我借用了他的一個數學提示來評估 Gemini 1.5 Pro 的數學能力。Gemini 1.5 Pro 以優異的成績通過了測試。
我還在 GPT-4 上進行了同樣的測試,結果也是正確的。不過,我們已經知道 GPT 的能力很強。順便說一句,我明確要求 GPT-4 避免使用程式碼直譯器外掛進行數學計算。不出所料,Gemini 1.0 Ultra 沒有通過測試,並給出了錯誤的輸出結果。我的意思是,我為什麼要把 Ultra 包括在這個測試中呢?
如果 x 和 y 分別是乘積 725 278 * 67 066 的十位數和個位數,那麼 x + y 的值是多少。你能解釋不計算整數的最簡便解法嗎?(If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?)
勝出者:Gemini 1.5 Pro 和 GPT-4
5. 遵循使用者指令
接下來,我們進行了另一項測試,評估 Gemini 1.5 Pro 能否正確遵從使用者指令。我們要求它生成 10 個以 “apple” 結尾的句子。
Gemini 1.5 Pro 在這項測試中慘敗,只生成了 3 個這樣的句子,而 GPT-4 則生成了 9 個這樣的句子。雙子座 1.0 Ultra 只能生成兩個以 “apple” 結尾的句子。
生成 10 個以 “apple” 結尾的句子(generate 10 sentences that end with the word “apple”)
勝出者:GPT-4
6. 大海撈針(NIAH)測試
Gemini 1.5 Pro 的最大特點是可以處理 100 萬個 token 的巨大上下文長度。谷歌已經對 NIAH 進行了大量測試,其準確率高達 99%。因此,我自然也做了類似的測試。
我選取了維基百科中最長的一篇文章(Spanish Conquest of Petén),它有近 10 萬個字元,消耗了約 24000 個標記。我在文字中間插入了一根針(隨機語句),以增加人工智慧模型檢索語句的難度。
研究人員表明,如果在中間插入一根針,人工智慧模型在長上下文視窗中的表現會更差。
Gemini 1.5 Pro 發揮了它的威力,非常準確地結合上下文正確回答了問題。 然而,GPT-4 卻無法從大型文字視窗中找到針。Gemini 1.0 Ultra(通過 Gemini Advanced 提供)目前支援的上下文視窗約為 8K token,遠低於市場上宣稱的 32K 上下文長度。儘管如此,我們還是用 8K token進行了測試,但 Gemini 1.0 Ultra 還是沒能找到文字語句。
因此,在長語境檢索方面,Gemini 1.5 Pro 模型才是王者,谷歌已經超越了所有人工智慧模型。
勝出者:Gemini 1.5 Pro
7. 多模態視訊測試
雖然 GPT-4 是多模態模型,但它還不能處理視訊。Gemini 1.0 Ultra 也是一種多模態模式,但谷歌尚未為該模式解鎖該功能。因此,你無法在 Gemini Advanced 上上傳視訊。
不過,我通過 Google AI Studio(訪問)訪問的 Gemini 1.5 Pro 除了可以上傳各種檔案、圖片甚至由不同檔案型別組成的資料夾外,還可以上傳視訊。因此,國外測試員上傳了一段 5 分鐘的 OnePlus Watch 2 評測視訊(1080p,65MB),這當然不是訓練資料的一部分。
使用 gemini 1.5 pro 上傳視訊並提出相關問題
模型花了一分鐘處理視訊,消耗了 1,048,576 個 token 中的大約 75,000 個token(不到 10%)。
現在,我向 Gemini 1.5 Pro 提出了一些問題,首先是視訊的內容。我還要求它顯示手錶的所有主要功能。它花了近 20 秒來回答每個問題。它的回答非常準確,沒有任何幻覺的跡象。接下來,我問評論員坐在哪裡,它給出了詳細的答案。之後,我問錶帶的顏色是什麼,它說:”綠色”: “綠色”。幹得好!
最後,我要求 Gemini Pro 生成視訊的文字記錄,它在一分鐘內就準確地生成了文字記錄。Gemini 1.5 Pro 的多模態能力讓我大開眼界。它能夠成功地分析視訊的每一幀,並智慧地推斷含義。
這使得 Gemini 1.5 Pro 成為一個強大的多模態模型,超越了我們迄今為止所看到的一切。正如 Simon Willison 在部落格中所說,視訊是 Gemini 1.5 Pro 的殺手級應用。
勝出者:Gemini 1.5 Pro
8. 多模態影象測試
在最後的測試中,我測試了 Gemini 1.5 Pro 模型的視覺能力。我上傳了谷歌在 Gemini 1.0 釋出時演示的劇照(視訊)。在我之前的測試中,Gemini 1.0 Ultra 沒有通過影象分析測試,因為谷歌尚未在 Gemini Advanced 上為 Ultra 型號啟用多模態功能。
儘管如此,Gemini 1.5 Pro 型號還是很快做出了反應,並正確回答了電影名稱 “The Breakfast Club“。GPT-4 也給出了正確的答案。而 Gemini 1.0 Ultra 根本無法處理圖片,理由是圖片上有人物的臉,但奇怪的是事實並非如此。
勝出者:Gemini 1.5 Pro 和 GPT-4
谷歌終於推出了 Gemini 1.5 Pro
在玩了一整天 Gemini 1.5 Pro 之後,我可以說,谷歌終於交出了一份滿意的答卷。這家搜尋巨頭在 MoE 架構上開發了一個強大的多模態模型,與 OpenAI 的 GPT-4 模型不相上下。
它在常識推理方面表現出色,在長文字檢索、多模態能力、視訊處理和支援各種檔案格式等多個方面甚至優於 GPT-4。別忘了,我們現在討論的是 Gemini 1.5 Pro 中型模型。如果將來推出 Gemini 1.5 Ultra 模型,它的效能將更加出眾。
當然,Gemini 1.5 Pro 目前仍處於預覽階段,僅供開發人員和研究人員測試和評估。在通過 Gemini Advanced 大範圍公開推廣之前,谷歌可能會新增額外的防護措施,這可能會削弱模型的效能,但我希望這次不會出現這種情況。
另外,請記住,當 1.5 Pro 模型公開發布時,使用者不會獲得 100 萬 token 的大規模上下文視窗。谷歌表示,該模型的標準上下文長度為 12.8 萬個 token,這仍然非常大。當然,開發者可以利用 100 萬個上下文視窗為終端使用者建立獨特的產品。
繼 Gemini 釋出之後,谷歌還在開源許可下發布了一系列輕量級 Gemma 模型。最近,該公司還捲入了一場圍繞 Gemini 的人工智慧影象生成失敗的爭議中,所以也請閱讀一下這篇文章。
現在,你對 Gemini 1.5 Pro 的效能有什麼看法?谷歌終於重返人工智慧領域,並準備挑戰 OpenAI(OpenAI 最近釋出了其人工智慧文字到視訊生成模型 Sora),你對此有什麼看法嗎?請在下面的評論區告訴我們。
評論留言