GPT-4最強競爭對手?谷歌最新多模態AI模型Gemini AI

谷歌最新多模態AI模型Gemini AI

在今年 6 月舉行的谷歌 I/O 2023 大會上,該公司向我們展示了其能力最強的人工智慧模型- Gemini。最後,在2023年底之前,谷歌向公眾釋出了 Gemini AI 模型。谷歌將其稱為 ” Gemini 時代”,因為這是該公司的一個重要里程碑。但是,谷歌 Gemini AI 究竟是什麼,它能否取代長期以來的王者——GPT-4?要想知道答案,讓我們來詳細瞭解一下 Gemini AI 模型。

什麼是 Gemini AI?

Gemini 是谷歌 Deepmind 團隊開發的最新、功能最強大的大型語言模型(LLM),該團隊是總部位於倫敦的谷歌子公司。它是由谷歌內部人工智慧部門開發的 PaLM 2 模型的後續產品。這是我們第一次看到 Deepmind 團隊向公眾釋出成熟的人工智慧系統。

值得注意的是,谷歌在 2023 年 4 月合併了 Google Brain 部門和 Deepmind 團隊,以開發出一個可以與 OpenAI 最佳模型相抗衡的強大模型。而 Gemini 就是這一共同努力的結晶。

現在我們來討論一個至關重要的問題:Gemini AI 與 OpenAI 的 GPT-4 或其自己的 PaLM 2 模型有何不同?首先,Gemini 是一個真正的多模態模型。雖然 PaLM 2 支援影象分析,但它依賴於 Google Lens 和語義分析來從上傳的影象中推斷資料點。從根本上說,這是谷歌為 Bard 提供影象支援的權宜之計。

至於同樣是多模態模型的 GPT-4,Gemini AI 在這方面也有所不同。在我們關於即將推出的 GPT-5 模型的詳細文章中,我們解釋了 GPT-4 並不是一個密集的模型。相反,它基於 “Mixture of Experts” 架構,針對不同的任務將 16 個不同的模型拼接在一起。因此,對於影象分析、影象生成和語音處理等不同任務,它有不同的模型,如 GPT-4 Vision、Dall -E、Whisper 等。

gemini多模態ai示例

圖片來源:Google Deepmind

這就是谷歌 Gemini AI 與其他多模態模型的不同之處。Gemini 是一個 “原生多模態人工智慧模型“,它從一開始就被設計成一個多模態模型,包括文字、影象、音訊、視訊和程式碼,所有這些都訓練在一起,形成一個強大的人工智慧系統。

由於 Gemini 本身的多模態能力,它可以同時無縫處理不同模態的資訊。

如果你想知道,這對你這樣的終端使用者來說有什麼不同?擁有原生多模態人工智慧系統有很多優勢,我們將在下文中詳細討論。但在此之前,我們先來了解一下 Gemini 的多模態功能。

Gemini AI 是真正的多模態模型

要了解 Gemini AI 與其他多模態模型的不同之處,讓我們以音訊處理為例。OpenAI 的 Whisper v3 是當今流行的語音識別模型之一。它可以識別多語言語音、識別語言、轉錄語音並進行翻譯。但是,它無法識別語音的語氣、語調和細微差別,例如發音。

有人在說 “你好” 的時候可能很悲傷,也可能很高興,但 Whisper 無法解讀說話者的情緒,因為它只是在轉錄音訊。但另一方面,Gemini 可以端對端地處理原始音訊訊號,捕捉細微差別和情緒。谷歌的人工智慧模型可以區分不同語言的發音,並在轉錄時加上適當的註釋。這使得 Gemini AI 成為一個能力更強的多模態系統。

gemini ai 多模式能力

圖片來源:Google Deepmind

除此之外,Gemini 還能分析和生成影象(可能內建了 Imagen 2)。在視覺分析方面,Gemini 表現出色。它可以找到影象之間的聯絡,從劇照中猜測電影,將影象轉化為程式碼,瞭解周圍環境,評估手寫文字,解釋數學和物理問題中的推理等等。即使谷歌偽造了 “Gemini AI” 人工智慧演示,這也可能是真的。

別忘了,它還能處理和理解視訊。在編碼方面,Gemini AI 支援大多數程式語言,包括 Python、Java、C++、Go 等流行語言。在解決複雜的編碼問題方面,它要比 PaLM 2 強得多。Gemini 第一次就能解決約 75% 的 Python 函式,而 PaLM 2 只能解決 45%。如果使用者回饋一些除錯輸入,解決率還會超過 90%。

除此之外,谷歌還為高階程式碼生成建立了一個專門版本的 Gemini,並將其命名為 AlphaCode 2。它擅長競技程式設計,能解決涉及複雜數學和電腦科學理論的令人難以置信的難題。與人類選手相比,AlphaCode 2 在程式設計競賽中擊敗了 85% 的參賽者。

總之,谷歌 Gemini AI 是一個出色的多模態人工智慧系統,可用於多種使用案例,包括文字生成/推理、影象分析、程式碼生成、音訊處理和視訊理解。

Gemini AI 有三種版本

谷歌公佈了 Gemini AI 的三種型號:Ultra、Pro 和 Nano,但沒有透露它們的引數大小。Gemini Ultra 最接近 GPT-4 模型,是谷歌最大、功能最強的模型,具有全套多模態功能。據該公司稱,Ultra 模型最適合高度複雜和極具挑戰性的任務。

Gemini AI 有三種版本

圖片來源:Google

不過,Gemini Ultra 型號尚未釋出。該公司表示,Ultra 將通過嚴格的信任和安全檢查,明年初將面向開發者和企業客戶推出。

此外,谷歌還將在明年初推出 Bard Advanced,供消費者體驗具有完整多模態功能的 Gemini Ultra。使用者還可能獲得 AlphaCode 2 的訪問許可權。

由 Gemini Pro 支援的 Google Bard

由 Gemini Pro 支援的 Google Bard

至於 Gemini Pro,它已經在谷歌 Bard(ChatGPT 替代) 上上線,從 PaLM 2 到 Gemini Pro 的過渡將在 12 月底完成。

Pro 模型專為廣泛的任務而設計,它在多項基準測試中擊敗了 OpenAI 的 GPT-3.5 模型(詳情見下文)。谷歌還發布了 Gemini Pro 模型的 API,包括文字和視覺模型。

目前,Gemini Pro 模型僅在全球 170 多個國家提供英語版本。此外,Gemini Pro 的多模態支援和新的語言支援將很快新增到 Bard 中。此外,谷歌表示 Gemini 將在未來幾個月內整合到更多的谷歌產品中,包括搜尋、Chrome 瀏覽器、廣告和 Duet AI。

最後,最小的 Gemini Nano 型號已經搭載在 Pixel 8 Pro 上,並將新增到其他 Pixel 裝置中。Nano 模型專為智慧手機上的裝置、私人和個性化人工智慧體驗而設計。

從 WhatsApp、Line 和 KakaoTalk 開始,它將為錄音應用中的摘要和 Gboard 中的智慧回覆等功能提供支援。明年初將增加對其他訊息應用的支援。

Gemini AI 執行高效

說到原生多模態人工智慧系統的優勢,首先,它可以更快、更高效地執行模型,並將產品擴充套件到數百萬使用者。我們已經知道,OpenAI 的 GPT-4 執行速度相對較慢,最近,該公司暫停了 ChatGPT Plus 訂閱,以滿足硬體要求。執行各種純文字、純視覺、純音訊模型,並以次優方式將它們組合在一起,會抬高整個基礎設施的成本。歸根結底,它妨礙了使用者體驗。

谷歌在其博文中表示,Gemini 正在其最高效的 TPU 系統(v4 和 v5e)上執行,該系統速度更快,可擴充套件性更強。與較早的 PaLM 2 模型相比,在人工智慧加速器上執行 Gemini 模型的速度更快,成本更低。因此,擁有一個原生多模態模型具有眾多優勢,它使谷歌能夠為數百萬使用者提供服務,同時保持較低的計算成本。

Gemini Ultra 與 GPT-4:基準測試

現在,讓我們來看看一些基準測試資料,看看谷歌釋出的 Gemini 是否成功超越了 OpenAI。根據谷歌的資料,在通常用於評估 LLM 效能的 32 項基準測試中,Gemini Ultra 在 30 項測試中均優於 GPT-4 型號。谷歌吹捧 Gemini Ultra 在流行的 MMLU 基準測試中獲得了 90.04% 的最高分,而 GPT-4 的得分率為 86.4%。在 MMLU 基準測試中,它的得分甚至超過了人類專家(89.8%)。

谷歌gemini基準分數

圖片來源:Google Deepmind

關於 Gemini Ultra 的 MMLU 基準資料,來自多方面的批評紛至沓來。谷歌在使用 CoT@32(Chain-of-Thought,思維鏈)提示時獲得了 90.04% 的準確響應。在標準的 5 次提示下,Gemini Ultra 的得分降至 83.7%,而 GPT-4 的得分則為 86.4%,GPT-4 仍然是 MMLU 測試中得分最高的。

雖然這並沒有削弱 Gemini Ultra 的能力,但這意味著需要更好的提示才能讓模型做出準確的反應。

在標準的 5-shot 提示下,Gemini Ultra 的得分率降至 83.7%,而 GPT-4 的得分率為 86.4%,GPT-4 仍然是 MMLU 測試中得分最高的。

在其他基準測試中,在 HumanEval(Python 程式碼生成)中,Gemini Ultra 得分 74.4%,而 GPT-4 得分 67.0%。在用於評估常識推理的 HellaSwag 測試中,Gemini Ultra(87.8%)輸給了 GPT-4(95.3%)。在測試具有挑戰性的多步驟推理任務的 Big-Bench Hard 基準測試中,Gemini Ultra(83.6%)擊敗了 GPT-4(83.1%)。

在多模式測試中,Gemini Ultra 幾乎在所有方面都戰勝了 GPT-4V (Vision)。在 MMMU 測試中,Gemini Ultra 得分為 59.4%,GPT-4V 得分為 56.8%。在自然影象理解(VQAv2 測試)中,Gemini Ultra 得分 77.8%,GPT-4V 得分 77.2%。接著,在自然影象 OCR 測試(TextVQA)中,Gemini Ultra 得分 82.3%,GPT-4V 得分 78%。在文件理解測試(DocVQA)中,Gemini Ultra 得分 90.9%,GPT-4V 得分 88.4%。最後,在資訊圖理解方面,Gemini Ultra 得分 80.3%,GPT-4V 得分 75.1%。

 谷歌多模態模型gemini基準分數

圖片來源:Google Deepmind

您可以在 Google Deepmind 釋出的研究論文中找到 Gemini Ultra 和 GPT-4 之間的更深入比較。從基準資料中得出的主要結論是,谷歌確實推出了一款有能力與包括 GPT-4 在內的最佳 LLM 相抗衡的模型。在多模態能力方面,谷歌似乎又回來了。

安全檢查到位

說到人工智慧的安全性,谷歌總是信奉 “大膽而負責” 的格言。谷歌 Deepmind 團隊也遵循著同樣的原則。谷歌表示,在向公眾釋出這些模型之前,已經對其進行了內部和外部測試。

它圍繞 Gemini AI 模型制定了積極的政策,以檢查使用者輸入和響應中的偏差和毒性。Gemini AI 模型仍然會產生幻覺,但程度要小得多。

谷歌還與 MLCommons 等外部公司合作,對人工智慧系統進行評估。谷歌還在為業界建立一個安全人工智慧框架(SAIF),以降低人工智慧系統的相關風險。該公司目前正在對其強大的 Gemini Ultra 模型進行安全檢查,一旦所有檢查完成,該模型將於明年初發布。

小結

雖然谷歌被一年前釋出的 ChatGPT 打了個措手不及,但現在看來,谷歌終於通過 Gemini 模型趕上了 OpenAI 的步伐。尤其是 Ultra 模型,令人印象深刻,我們已經迫不及待地想對它進行測試了,且不論一些粗略的基準資料。從研究論文中可以看出,它的多模態視覺能力非常出色,編碼效能也是一流的。

Gemini AI 模型與我們迄今為止從谷歌看到的模型截然不同。它們更像是從零開始構建的人工智慧系統。也就是說,OpenAI 可能會在明年初谷歌釋出 Gemini Ultra 模型時推出 GPT-5,這將再次讓谷歌與時間賽跑。儘管如此,你如何看待谷歌新的 Gemini AI 模型?請在下面的評論區分享你的想法。

評論留言