谷歌剛剛推出了最新的最先進的輕量級語言模型-Gemma 3。該模型看起來很有前途,在標準基準測試中的表現優於 Meta 的 Llama 3、DeepSeek-V3 和 OpenAI 的 o3-mini。雖然谷歌聲稱它是“世界上最好的單加速器模型”,但讓我們看看它與其他流行模型的實際表現如何。在本篇 Gemma 3 27B 與 DeepSeek-R1 的對比中,我們將瞭解這款新模型的功能、基準測試和效能,並與著名的 DeepSeek-R1 進行比較。
什麼是Gemma 3?
Gemma 3 是谷歌最新的開源人工智慧模型系列,旨在實現從手持裝置到企業級工作站等各種裝置的無縫部署。Gemma 3 在 PaliGemma 2 的支援下引入了多模態功能,使其能夠處理文字和視覺內容。它還能將音訊檔案和整個資料夾作為上下文資料輸入。
Grok 3 等大型模型使用了超過 10 萬個英偉達 H100 GPU,DeepSeek-R1 使用了 32 個 GPU,而 Gemma 3 估計只需一個 GPU 就能工作。儘管如此,Gemma 3 的體積小,只有 27B 引數,但它的效能卻遠遠超過 DeepSeek-V3、OpenAI 的 o3-mini、Llama3-405B 和 Mistral Large 等大型模型。
以下是谷歌最新 Gemma 3 模型的一些主要特點:
- 多種規格:Gemma 3 有多種尺寸(1B、4B、12B 和 27B)可供選擇,使其在不同的使用情況下都具有高效性和成本效益。
- 小尺寸:Gemma 3 27B 是最大的變體,由於其引數大小為 27B,因此可在提供高效能的同時保持高效率。
- 單加速器相容性:該模型經過優化,可在單個 GPU 或 TPU 上執行,並與 Nvidia GPU 相容。這使得從智慧手機到工作站等裝置都能使用它。
- 多模態:Gemma 3 可以分析文字、影象、短視訊和音訊檔案,從而支援視覺化問題解答和基於影象的故事講述等應用。
- 谷歌整合:由於 Gemma 3 由谷歌開發,因此使用者可以直接從谷歌驅動器上傳檔案。
- 多語種:Gemma 3 預先訓練了超過 35 種語言,並支援 140 多種語言,為翻譯和光學字元識別(OCR)等任務提供了便利。
- 大型上下文視窗:它在 1B 模型中支援 32k 個片語,在更大的模型中支援多達 128k 個片語,而在 Gemma 2 中僅支援 8k 個片語。
- ShieldGemma 2:影象安全分類器,可過濾露骨、危險或暴力內容,提高生成輸出的安全性。
如何訪問Gemma 3
Gemma 3 可在 Google AI Studio 上使用。以下是如何訪問它:
- 開啟 Google AI Studio:點選此處開啟 Google AI Studio。
- 登入或註冊:使用您的 Gmail 憑據登入。如果還沒有賬戶,請註冊一個。
- 選擇 Gemma 3 27B:登入後,進入模特選擇下拉選單,一路向下滾動找到 Gemma 3 27B。選擇該模特並開始聊天即可。
或者,您也可以直接訪問 Gemma 3 的 Hugging Face 空間。你還可以用它在 Keras、JAX 和 Ollama 上構建模型。
Gemma 3 與 DeepSeek-R1:功能對比
現在讓我們開始 Gemma 3 與 DeepSeek-R1 的比較。我們先來看看它們的功能,看看每個模型都有哪些優點。
功能 | Gemma 3 | DeepSeek-R1 |
模型規格 | 1B, 4B, 12B, 27B 引數 | 共 671B (每次查詢有 37B 活動資料) |
上下文視窗 | 27B 模型最多 128K tokens,1B 模型只有 32K。 | 最多 128K tokens |
GPU資源 | 在單 GPU/TPU 上執行 | 需要高階 GPU(H800/H100) |
影象生成 | ❌ No | ❌ No |
影象分析 | ✅ Yes (via SigLIP) | ❌ No |
視訊分析 | ✅ Yes (short clips) | ❌ No |
多模態 | ✅ 文字,影象,視訊 | ❌ 主要基於文字;可從影象中提取文字 |
檔案上傳 | ✅ 文字,影象,視訊 | ❌ 大部分為文字輸入 |
網頁搜尋 | ❌ No | ✅ Yes |
語言 | 35+ 支援和訓練 140+ | English & Chinese 最佳 |
安全 | ✅ 由 ShieldGemma 2 提供強大的安全性 | ❌ 安全性較弱,存在越獄風險 |
Gemma 3與DeepSeek-R1:效能比較
既然我們已經知道了 Gemma 3 和 DeepSeek-R1 的功能,那就讓我們來測試它們的一些共同特性,並比較它們的效能。在這次比較中,我們將測試這兩個模型在以下三個任務中的效能:
- 編碼:製作動畫
- 邏輯推理:解決一個謎題
- STEM 解決問題:解決一個物理問題
對於每項任務,我們都將在兩個模型上嘗試相同的提示,並根據生成速度和輸出質量來評估它們的反應。
如果你想加入我的行列,親自嘗試一些提示進行比較,可以通過啟用聊天介面上的“DeepThink”功能訪問 DeepSeek-R1。
任務 1:編碼
首先,我們來測試兩個模型的編碼能力。在這項任務中,我將要求 Gemma 3 和 DeepSeek-R1 為一個基於物理的動畫編寫 Python 程式碼。我們將在 Google Colab 上執行兩個模型生成的程式碼,並比較它們的輸出結果。
提示詞:Write a python program that shows a ball bouncing inside a spinning pentagon, following the laws of Physics, increasing its speed every time it bounces off an edge.
Gemma 3的輸出
DeepSeek-R1的輸出
對比分析
一旦得到提示,Gemma 3 幾乎立即開始編寫程式碼。另一方面,DeepSeek-R1 則從解釋提示開始,帶我們瞭解它的思考過程。這兩個模型都為我們提供瞭如何執行程式碼的說明。Gemma 還為我們提供了一些關鍵的改進和說明,而 DeepSeek 則解釋了動畫的組成部分,並提到了其可調整的引數。
綜上所述,Gemma 製作的只是一系列相同的五邊形靜態影象,而不是視覺化動畫,這令人相當失望。與此同時,DeepSeek-R1 做得很好,它按照提示建立了一個模擬,球飛離了螢幕,速度超過了峰值。因此,很明顯,DeepSeek-R1 贏得了本輪比賽。
任務 2:邏輯推理
在這項任務中,我們將給模型出一道邏輯題,讓他們解題並比較他們的回答。
提示詞:A solid, four-inch cube of wood is coated with blue paint on all six sides.Then the cube is cut into smaller one-inch cubes.These new one-inch cubes will have either three blue sides, two blue sides, one blue side, or no blue sides. How many of each will there be?”
Gemma 3的回覆
DeepSeek-R1的回覆
比較分析
兩個模型都利用邏輯推理準確地解開了謎題。不過,Gemma 3 只用了大約 30 秒就得出了正確答案,而 DeepSeek-R1 則用了將近兩倍的時間。Gemma 直接將其思維過程融入到答案中,而 DeepSeek 則在生成答案之前先讓我們詳細瞭解其思維過程。雖然這種透明的方式有助於我們瞭解模型的思維方式,但我覺得對於這項任務來說,時間過長是不必要的。要想得到更簡單、更快捷的答案,我給 Gemma 3 加分!
得分:Gemma 3: 1 | DeepSeek-R1: 1
任務 3:STEM問題解決
在這項任務中,我們將測試這些模型在解決科學和數學相關問題方面的能力。我會給這些模型一個涉及計算的物理問題,看看他們能解決多少。
提示詞:A satellite of mass 500 kg is in a circular orbit around Earth at an altitude of 500 km. Given:
- Mass of Earth = 5.97 × 10²⁴ kg
- Radius of Earth = 6,371 km
- Gravitational constant (G) = 6.674 × 10⁻¹¹ N·m²/kg²
Calculate:a) The orbital velocity of the satellite.b) The period of revolution around Earth.”
Gemma 3的回覆
“Okay, let’s break down the calculations for the satellite’s orbital velocity and period.
a) Orbital Velocity
The orbital velocity (v) of a satellite in a circular orbit is determined by the balance between the gravitational force and the centripetal force. The formula is:
v = √(GM/r)
Where:
- G = Gravitational constant (6.674 × 10⁻¹¹ N·m²/kg²)
- M = Mass of Earth (5.97 × 10²⁴ kg)
- r = Orbital radius (distance from the center of Earth to the satellite)
First, we need to calculate the orbital radius (r):
r = Radius of Earth + Altitude
Plugging in the values,
r = 6,371 km + 500 km
r = 6,871 km = 6,871,000 m (Convert to meters)
Now, plug the values into the velocity formula:
v = √((6.674 × 10⁻¹¹ N·m²/kg² * 5.97 × 10²⁴ kg) / 6,871,000 m)
v = √((3.9857 × 10¹⁴ N·m²/kg) / 6,871,000 m) = √(5.799 × 10⁷ m²/s²) ≈ 7615 m/s
Therefore, the orbital velocity of the satellite is approximately 7.615 km/s.
b) Period of Revolution
The period (T) of revolution is the time it takes for the satellite to complete one orbit. It can be calculated using the following formula:
T = 2πr / v
Where:
- π ≈ 3.14159
- r = Orbital radius (6,871,000 m)
- v = Orbital velocity (7615 m/s)
Plug in the values:
T = (2 * 3.14159 * 6,871,000 m) / 7615 m/s
T = 43,109,886.8 m / 7615 m/s ≈ 5652 seconds
Convert to minutes:
T ≈ 5652 seconds / 60 seconds/minute
T ≈ 94.2 minutes
Therefore, the period of revolution of the satellite around Earth is approximately 94.2 minutes.
Summary:
- Orbital Velocity: 7.615 km/s
- Period of Revolution: 94.2 minutes”
DeepSeek-R1的回覆
對比分析
雖然兩個模型都能按照所有步驟正確回答問題,但 Gemma 只用了 35 秒,比 DeepSeek-R1 快了 6 倍多!與之前的任務類似,DeepSeek-R1 在生成答案前解釋了整個思考過程,而 Gemma 3 則在解釋步驟的同時直接開始生成答案。Gemma 給出的速度單位是 km/s,而 DeepSeek 給出的速度單位是 m/s,這是正確的 SI 速度單位。
對於問題的第二部分,儘管兩個模型使用了相同的公式和數值,但 Gemma 3 將 2πr 即(2 * 3.14159 * 6,871,000)計算為 43,109,886.8,而不是實際值 43171729.78。這導致模型得到的最終答案偏差了 12 秒,這在與空間有關的計算中是一個很大的差距。因此,在這項任務中,DeepSeek-R1 也得分。
得分:Gemma 3: 1 | DeepSeek-R1: 2
效能比較摘要
任務 | Gemma 3 效能 | DeepSeek-R1 效能 | 勝出者 |
編碼:動畫 | 快速開始生成程式碼,但未能製作出有效的動畫。提供瞭解釋和改進,但缺乏執行力。 | 用時較長,但根據提示提供了一個有效的動畫。解釋了元件幷包含可調整引數。 | DeepSeek-R1 |
邏輯推理 | 在約 30 秒內正確解題,將思考過程融入答題中,答案簡明扼要。 | 也能正確解題,但耗時兩倍,並提供了詳細的步驟說明。 | Gemma 3 |
STEM問題解決 | 快速作答(約 35 秒),步驟基本正確,但在最終答案中出現計算錯誤。提供的速度單位是 km/s,而不是 SI 單位(m/s)。 | 用時明顯較長,但採用了有條理的方法,確保使用正確的國際單位進行正確計算。 | DeepSeek-R1 |
雖然 Gemma 3 在速度和多模態能力方面表現出色,但在執行編碼和複雜問題解決等繁重任務時卻顯得力不從心。另一方面,DeepSeek-R1 儘管速度較慢,卻能提供更精確的輸出,尤其是在 STEM 相關問題上。
Gemma 3與DeepSeek-R1:基準測試比較
儘管 Gemma 3 的規模較小,僅有 27B 引數,但它的表現一直優於 DeepSeek-V3、OpenAI 的 o3-mini、Llama3-405B 和 Mistral Large 等規模更大的模型,尤其是在編碼任務中。不過,從聊天機器人競技場的 elo 分數來看,它僅次於 DeepSeek-R1。
Source: Google Dev
在 Chatbot Arena 的實時排行榜上,Gemma 3 與 Qwen2.5-Max、o1-preview 和 o3-mini(高)並列排在第 9 位。同時,DeepSeek-R1 在同一排行榜上排名第 6。
Source: Chatbot Arena
在其他標準基準測試中,DeepSeek-R1 幾乎在所有方面都優於 Gemma 3。以下是部分測試結果。
Benchmark (Metric) | Bird-SQL | MMLU-Pro (EM) | GPQA-Diamond (Pass@1) | SimpleQA (Correct) | LiveCodeBench (Pass@1-COT) | MATH-500 (Pass@1) |
Gemma 3 27B | 54.4 | 67.5 | 42.4 | 10 | 29.7 | 89 |
DeepSeek R1 | 34 | 84.0 | 71.5 | 30.1 | 65.9 | 97.3 |
資源:
- DeepSeek-R1: https://huggingface.co/deepseek-ai/DeepSeek-R1
- Gemma 3: https://ai.google.dev/gemma
小結
通過對 Gemma 3 和 DeepSeek-R1 的對比,我們清楚地瞭解了這兩個模型在實際應用中的效能。雖然谷歌的 Gemma 3 是一款為提高效率而優化的輕量級模型,令人印象深刻,但 DeepSeek-R1 仍然是人工智慧領域的主導力量,在多個基準測試和任務中表現出卓越的效能。
不過,Gemma 3 能夠在單個 GPU 上執行,並與谷歌的生態系統整合,這使它成為開發人員和研究人員尋求高效、易用模型的可行選擇。它的體積較小,也使其成為手持裝置和小型專案的最佳選擇。
評論留言