作為 Gemma 開放模型家族的最新成員,Gemma 3 是谷歌在人工智慧領域的又一次飛躍。Gemmaverse 在第一年取得了令人矚目的成績–下載量超過 1 億次,社羣建立的變體超過 60,000 個。有了 Gemma 3,開發人員可以使用輕量級的人工智慧模型,這些模型可以在從智慧手機到高階工作站的各種裝置上高效執行。
Gemma 3 建立在與谷歌強大的 Gemini 2.0 模型相同的技術基礎上,旨在實現快速、便攜和負責任的人工智慧開發。此外,Gemma 3 還有各種尺寸(1B、4B、12B 和 27B),使用者可以根據具體的硬體和效能需求選擇最佳型號。很吸引人吧?本文將深入探討 Gemma 3 的功能和實現、針對人工智慧安全的 ShieldGemma 2 的介紹,以及開發人員如何將這些工具整合到他們的工作流程中。
什麼是Gemma 3?
Gemma 3 是谷歌在開放式人工智慧領域的最新飛躍。Gemma 3 被歸類為密集模型。它有四種不同的大小–1B、4B、12B 和 27B 引數,包括基礎(預訓練)和指令調整變體。主要亮點包括
- 上下文視窗:
- 1B 模型:32K tokens
- 4B、12B 和 27B 模型:128K tokens
- 多模態:
- 1B 變體:純文字
- 4B、12B、27B 變體:可使用 SigLIP 影像編碼器處理影像和文字
- 多語言支援:
- 1B 僅支援英語
- 較大型號支援 140 多種語言
- 整合:
- 模型託管在 Hub 上,並與 Hugging Face 無縫整合,使實驗和部署變得簡單。
開放式模型的飛躍
Gemma 3 模型非常適合各種文字生成和影像理解任務,包括問題解答、總結和推理。Gemma 3 建立在與 Gemini 2.0 模型相同的研究基礎之上,是我們迄今為止最先進、最便攜、最負責任的開放式模型集。它有多種大小(1B、4B、12B 和 27B)可供選擇,開發人員可以根據自己的硬體和效能要求靈活選擇最佳方案。無論是在智慧手機、筆記型電腦等裝置上部署模型,Gemma 3 都能直接在裝置上快速執行。
Source: Hugging Face
尖端功能
Gemma 3 不僅僅是大小的問題,它還擁有眾多功能,可幫助開發人員構建下一代人工智慧應用程式:
- 無與倫比的效能:Gemma 3 以其大小提供了最先進的效能。在初步評估中,它的效能超過了 Llama-405B 、DeepSeek-V3 和 o3-mini 等模型,讓您只需使用單個 GPU 或 TPU 主機即可建立引人入勝的使用者體驗。
- 多語言能力:Gemma 3 開箱即支援超過 35 種語言,預訓練支援 140 多種語言,可幫助您構建面向全球受眾的應用程式。
- 高階推理和多模態:無縫分析影像、文字和短影片。該模型透過量身定製的 SigLIP 編碼器引入視覺理解,從而支援廣泛的互動式應用。
- 擴充套件的上下文視窗:128K tokens 的海量上下文視窗可讓您的應用程式一次性處理和理解大量資料。
- 創新的函式呼叫:內建的函式呼叫和結構化輸出支援可讓開發人員輕鬆實現複雜工作流程的自動化。
- 透過量化提高效率:官方量化版本(在 Hugging Face 上提供)可在不犧牲準確性的情況下減少模型大小和計算需求。
Gemma 3的技術改進
Gemma 3 在前代產品成功的基礎上,重點增強了三個核心功能:更長的上下文長度、多模態和多語言性。讓我們深入瞭解一下是什麼讓 Gemma 3 成為一個技術奇蹟。
更長的語境長度
- 無需從頭開始重新訓練即可擴充套件:最初使用 32K 序列對模型進行預訓練。對於 4B、12B 和 27B 變體,在預訓練後,上下文長度會有效地擴充套件到 128K tokens,從而節省大量的計算量。
- 增強的位置嵌入:RoPE(旋轉位置嵌入)的基頻從 Gemma 2 中的 10K 提升到 Gemma 3 中的 1M,然後再擴充套件 8 倍,這使得模型即使在擴充套件上下文的情況下也能保持高效能。
- 最佳化的 KV 快取管理:透過在全域性層(比例為 5:1)之間交錯多個區域性注意力層(具有 1024 個 tokens 的滑動視窗),Gemma 3 顯著降低了推理過程中的 KV 快取記憶體開銷,從僅全域性設定中的 60% 左右降低到 15% 以下。
KV Caching | Source – Link
多模態
- 視覺編碼器整合:Gemma 3 利用 SigLIP 影像編碼器處理影像。為了保持一致性,所有影像都被調整為固定的 896×896 解析度。為了處理非方形寬高比和高解析度輸入,一種自適應的“平移和掃描”演算法會即時裁剪和調整影像大小,確保保留關鍵的視覺細節。
- 不同的注意機制:文字 token 使用單向(因果)注意,而影像 token 則接受雙向注意。這使得該模型能夠在保持高效文字處理的同時,建立對視覺輸入的完整、無限制的理解。
Source – Link
多語言
- 擴充套件資料和token符改進:與 Gemma 2 相比,Gemma 3 的訓練資料集現在包含雙倍數量的多語言內容。Gemma 3 使用相同的 SentencePiece token 符號生成器(具有 262K 條目),但現在對中文、日文和韓文進行了更高保真編碼,使模型能夠支援 140 多種語言的大型變體。
Source – Link
架構增強:Gemma 3的新功能
Gemma 3 在架構上進行了重大更新,解決了一些關鍵難題,尤其是在處理長語境和多模態輸入時。以下是新功能
- 最佳化的注意力機制:為了支援 128K tokens 的擴充套件上下文長度(1B 模型為 32K tokens),Gemma 3 重新設計了轉換器架構。透過將區域性注意層與全域性注意層的比例提高到 5:1,該設計確保只有全域性層能處理長距離依賴關係,而區域性層則在較短的跨度(1024 tokens)內執行。這一變化大大降低了推理過程中的 KV 快取記憶體開銷–在新設計中,“僅全域性”配置的開銷從原來的 60% 增加到現在的不到 15%。
- 增強的位置編碼:Gemma 3 升級了全域性自注意層的 RoPE(旋轉位置嵌入),將基頻從 10K 提高到 100 萬,同時將區域性層的基頻保持在 10K。這一調整可在不影響效能的情況下更好地擴充套件長上下文場景。
Source – Link
- 改進的規範技術:新架構超越了 Gemma 2 中使用的軟封頂方法,採用 QK 規範來穩定注意力分數。此外,它還將分組查詢注意力(GQA)與後規範和前規範 RMSNorm 相結合,以確保訓練過程中的一致性和效率。
- 注意力分數 QK-Norm:穩定模型的注意力權重,減少之前迭代中出現的不一致性。
- 分組查詢注意力 (GQA):該技術與後規範和前規範 RMSNorm 相結合,可提高訓練效率和輸出可靠性。
- 視覺模態整合:Gemma 3 將基於 SigLIP 的視覺編碼器納入多模態領域。該編碼器將影像處理為軟 token 序列,而平移和掃描(P&S)方法則透過自適應裁剪和調整非標準長寬比來最佳化影像輸入,確保視覺細節保持完整。
輸出
這些架構上的變化不僅提升了效能,還顯著提高了效率,使 Gemma 3 能夠處理更長的上下文並無縫整合影像資料,同時減少記憶體開銷。
成功的基準測試
最近在 Chatbot Arena 上進行的效能比較將 Gemma 3 27B IT 定位為最優秀的競爭者之一。正如下面的排行榜圖片所示,Gemma 3 27B IT 以 1338 分的成績脫穎而出,與其他領先模型競爭激烈,在某些情況下甚至超過了它們。例如
- Early Grok-3 的總分是1402 分,但 Gemma 3 在指令跟蹤和多圈互動等具有挑戰性的類別中的表現仍然非常出色。
- Gemini-2.0 Flash Thinking 和 Gemini-2.0 Pro 變體的得分在 1380-1400 之間,而 Gemma 3 在多個測試維度上表現均衡。
- ChatGPT-4o 和 DeepSeek R1 的分數很有競爭力,但 Gemma 3 即使在較小的模型尺寸下也能保持一致性,充分展示了其效率和多功能性。
下面是 Chatbot Arena 排行榜上的一些示例圖片,展示了各種測試場景下的排名和 Chatbot Arena 得分:
Source: Chatbot Arena – Rank
Source: Chatbot Arena – Score
要深入瞭解效能指標並以互動方式檢視排行榜,請檢視 Hugging Face 上的 Chatbot Arena 排行榜。
效能指標細分
除了令人印象深刻的 Elo 總分外,Gemma 3-27B-IT 在 Chatbot Arena 的各個子類別中也表現出色。下面的柱狀圖說明了該模型在“硬提示”、“數學”、“編碼”、“創意寫作”等指標上的表現。值得注意的是,Gemma 3-27B-IT 在“創意寫作”(1348)和“多輪對話”(1336)方面表現出色,這反映了它能夠保持連貫、語境豐富的對話。
Gemma 3 27B-IT 不僅在面對面的 Chatbot Arena 評估中名列前茅,而且在其他比較排行榜的創意寫作任務中也大放異彩。根據創意寫作的最新 EQ-Bench 結果,Gemma 3 27B-IT 目前在排行榜上排名第二。雖然由於 OpenRouter 效能較慢,評估僅基於一次迭代,但早期結果非常令人鼓舞。該團隊正計劃很快對 12B 變體進行基準測試,早期的預期表明它在其他創意領域的表現也很有希望。
Source – Link
LMSYS Elo分數與引數大小的關係
Source – Link
在上圖中,每個點代表一個模型的引數數(X 軸)和相應的 Elo 分數(Y 軸)。請注意 Gemma 3-27B IT 如何觸及“Pareto Sweet Spot”,與 Qwen 2.5-72B、DeepSeek R1 和 DeepSeek V3 等其他模型相比,它以相對較小的模型尺寸提供了較高的 Elo 效能。
除了這些正面對決,Gemma 3 還在各種標準化基準測試中表現出色。下表比較了 Gemma 3 與早期 Gemma 版本和 Gemini 型號在 MMLU-Pro、LiveCodeBench、Bird-SQL 等任務上的效能。
多個基準測試的效能
Source – Link
在該表中,您可以看到 Gemma 3 在 MATH 和 FACTS Grounding 等任務中的突出表現,同時在 Bird-SQL 和 GPQA Diamond 上也表現出了競爭力。雖然 SimpleQA 分數看起來不高,但 Gemma 3 的整體表現突出了其在語言理解、程式碼生成和事實基礎方面的均衡性。
Source – Link
這些視覺效果凸顯了 Gemma 3 平衡效能和效率的能力,尤其是 27B 變體,它提供了最先進的功能,卻不像某些競爭型號那樣需要大量計算。
推薦閱讀:Gemma 3 vs DeepSeek-R1:谷歌新的 27B 模型是 671B 巨頭的有力競爭者嗎?
負責任的人工智慧開發方法
隨著人工智慧能力的增強,確保安全和道德部署的責任也隨之而來。Gemma 3 經過了嚴格的測試,以保持谷歌的高安全標準:
- 根據模型能力進行全面風險評估。
- 根據谷歌的安全政策進行微調和基準評估。
- 對 STEM 相關內容進行專門評估,以評估與潛在有害應用中的誤用相關的風險。
谷歌旨在為開放模型設定新的行業標準。
嚴格的安全協議
創新與責任並存。Gemma 3 的開發遵循嚴格的安全協議,包括廣泛的資料管理、微調和穩健的基準評估。以 STEM 功能為重點的特別評估證實,其被濫用的風險很低。此外,在 Gemma 3 基礎上推出的 4B 影像安全檢查器ShieldGemma 2 可確保內建安全措施對潛在的不安全內容進行分類並減輕其影響。
與您最喜愛的工具無縫整合
Gemma 3 可毫不費力地融入您現有的工作流程:
- 開發人員友好的生態系統:支援 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等工具,這意味著您可以輕鬆地進行實驗和整合。
- 針對多種平臺進行了最佳化:無論您是使用英偉達™(NVIDIA®)GPU、谷歌雲 TPU、AMD GPU(透過 ROCm 堆疊)還是本地環境,Gemma 3 都能最大限度地提高效能。
- 靈活的部署選項:從 Vertex AI 和 Cloud Run 到谷歌 GenAI API 和本地設定,Gemma 3 的部署既靈活又簡單。
探索Gemmaverse
除了模型本身,還有 Gemmaverse,一個由社羣建立的模型和工具組成的繁榮生態系統,不斷推動人工智慧創新的發展。從新加坡 AI 公司的 SEA-LION v3 打破語言障礙,到 INSAIT 公司的 BgGPT 支援多種語言,Gemmaverse 是合作進步的見證。此外,Gemma 3 學術計劃還為研究人員提供谷歌雲積分,以推動進一步的突破。
開始使用Gemma 3
準備好探索 Gemma 3 的全部潛力了嗎?以下是您的入門方法:
- 即時探索:直接在瀏覽器中透過 Google AI Studio 試用 Gemma 3 的全部精度,無需任何設定。
- API 訪問:從 Google AI Studio 獲取 API 金鑰,使用 Google GenAI SDK 將 Gemma 3 整合到您的應用程式中。
- 下載和定製:透過 Hugging Face、Ollama 或 Kaggle 等平臺訪問模型,並根據專案需要對其進行微調。
Gemma 3 是我們實現高質量人工智慧民主化的一個重要里程碑。它融合了效能、效率和安全性,必將激發新一輪的創新浪潮。無論您是經驗豐富的開發人員,還是剛剛開始人工智慧之旅,Gemma 3 都能為您提供構建未來智慧應用程式所需的工具。
如何使用Ollama在本地執行Gemma 3?
使用 Ollama,您可以在本地機器上充分利用 Gemma 3 的強大功能。請按照以下步驟操作
- 安裝 Ollama:從官方網站下載並安裝 Ollama。
拉取 Gemma 3 模型:安裝 Ollama 後,使用命令列介面拉取所需的 Gemma 3 變體。例如:Ollama pull gemma3:4b - 執行模型:
執行:llama run gemma3:4b
命令,在本地啟動模型。 - 然後,你可以直接從終端或透過 Ollama 提供的任何本地介面與 Gemma 3 互動。
- 自定義與實驗:調整設定或與您喜歡的工具整合,以獲得無縫本地部署體驗。
如何在系統上或透過Colab+Hugging Face執行Gemma 3?
對於喜歡更靈活設定或希望利用 GPU 加速的使用者,您可以在自己的系統上執行 Gemma 3,或在 Hugging Face 的支援下使用 Google Colab:
1. 設定環境
- 本地系統:確保已安裝 Python 和必要的庫。
- Google Colab:開啟一個新筆記本,在執行時設定中啟用 GPU 加速。
2. 安裝依賴項
使用 pip 安裝 Hugging Face Transformers 庫和其他依賴項:
!pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3Copy Code
3. 從Hugging Face載入Gemma 3
在指令碼或 Colab 筆記本中,用以下程式碼片段載入模型和token符:
import torch from transformers import AutoProcessor, Gemma3ForConditionalGeneration from IPython.display import Markdown, display # load LLM artifacts processor = AutoProcessor.from_pretrained("unsloth/gemma-3-4b-it") model = Gemma3ForConditionalGeneration.from_pretrained( "unsloth/gemma-3-4b-it", device_map="auto", torch_dtype=torch.bfloat16, )Copy Code
4. 執行和實驗
載入模型後,開始生成文字或處理影像。您可以對引數進行微調,與應用程式整合,或嘗試使用不同的輸入模式。
# download img !curl "https://vitapet.com/media/emhk5nz5/cat-playing-vs-fighting-1240x640.jpg" -o cats.jpg # prompt LLM and get response messages = [ { "role": "user", "content": [ {"type": "image", "url": "./cats.jpg"}, {"type": "text", "text": """Extract the key details in this images, also guess what might be the reason for this action?"""} ] } ] inputs = processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt" ).to(model.device) input_len = inputs["input_ids"].shape[-1] generation = model.generate(**inputs, max_new_tokens=1024, do_sample=False) generation = generation[0][input_len:] decoded = processor.decode(generation, skip_special_tokens=True) display(Markdown(decoded))Copy Code
輸出
Here's a breakdown of the key details in the image and a guess at the reason for the action:Key Details:Two Kittens: The image features two young kittens.Orange Kitten: One kitten is mid-air, leaping dramatically with its paws outstretched. It's a warm orange color with tabby markings.Brown Kitten: The other kitten is on the ground, moving quickly and looking slightly startled. It has a brown and white tabby pattern.White Background: The kittens are set against a plain white background, which isolates them and makes them the focus.Action: The orange kitten is in the middle of a jump, seemingly reacting to the movement of the brown kitten.Possible Reason for the Action:It's highly likely that these kittens are engaged in playful wrestling or chasing. Kittens, especially young ones, often engage in this type of behavior as a way to:Exercise: It's a great way for them to burn energy.Socialize: They're learning about boundaries and play interactions.Bond: Play is a key part of kitten bonding.Explore: They're investigating each other and their environment.It's a common and adorable kitten behavior!Would you like me to describe any specific aspect of the image in more detail?
示例 2
# download img !curl "https://static.standard.co.uk/2025/03/08/17/40/Screenshot-(34).png" -o sidemen.png # prompt LLM and get response messages = [ { "role": "user", "content": [ {"type": "image", "url": "./sidemen.png"}, {"type": "text", "text": """What is going on in this image?"""} ] } ] inputs = processor.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt" ).to(model.device) input_len = inputs["input_ids"].shape[-1] generation = model.generate(**inputs, max_new_tokens=1024, do_sample=False) generation = generation[0][input_len:] decoded = processor.decode(generation, skip_special_tokens=True) display(Markdown(decoded))Copy Code
輸出
Here's a breakdown of what's happening in the image:The Scene:The image captures a moment of intense celebration. A group of men, all wearing red shirts with "FASTABLES" printed on them, are holding a large trophy aloft. They are surrounded by a shower of golden confetti.Key Details:The Trophy: The trophy is the focal point, suggesting a significant victory.Celebration: The players are shouting, jumping, and clearly overjoyed. Their expressions show immense excitement and pride.Confetti: The confetti indicates a momentous occasion and a celebratory atmosphere.Background: In the blurred background, you can see other people (likely spectators) and what appears to be event staff.Text: There's a small text overlay at the bottom: "TO DONATE PLEASE VISIT WWW.SIDEMENFC.COM". This suggests the team is associated with a charity or non-profit organization.Likely Context:Based on the team's shirts and the celebratory atmosphere, this image likely depicts a soccer (football) team winning a championship or major tournament.Team:The team is SideMen FC.Do you want me to elaborate on any specific aspect of the image, such as the team's history or the significance of the trophy?
5. 利用Hugging Face資源:
從龐大的 Hugging Face 社羣、文件和示例筆記本中獲益,進一步定製和最佳化 Gemma 3 的使用。
以下是 Notebook 中的完整程式碼:Gemma-Code
最佳化Gemma 3的推論
使用 Gemma 3-27B-IT 時,必須配置正確的取樣引數,以獲得最佳結果。根據 Gemma 團隊的見解,最佳設定包括
- Temperature:1.0
- Top-k:64
- Top-p:0.95
此外,要小心雙 BOS(序列開頭)標記,它可能會意外降低輸出質量。有關更詳細的解釋和社羣討論,請檢視 danielhanchen在 Reddit 上釋出的這篇有用的帖子。
透過微調這些引數並謹慎處理標記化,您可以在各種任務(從創意寫作到複雜的編碼挑戰)中釋放 Gemma 3 的全部潛能。
一些重要連結
- GGUFs – 適用於 Gemma 3 的最佳化 GGUF 模型檔案。
- Transformers – Hugging Face 官方 Transformers 整合。
- MLX (coming soon) – 即將推出對 Apple MLX 的本地支援。
- Blogpost – Gemma 3 的概述和見解。
- Transformers Release – Transformers 庫的最新更新。
- Tech Report – Gemma 3 的深入技術細節。
版本說明
Evals:
- MMLU-Pro:Gemma 3-27B-IT 得分 67.5,接近 Gemini 1.5 Pro 的 75.8。
- Chatbot Arena:Gemma 3-27B-IT 的 Elo 得分為 1338,超過了 LLaMA 3 405B (1257) 和 Qwen2.5-70B (1257) 等大型模型。
- 比較效能:Gemma 3-4B-IT 與 Gemma 2-27B-IT 相比具有競爭力。
多模態:
- 視覺理解:利用定製的 SigLIP 視覺編碼器,將影像處理為軟token序列。
- 平移和掃描 (P&S):採用自適應視窗演算法,將非方形影像分割為 896×896 裁剪,提高了高解析度影像的效能。
長語境:
- 擴充套件token支援:模型支援多達 128K tokens(1B 版本支援 32K)。
- 最佳化注意力:區域性注意層與全域性注意層的比例為 5:1,以緩解 KV 快取記憶體爆炸的問題。
- 注意力跨度:本地層處理 1024 tokens 跨度,而全域性層則管理擴充套件上下文。
記憶體效率:
- 減少開銷:5:1 的關注比例將 KV 快取記憶體開銷從 60%(僅全域性)降低到 15%以下。
- 量化:使用量化感知訓練(QAT)以 int4、int4(每塊)和交換 fp8 格式提供模型,顯著降低了記憶體佔用。
訓練和蒸餾
- 廣泛的預訓練:27B 模型在 14T tokens 上進行了預訓練,並擴充了多語言資料集。
- 知識蒸餾:採用每個 token 256 個對數的策略,並根據教師機率進行加權。
- 強化後培訓:重點提高數學、推理和多語言能力,表現優於 Gemma 2。
視覺編碼器效能:
- 更高解析度優勢:在 DocVQA(59.8 對 31.9)等任務中,以 896×896 解析度執行的編碼器優於以較低解析度(如 256×256)執行的編碼器。
- 效能提升:平移和掃描可提高文字識別任務的效能(例如,4B 模型在 DocVQA 上提高了 8.2 分)。
長語境縮放:
- 高效擴充套件:在 32K 序列上對模型進行預訓練,然後使用 RoPE 以 8 倍的係數重新縮放,將其縮放至 128K tokens。
- 上下文限制:雖然超過 128K tokens 後效能會迅速下降,但模型在此範圍內的泛化效果非常好。
小結
Gemma 3 代表著開放式人工智慧技術的一次革命性飛躍,它突破了輕量級、可訪問模型的極限。透過整合創新技術,如增強型多模態處理與定製的 SigLIP 視覺編碼器、擴充套件至 128K tokens的上下文長度,以及獨特的 5:1 本地與全域性注意力比例,Gemma 3 不僅實現了最先進的效能,還顯著提高了記憶體效率。
其先進的訓練和提煉方法縮小了與大型閉源模型的效能差距,使開發人員和研究人員都能獲得高質量的人工智慧。這一版本為人工智慧的民主化樹立了新的標杆,為使用者提供了一個適用於各種應用的多功能、高效的工具。
評論留言