人工智慧領域正在迅速發展,小型、輕量級模型因其高效性和可擴充套件性而日益突出。繼谷歌 DeepMind 推出 27B 模型 Gemma 3 之後,Mistral AI 現在又釋出了擁有 24B 引數的 Mistral 3.1 輕量級模型。這個全新、快速、可定製的模型重新定義了輕量級模型的功能。它可在單個處理器上高效執行,從而提高了速度,並使小型團隊和組織更易於使用。在這篇 Mistral 3.1 與 Gemma 3 的對比中,我們將探討它們的功能,評估它們在基準測試中的效能,並進行一些實際測試,以找出更好的模型。
什麼是Mistral 3.1?
Mistral 3.1 是 Mistral AI 最新推出的大型語言模型(LLM),旨在以更低的計算要求提供更高的效能。它代表了向結構緊湊但功能強大的人工智慧模型的轉變,使高階人工智慧功能更容易獲得,更具成本效益。與需要大量資源的大型模型不同,Mistral 3.1 兼顧了可擴充套件性、速度和經濟性,是實際應用的理想之選。
Mistral 3.1的主要功能
- 輕便高效:可在單個 RTX 4090 或配備 32GB 記憶體的 Mac 上流暢執行,是裝置上人工智慧解決方案的理想選擇。
- 快速響應的對話式人工智慧:針對需要快速、準確響應的虛擬助手和聊天機器人進行了最佳化。
- 低延遲功能呼叫:支援自動化工作流和代理系統,以最小的延遲執行功能。
- 微調能力:可專門用於法律人工智慧、醫療診斷和技術支援,提供特定領域的專業知識。
- 多模態理解:在影像處理、文件驗證、診斷和物體檢測方面表現出色,是各行各業的多面手。
- 開源和可定製:提供基本檢查點和指示檢查點,可進一步為高階應用進行下游定製。
如何訪問Mistral 3.1
Mistral 3.1 可透過多個平臺獲取。您可以透過 Hugging Face 下載並在本地執行,也可以使用 Mistral AI API 訪問。
1. 透過Hugging Face訪問Mistral 3.1
您可以從 Hugging Face 下載 Mistral 3.1 Base 和 Mistral 3.1 Instruct 以直接使用。以下是操作方法:
第 1 步:安裝 vLLM Nightly
開啟終端,執行此命令安裝 vLLM(同時安裝所需的 mistral_common 軟體包):
pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly --upgrade
你可以透過執行下面命令驗證安裝:
python -c "import mistral_common; print(mistral_common.__version__)"
第 2 步:準備 Python 指令碼
建立一個新的 Python 檔案(如offline_inference.py
)並新增以下程式碼。確保將 model_name 變數設定為正確的模型 ID(例如,“mistralai/Mistral-Small-3.1-24B-Instruct-2503
”):
from vllm import LLM from vllm.sampling_params import SamplingParams # Define a system prompt (you can modify it as needed) SYSTEM_PROMPT = "You are a conversational agent that always answers straight to the point, always end your accurate response with an ASCII drawing of a cat." # Define the user prompt user_prompt = "Give me 5 non-formal ways to say 'See you later' in French." # Set up the messages for the conversation messages = [ {"role": "system", "content": SYSTEM_PROMPT}, {"role": "user", "content": user_prompt}, ] # Define the model name (make sure you have enough GPU memory or use quantization if needed) model_name = "mistralai/Mistral-Small-3.1-24B-Instruct-2503" # Initialize the LLM from vLLM with the specified model and tokenizer mode llm = LLM(model=model_name, tokenizer_mode="mistral") # Set sampling parameters (adjust max_tokens and temperature as desired) sampling_params = SamplingParams(max_tokens=512, temperature=0.15) # Run the model offline and get the response outputs = llm.chat(messages, sampling_params=sampling_params) # Print the generated text from the model's response print(outputs[0].outputs[0].text)
Step 3:離線執行指令碼
- 儲存指令碼。
- 在儲存指令碼的目錄下開啟終端。
- 執行指令碼:
python offline_inference.py
模型將載入到本地,並根據您的提示生成響應。
重要注意事項
- 硬體要求:在 GPU 上以全精度執行完整的 24B 模型通常需要超過 60 GB 的 GPU 記憶體。如果您的硬體達不到這個要求,請考慮
- 使用模型的縮小或量化版本。
- 使用有足夠記憶體的 GPU。
- 離線模式與伺服器模式:該程式碼使用 vLLM Python API 來離線執行模型(即完全在本地計算機上執行,無需設定伺服器)。
- 修改提示:你可以根據自己的需要修改 SYSTEM_PROMPT 和 user_prompt。對於生產或更高階的使用,您可能希望新增一個系統提示,以幫助指導模型的行為。
2. 透過API訪問Mistral 3.1
您也可以透過 API 訪問 Mistral 3.1。具體步驟如下。
- 訪問網站:訪問 Mistral AI 登入或使用所有必要的詳細資訊登入。
- 訪問 API 部分:點選“Try the API”,探索可用選項。
- 導航至 API:登入後,點選“API”管理或生成新金鑰。
- 選擇計劃:當被要求生成 API 時,點選“Choose a Plan”以繼續訪問 API。
- 選擇 “免費實驗計劃”:點選“Experiment for Free”,免費試用 API。
- 註冊免費訪問:完成註冊流程,建立賬戶並訪問 API。
- 建立新的 API 金鑰:點選“Create New Key”,為您的專案生成新的 API 金鑰。
- 配置 API 金鑰:提供一個金鑰名稱,以便於識別。您甚至可以選擇設定有效期,以提高安全性。
- 最後確定並取回 API 金鑰:點選“Create New Key”生成金鑰。現在您的 API 金鑰已經建立,可以在您的專案中使用。
您可以將此 API 金鑰整合到您的應用程式中,以便與 Mistral 3.1 進行互動。
什麼是Gemma 3?
Gemma 3 是由谷歌 DeepMind 設計的最先進的輕量級開放模型,可在高效利用資源的同時提供高效能。它基於為 Gemini 2.0 提供動力的相同研究和技術,以緊湊的形式提供先進的人工智慧功能,使其成為各種硬體裝置上應用的理想選擇。Gemma 3 有 1B、4B、12B 和 27B 四種引數規格,使開發人員能夠構建快速、可擴充套件和可訪問的人工智慧解決方案。
Gemma 3的主要功能
- 在單個加速器上實現高效能:在 LMArena 的評估中,它的效能優於 Llama 3-405B 、DeepSeek-V3 和 o3-mini,是單位規模的最佳模型之一。
- 多語言功能:支援 140 多種語言,實現人工智慧驅動的全球交流。
- 高階文字和視覺推理:可處理影像、文字和短影片,擴充套件互動式人工智慧應用。
- 擴充套件的上下文視窗:可處理多達 128k 標記,從而可進行更深入的分析並生成長篇內容。
- 人工智慧工作流程的功能呼叫:支援用於自動化和代理體驗的結構化輸出。
- 最佳化效率:官方量化版本可在不影響準確性的前提下降低計算需求。
- 內建安全的 ShieldGemma 2:提供影像安全檢查,檢測危險、露骨和暴力內容。
如何訪問Gemma 3
Gemma 3 可透過多個平臺隨時訪問,如 Google AI Studio、Hugging Face、Kaggle 等。
1. 透過Google AI Studio訪問Gemma 3
此選項可讓您在預配置的環境中與 Gemma 3 互動,而無需在自己的機器上安裝任何東西。
第 1 步:開啟瀏覽器,進入 Google AI Studio 。
第 2 步:使用谷歌賬戶登入。如果沒有,請建立一個谷歌賬戶。
第 3 步:登入後,使用 AI Studio 的搜尋欄查詢使用“Gemma 3”的筆記本或演示專案。
提示: 查詢標題為“Gemma 3”的專案,或檢視“Community Notebooks”(社羣筆記本)部分,那裡通常會共享預配置演示。
第 4 步: 按以下步驟啟動演示。
- 點選筆記本開啟。
- 點選“Run”或“Launch”按鈕,開始互動會話。
- 筆記本會自動載入 Gemma 3 模型,並提供演示其功能的單元格示例。
第 5 步:按照筆記本中的說明開始使用模型。您可以修改輸入文字、執行單元格並即時檢視模型的響應,而無需任何本地設定。
2. 透過Hugging Face、Kaggle和Ollama訪問Gemma 3
如果您想在自己的機器上使用 Gemma 3 或將其整合到您的專案中,可以從以下幾個來源下載。
A. Hugging Face
第 1 步:訪問 Hugging Face 。
第 2 步:使用搜尋欄輸入“Gemma 3”,然後點選與 Gemma 3 相對應的模型卡。
第 3 步:使用“Download”按鈕下載模型,或透過 Git 克隆版本庫。
如果使用 Python,請安裝 Transformers 庫:
pip install transformers
第 4 步:在程式碼中載入並使用模型。為此,你可以建立一個新的 Python 指令碼(例如 gemma3_demo.py
),並新增類似下面程式碼段的程式碼:
from transformers import AutoModelForCausalLM, AutoTokenizer model_id = "your-gemma3-model-id" # replace with the actual model ID from Hugging Face model = AutoModelForCausalLM.from_pretrained(model_id) tokenizer = AutoTokenizer.from_pretrained(model_id) prompt = "What is the best way to enjoy a cup of coffee?" inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
在本地執行指令碼,與 Gemma 3 互動。
B. Kaggle
Step 1:在瀏覽器中開啟 Kaggle。
Step 2:使用 Kaggle 上的搜尋欄搜尋“Gemma 3”。查詢使用該模型的筆記本或資料集。
Step 3: 點選相關筆記本,檢視 Gemma 3 是如何整合的。你可以在 Kaggle 的環境中執行筆記本,也可以下載筆記本在本地機器上研究和修改。
C. Ollama
Step 1:訪問 Ollama 並下載 Ollama 應用程式。
Step 2:在系統上啟動 Ollama 應用程式,使用內建搜尋功能在型號目錄中查詢 “Gemma 3”。
Step 3:點選 Gemma 3 型號,按照提示下載並安裝。安裝完成後,使用 Ollama 介面透過輸入提示和檢視響應來測試模型。
按照這些詳細步驟,您既可以在 Google AI Studio 上立即試用 Gemma 3,也可以透過 Hugging Face、Kaggle 或 Ollama 下載 Gemma 3 進行開發。請選擇最適合您的工作流程和硬體設定的方法。
Mistral Small 3.1與Gemma 3:功能比較
現在,讓我們從它們的功能開始比較。下面是根據現有資料對 Gemma 3 和 Mistral Small 3.1 的功能進行的詳細比較:
功能 | Mistral Small 3.1 | Gemma 3 |
引數 | 24B | 有 1B、4B、12B 和 27B 四種型號可供選擇 |
上下文視窗 | 多達 128K tokens | 多達 128K tokens |
多模態能力 | 支援文字和影像輸入 | 支援文字和影像輸入 |
推理速度 | 更快(每秒 150 個 tokens) | 比 Mistral 慢 |
延遲 | 更低的延遲(0.33 秒到第一個 token) | 更高的延遲 |
語言支援 | 支援數十種語言 | 140 多種語言 |
對話風格 | 幹練的對話風格,但可透過系統提示加以改進 | 更像人類和 ChatGPT 風格的回覆 |
推理能力 | 在 MMLU 等推理任務中的表現優於 Gemma 3 | 在推理方面表現出色,但不是頂級水平 |
是否開源 | 是的 (Apache 2.0 license) | 是的 |
Mistral Small 3.1與Gemma 3:效能比較
在本節中,我們將比較 Gemma 3 和 Mistral 3.1 在一些實際操作任務中的表現。為了進行公平的比較,我們將在兩個模型上嘗試相同的提示,以下是我們將嘗試的任務列表:
- 物體檢測
- 視覺資料提取
- 視覺化資料提取–列印文字
任務 1: 物體檢測
在這項任務中,我們將給模型一張帶有動物標誌的糖果圖片,並要求他們識別糖果上的動物。
提示詞:Identity the animal in the image
輸入影像:
輸出
Mistral 3.1 | Gemma 3 |
The candies in the image appear to be M&M’s, and the animal depicted on them is a turtle. The turtle design is visible on the blue, orange, and green candies. | Let’s analyze the candy in the image! The animal on the candy is a turtle. You can see the shell and the head and legs of a turtle clearly imprinted on the surface. |
對比分析
兩個模型都能正確識別圖片中的動物是烏龜。不過,Mistral 3.1 提供了更多的背景資訊,指出糖果是 M&Ms 並提到了糖果的顏色。而 Gemma 3 則對烏龜的外形進行了較為籠統的描述。
結論:兩個模型都成功地識別了物體,但 Mistral 3.1 提供的背景資訊要稍微詳細一些。因此,Mistral 3.1 贏得本輪比賽。
得分:Mistral 3.1: 1 | Gemma 3: 0
任務 2:視覺資料提取
為了測試模型的視覺資料提取能力,我們將向他們提供一張飛機圖片,並要求他們從中提取車輛程式碼。
提示詞:What is the code on the vehicle?
輸入影像:
輸出:
Mistral 3.1 | Gemma 3 |
The code on the vehicle, which is an airplane, is “D-EOJU.” | Based on the image, the vehicle is a Cessna 172 Skyhawk. The registration code on the tail is D-EOJU. |
對比分析:
Mistral 3.1 和 Gemma 3 成功識別了飛機的註冊程式碼。但是,Gemma 3 不僅識別了程式碼,還增加了額外的細節,如飛機型號。
結論:兩個模型都準確提取了程式碼,但 Gemma 3 提供了更多關於車輛的背景細節。因此,Gemma 3 在這一項上得分。
得分:Mistral 3.1: 1 | Gemma 3: 1
任務 3:視覺化資料提取
在最後一項任務中,我們將向他們提供一張 wifi 收據的圖片,並要求他們從中提取 wifi 密碼。
提示詞:What is the password?
輸入圖片:
輸出:
Mistral 3.1 | Gemma 3 |
The password provided in the image is **aaeu**.Here is the information from the image for clarity:– **Username:** fqpp– **Password:** aaeu– **Traffic:** 1 GB– **Price:** 0.00– **Validity:** 1 week– **Starts:** Now– **Shared Users:** 4– **Date and Time:** 27/02/2019 11:03:15 | Based on the image, the password is aaeu |
對比分析:
兩種模型都能從影像中準確提取密碼。此外,Mistral 3.1 還提供了關於使用者名稱、流量、價格、有效性和其他相關資訊的額外細節,使其輸出結果更加全面。
結論:Mistral 3.1 在提取和呈現結構化資料方面表現更好,提供了更有用的上下文。因此,Mistral 3.1 在這項任務中再得一分。
得分:Mistral 3.1:2 | Gemma 3:1
最終得分 Mistral 3.1: 2 | Gemma 3: 1
效能比較摘要
以下是兩款模型在我們嘗試的任務中的效能總結。
任務 | Mistral 3.1 效能 | Gemma 3 效能 | 勝出者 |
物體檢測 | 正確識別出動物(烏龜),並提供了額外的上下文,提到糖果是 M&M,並說明了它們的顏色。 | 正確識別出動物是烏龜,並描述了烏龜的外形,但未提供更多背景細節。 | Mistral 3.1 |
視覺資料提取(車輛程式碼) | 成功從飛機影像中提取出註冊碼(“D-EOJU”)。 | 準確提取了註冊碼,並識別了飛機型號(Cessna 172 Skyhawk)。 | Gemma 3 |
可視資料提取(列印文字) | 正確提取了 WiFi 密碼,並提供了其他結構化資料,如使用者名稱、流量、價格、有效期和其他詳細資訊。 | 正確提取了 WiFi 密碼,但未提供其他結構化資訊。 | Mistral 3.1 |
透過比較,我們發現 Mistral 3.1 在結構化資料提取和提供簡潔而翔實的回覆方面表現出色。同時,Gemma 3 在物體識別方面表現出色,在某些情況下還能提供更豐富的上下文細節。
對於需要快速、結構化和精確資料提取的任務,Mistral 3.1 是更好的選擇。而對於上下文和附加描述資訊非常重要的任務,Gemma 3 則更具優勢。因此,最佳模型取決於具體的使用情況。
Mistral Small 3.1 與 Gemma 3:基準比較
現在讓我們看看這兩款模型在各種標準基準測試中的表現。在這次比較中,我們將關注測試這兩種模型在處理文字、多語言內容、多模態內容和長文字方面能力的基準測試。我們還將考察預訓練效能基準的結果。
Gemma 3 和 Mistral Small 3.1 都是經過各種基準評估的著名人工智慧模型。
文字指示基準測試
從圖中我們可以看到
- 在大多數基準測試中,Mistral 3.1 始終優於 Gemma 3,尤其是在 GPQA Main、GPQA Diamond 和 MMLU 中。
- HumanEval 和 MATH 兩種模型的效能幾乎相同。
- SimpleQA 的差異很小,表明兩種模型在這一類別中都很吃力。
- Mistral 3.1 在推理任務和常識任務(MMLU、GPQA)中遙遙領先,而 Gemma 3 則在與程式碼相關的基準測試(HumanEval、MATH)中緊隨其後。
多模態教學基準測試
圖表直觀地說明了這一點:
- 在大多數基準測試中,Mistral 3.1 始終優於 Gemma 3。
- 在 ChartQA 和 DocVQA 中,Mistral 的效能差距最大。
- MathVista 是最接近的競爭對手,兩個模型的效能幾乎相當。
- Gemma 3 在基於文件的質量保證任務中表現落後,但在一般多模態任務中表現相對接近。
多語言和長語境基準測試
從圖中我們可以看出
在多語言效能方面:
- Mistral 3.1 在歐洲和東亞語言方面處於領先地位。
- 在中東語言和平均多語言效能方面,兩種模式的效能接近。
在長語境處理方面:
- 在長語境任務中,特別是在 RULER 32k 和 RULER 128k 中,Mistral 明顯優於 Gemma 3。
- Gemma 3 在 LongBench v2 中落後較多,但在 RULER 32k 中仍具有競爭力。
預訓練效能基準測試
從圖中我們可以看出:
- Mistral 3.1 在常識、事實回憶和推理任務中一直表現較好。
- Gemma 3 在 GPQA 中的表現明顯不如 Mistral 3.1。
- TriviaQA 是最均衡的基準,兩種模型的表現幾乎相同。
小結
Mistral 3.1 和 Gemma 3 都是功能強大的輕量級人工智慧模型,各自在不同的領域表現出色。Mistral 3.1 針對速度、低延遲和強大的推理能力進行了最佳化,是聊天機器人、編碼和文字生成等即時應用的首選。它的效率和任務專用性進一步增強了它對效能驅動型人工智慧任務的吸引力。
另一方面,Gemma 3 提供了廣泛的多語言支援、多模態功能和極具競爭力的上下文視窗,使其非常適合全球人工智慧應用、文件摘要和不同語言內容的生成。不過,與 Mistral 3.1 相比,它在速度和效率方面有所欠缺。
最終,在 Mistral 3.1 和 Gemma 3 之間做出選擇取決於具體需求。Mistral 3.1 擅長效能驅動和即時應用,而 Gemma 3 則是多語言和多模態人工智慧解決方案的理想選擇。
評論留言