阿里雲通義千問QwQ-32B:潛力巨大的中小模型

阿里雲通義千問QwQ-32B:潛力巨大的小模型

中國在人工智慧領域發展迅速,推出了 DeepSeek 和 Qwen 等模型,可與全球巨頭相媲美。DeepSeek 已獲得廣泛認可,可與 ChatGPT 相媲美,而 Qwen 則憑藉其多功能聊天機器人取得了長足進步,在一個介面中提供了視覺、推理和編碼功能。QwQ 32B 是 Qwen 的最新推理模型。它是一箇中型模型,可與 DeepSeek-R1 和 o1-mini  等頂級推理模型競爭,展示了中國在人工智慧創新方面取得的令人矚目的進展。

什麼是QwQ 32B?

QwQ-32B 是 Qwen 系列(通義千問)中的一個 32 億引數人工智慧模型。它使用強化學習(RL)來提高推理和解決問題的能力,其表現不遜於 DeepSeek-R1 等大型模型。它能根據反饋調整推理,並有效地使用工具。該模型是開放式的,在 Apache 2.0 許可下可在 Hugging Face 和 ModelScope 上獲取,並可通過 Qwen Chat 訪問。它凸顯了 RL 如何以有意義的方式提升人工智慧能力。

效能

QwQ-32B 已通過各種基準測試,以評估其數學推理、編碼技能和解決問題的能力。下面的結果比較了它與其他頂級模型的效能,如 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1。

QwQ-32B 已通過各種基準測試

Source: Qwen

LiveBench 評估了各種任務的推理模型,結果顯示 QwQ-32B 的效能介於 R1 和 o3-mini 之間,但成本僅為後者的 1/10。價格估算基於 API 或 OpenRouter 資料,QwQ-Preview 在 DeepInfra 上的價格為每個輸出 token 0.18 美元。因此,與其他領先型號相比,QwQ-32B 是一種高效、經濟的選擇。

LiveBench

Source: N8 Programs

阿里巴巴的 QwQ-32B 在 GPQA Diamond 中的科學推理得分率為 59%,在 AIME 2024 中的數學得分率為 86%。與頂級模型相比,它的數學成績優秀,但科學推理能力落後。

QwQ科學推理得分

Source: xNomad

它也是 HuggingFace 上的熱門話題,排名第一。

QwQ 32B成為HuggingFace熱門話題

Source: HuggingFace

如何訪問QwQ 32B?

要訪問 QwQ-32B 模型,您有幾種選擇,這取決於您的需求–是想隨意試用、本地執行,還是將其整合到您的專案中。

通過Qwen聊天工具(最簡單的選項)

  • 訪問 https://chat.qwen.ai/。
  • 如果還沒有賬戶,請建立一個。
  • 登入後,查詢模型選擇器選單(通常是一個下拉選單或選擇列表)。
  • 從可用型號列表中選擇“QwQ-32B”。
  • 開始輸入提示語,測試其推理、數學或編碼能力。

通過Hugging Face下載並本地執行

要求:

  • 硬體:配備至少 24GB VRAM 的高階 GPU(如 NVIDIA RTX 3090 或更高版本)。對於未量化的 FP16,您需要約 80GB VRAM(如英偉達 A100 或 H100)。量化版本(如 4 位)可在更少的 20GB VRAM 上執行。
  • 軟體:Python 3.8 及以上版本、Git 和像 pip 或 conda 這樣的軟體包管理器。你還需要最新版本的 Hugging Face 變壓器庫(4.37.0 或更高)。

安裝依賴項:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
pip install transformers torch
pip install transformers torch
pip install transformers torch

從 Hugging Face 下載模型和分詞器:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/QwQ-32B" model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_name)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

進行簡單推理:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
prompt = "How many r's are in the word 'strawberry'?"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
prompt = "How many r's are in the word 'strawberry'?" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate(**model_inputs, max_new_tokens=512) response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)
prompt = "How many r's are in the word 'strawberry'?"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

使用Ollama簡化本地設定

  • ollama.com 為您的作業系統(Windows、macOS 或 Linux)下載並安裝 Ollama。
  • 開啟終端並調出 QwQ-32B 型號:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
ollama pull qwq:32b
ollama pull qwq:32b
ollama pull qwq:32b
  • 執行模型:
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
ollama run qwq:32bCopy Code
ollama run qwq:32bCopy Code
ollama run qwq:32bCopy Code
  • 直接在終端中鍵入提示即可與之互動。

例項測試QwQ 32B

提示詞:Create a static webpage with illuminating candle with sparks around the flame

提示詞:Develop a seated game where you can fire missiles in all directions. At first, the enemy’s speed is very slow, but after defeating three enemies, the speed gradually increases. implement in p5.js

提示詞:Write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically.

推薦閱讀: QwQ-32B vs DeepSeek-R1:32B模型能否挑戰671B引數模型?

小結

QwQ-32B 代表了人工智慧推理模型的一次重大飛躍,其效能可與 R1 和 o3-mini 等頂級模型相媲美,而成本卻只是它們的一小部分。其令人印象深刻的 LiveBench 分數和成本效益(每個輸出令牌的價格僅為 0.18 美元)使其成為各種應用的實用和便捷之選。這一進步彰顯了高效能人工智慧變得更加經濟實惠和可擴充套件的潛力,為該領域更廣泛的應用和創新鋪平了道路。

評論留言