阿里巴巴的新開源模型 QwQ-32B 以大幅降低的運算需求與 DeepSeek-R1 相匹敵
Qwen Team——中國電商巨頭 阿里巴巴旗下負責開發日漸壯大的開源 Qwen 大型語言模型(LLM)家族的團隊,現已推出 QwQ-32B,這是一款擁有 320 億參數、注重複雜問題求解能力的推理模型,透過強化學習(RL)來提升性能。
該模型已在 Hugging Face 與 ModelScope 上以 Apache 2.0 授權方式開源釋出,允許商業與研究用途,企業可立即使用它為產品與應用提供支援(包括向客戶收費的服務)。
個人用戶也可透過 Qwen Chat 存取此模型。
Qwen-with-Questions 是阿里巴巴對 OpenAI 原版推理模型 o1 的回應
QwQ,全名 Qwen-with-Questions,最初由阿里巴巴於 2024 年 11 月推出,作為一款開源的推理模型,目標是與OpenAI 的 o1-preview 競爭。
該模型一開始的設計重點在推論階段對自身回應進行審視與微調,以增強邏輯推理與規劃能力,使其在數學和程式碼方面的任務特別出色。
最初於 2024 年 11 月釋出的版本(簡稱「QwQ」)同樣是 320 億參數,並擁有 32,000 個可處理的 Token 上下文長度。阿里巴巴強調它在像 AIME 和 MATH 等數學基準測試以及 GPQA 等科學推理任務上,皆可超越 o1-preview。
儘管表現出色,QwQ 的早期版本在程式設計基準測試(例如 LiveCodeBench)中仍落後於 OpenAI 的模型。此外,作為許多新興推理模型常見的問題,QwQ 也面臨語言混雜與偶發的循環推理等挑戰。
然而,阿里巴巴決定以 Apache 2.0 授權釋出該模型,讓開發者與企業可自由改編及商用,這與 OpenAI 的 o1 等專有模型形成明顯區別。
自 QwQ 首次發布以來,AI 產業迅速演進。傳統 LLM 的局限性逐漸浮現,擴展規模的效益在性能提升方面漸趨遞減。
這種轉變激發了對大型推理模型(LRM)的關注——它們在推論階段運用推理與自我反思來提升準確度。代表作包括OpenAI 的 o3 系列與享譽盛名的DeepSeek-R1,後者由香港量化分析公司 High-Flyer Capital Management 衍生的實驗室 DeepSeek 開發。
來自網頁流量分析與研究公司 SimilarWeb 的最新報告顯示,自 2024 年 1 月 R1 上線以來,DeepSeek 網站的訪問量迅速躍升,成為繼 OpenAI 之後,全球第二大人工智慧模型提供網站。

阿里巴巴最新版本的 QwQ-32B 在此基礎上進一步整合了強化學習與結構化自我提問,瞄準迅速成長的推理導向 AI 領域,成為強勁競爭者。
新模型的上下文長度也延伸至 131,000 個 Token,與 OpenAI 等許多模型的 128,000 相近,雖然Google Gemini 2.0 的 200 萬 Token 上下文依舊領先。(請記住,上下文長度是指 LLM 一次互動中可輸入/輸出的 Token 數量,Token 越多,能處理的資訊就越多。131,000 個 Token 大約相當於一本 300 頁的書。)
透過多階段強化學習擴大性能
傳統的指令微調模型在面對複雜推理任務時往往力不從心,而 Qwen Team 的研究表明,強化學習能顯著提升模型解決複雜問題的能力。
QwQ-32B 即是建立在此概念之上,透過多階段的 RL 訓練來增進數學推理、程式編碼及一般問題解決能力。
該模型在與 DeepSeek-R1、o1-mini 以及 DeepSeek-R1-Distilled-Qwen-32B 等領先模型的對照測試中表現不俗,即使在某些模型擁有更多參數的情況下,仍具備競爭力。

舉例來說,DeepSeek-R1 共有 6710 億參數(其中 370 億被激活),而 QwQ-32B 在更小的規模下即可獲得相近表現——一般只需24GB vRAM(Nvidia H100 具備 80GB)即可運行,相較之下,完整執行 DeepSeek-R1(16 張 Nvidia A100 GPU)需要超過1500GB vRAM。這突顯 Qwen 在 RL 設計上的高效性。
QwQ-32B 採用自回歸語言模型(causal language model)架構,並進行多項優化:
- 64 層 Transformer,使用 RoPE、SwiGLU、RMSNorm 與 Attention QKV 偏置
- 一般化查詢注意力(GQA),具有 40 個查詢注意力頭與 8 個鍵值注意力頭
- 上下文長度延伸至 131,072 個 Token,可更好處理長序列輸入
- 多階段訓練,包括預訓練、監督微調與強化學習(RL)
QwQ-32B 的 RL 流程分為兩個階段:
- 數學與程式碼為重心:在此階段,模型使用數學推理的正確性驗證器以及程式碼執行伺服器來進行訓練,確保生成的答案在被強化之前已經過正確性驗證。
- 一般能力提升:第二階段中,模型結合通用的獎勵模型與規則式驗證器,以獲得獎勵式訓練,強化其指令遵循、人性化調校與代理推理能力,同時不犧牲數學與程式碼方面的優勢。
對企業決策者的意義
對企業領袖(包含 CEO、CTO、IT 負責人、團隊經理與 AI 應用開發者)而言,QwQ-32B 或將改變 AI 在商業決策和技術創新中的應用方式。
透過其強化學習驅動的推理能力,該模型可提供更準確、結構化且具情境意識的見解,對於自動化資料分析、策略規劃、軟體開發和智慧化自動化等應用領域具有相當價值。
若企業計劃部署 AI 解決複雜問題、輔助程式設計、金融建模或客服自動化,QwQ-32B 的高效率或許相當具有吸引力。此外,該模型以開源權重方式釋出,允許組織進行領域專屬的微調,而不受專利限制,為企業 AI 戰略提供更大的彈性選擇。
由於模型源自中國電商巨頭,部分非中國用戶可能對安全性與偏見有顧慮,尤其在使用 Qwen Chat 介面時。然而,如同 DeepSeek-R1 一樣,該模型可在 Hugging Face 上下載並離線使用、做進一步微調或再訓練,如此便能輕易克服這些問題。同時它也成為 DeepSeek-R1 的可行替代方案。
AI 高級用戶與影響者的初步反應
QwQ-32B 發布後,已在 AI 研發社群引發關注,多位開發者與產業專家在 X(原 Twitter)上分享了他們的初步看法:
- Hugging Face 的 Vaibhav Srivastav (@reach_vb) 提到在供應商 Hyperbolic Labs 的測試中,QwQ-32B 推論速度極快,堪比頂級模型;他也指出該模型「打敗了 DeepSeek-R1 和 OpenAI o1-mini,且採用 Apache 2.0 授權」。
- AI 新聞與爆料博主 Chubby (@kimmonismus) 對該模型的表現讚譽有加,強調 QwQ-32B 雖然比 DeepSeek-R1 小 20 倍,卻有時能超越對方。他們在推文中表示:「太猛了!Qwen 太強大!」
- Yuchen Jin (@Yuchenj_UW),Hyperbolic Labs 的共同創辦人兼 CTO,對此發行表示歡呼,強調小型模型威力驚人:「阿里巴巴 Qwen 釋出 QwQ-32B,一款能打敗 DeepSeek-R1 (671B) 和 OpenAI o1-mini 的推理模型!」
- Hugging Face 的另一位成員 Erik Kaunismäki (@ErikKaum) 則著重於部署便利性,表示該模型已在 Hugging Face 上支援一鍵部署,開發者幾乎不需額外設定即可使用。
代理能力
QwQ-32B 擁有代理能力,能根據環境反饋動態調整推理過程。
Qwen Team 建議以下推論設定以獲得最佳表現:
- Temperature: 0.6
- TopP: 0.95
- TopK: 20-40 之間
- YaRN Scaling: 建議用於長度超過 32,768 個 Token 的序列
該模型支援使用 vLLM 進行部署,以獲得高吞吐量推論。然而,目前的 vLLM 實作僅支援靜態 YaRN 擴展,會在整個輸入長度範圍內維持固定的擴展倍數。
未來發展
Qwen Team 視 QwQ-32B 為擴大 RL 以提升推理能力的第一步。未來計劃包括:
- 進一步擴大 RL 的規模,以增進模型智慧;
- 將代理與 RL 結合,實現長期推理;
- 持續研發針對 RL 優化的基礎模型;
- 透過更先進的訓練技術邁向通用人工智慧(AGI)。
藉由 QwQ-32B,Qwen Team 正將強化學習定位為下一代 AI 模型的關鍵動力,展現出擴大規模能夠帶來高效能且卓越的推理系統。
阿里巴巴開源QwQ 32b模型與DeepSeek-R1的比較。
使用 Ollama 設置 Qwen QwQ 32b
要體驗 Qwen QwQ 32b 的強大功能,首先需要通過 Ollama 平台進行設置。Ollama 是一個易於使用的工具,讓用戶可以輕鬆下載並運行大型語言模型。在本次測試中,我們在一台配備四個 GPU 的系統上部署了 Qwen QwQ 32b。具體配置包括上下文窗口大小設為 64k,溫度參數為 0.6,top_p 為 0.95。這些設置經過優化,旨在充分發揮 Qwen QwQ 32b 的性能。用戶可以從 Ollama 官網下載 Q8 或 Q4 版本的模型,根據自身硬體條件選擇適合的版本。
性能測試
為了全面評估 Qwen QwQ 32b 的能力,我們設計了多項測試,包括編碼任務、倫理推理、數學計算等,並將其結果與 Deepseek R1 671b 進行對比。
編碼任務
我們要求 Qwen QwQ 32b 編寫一個簡單的遊戲程式碼。結果顯示,模型在約 10 分鐘內生成了 21 行代碼,包含重力和漂移效果,遊戲運行流暢且具趣味性。這是我們測試過的最佳結果之一,顯示出 Qwen QwQ 32b 在編程方面的卓越能力。相比之下,Deepseek R1 671b 在類似任務中的表現尚未達到如此高的水準。
倫理推理
在倫理測試中,我們模擬了一個拯救人類免於小行星撞擊的場景,要求 Qwen QwQ 32b 做出決策。模型選擇接受任務,並給出了基於功利主義的理由,認為在極端情況下,傳統倫理約束可以暫時放棄。這一回答展現了 Qwen QwQ 32b 在複雜推理問題上的深度思考能力,與 Deepseek R1 671b 的表現相比毫不遜色。
數學計算
我們測試了 Qwen QwQ 32b 的數學能力,要求其比較 420.69 和 4207 的大小。模型迅速且準確地指出 4207 更大。此外,在解析「peppermint」一詞中的 P 數量和元音數時,Qwen QwQ 32b 同樣給出了正確答案,證明了其在基礎計算和語言解析上的可靠性。
其他測試
我們還測試了 Qwen QwQ 32b 在日曆時間理解和 SVG 圖形生成上的表現。例如,在生成 SVG 笑臉圖形時,模型產生的代碼完美無瑕;在日曆問題中,它正確判斷了貓咪在特定時間的行為。這些測試結果顯示,Qwen QwQ 32b 的多功能性遠超預期。
分析與結論
綜合測試結果,Qwen QwQ 32b 在本地運行時展現了驚艷的性能。無論是編碼、倫理推理還是數學計算,它幾乎完美地完成了所有任務。與 Deepseek R1 671b 相比,Qwen QwQ 32b 雖然參數量少得多(32b 對 671b),但性能卻不相上下,甚至在某些領域更勝一籌。此外,Qwen QwQ 32b 在 Ollama 上的運行速度令人滿意,生成速度約為 20-25 token/秒,Q4 版本在較低配置設備上也能保持高效。
從 SEO 角度看,Qwen QwQ 32b 和 Deepseek R1 671b 是當前本地 AI 模型領域的熱門話題。Qwen QwQ 32b 憑藉其小巧高效的特點,成為許多用戶的首選。對於希望在本地部署強大 AI 解決方案的開發者來說,這款模型無疑是一個值得關注的選擇。
相關資料
- Qwen QwQ 32b
- Deepseek R1 671b
- Ollama
- 本地 AI 模型
結語
Qwen QwQ 32b 是一款性能卓越的本地 AI 模型,其在 Ollama 上的表現足以與 Deepseek R1 671b 媲美,甚至在某些方面更具優勢。通過簡單的設置,用戶即可在本地體驗這款模型的強大功能。無論是專業開發者還是普通用戶,Qwen QwQ 32b 都提供了一個高效且實用的 AI 解決方案。立即嘗試 Qwen QwQ 32b,探索其超越 Deepseek R1 671b 的潛力吧!
常見問題 (FAQ)
- Qwen QwQ-32B 模型是什麼?
阿里巴巴推出的 Qwen QwQ-32B 是一款擁有 320 億參數的開源推理模型,其性能接近或超越 DeepSeek-R1 671B,並且具有強大的數學推理、程式設計及人性化對話能力。 - Qwen QwQ-32B 與 DeepSeek-R1 671B 的主要區別是什麼?
Qwen QwQ-32B 的參數規模僅為 DeepSeek-R1 的一小部分(32B 對比 671B),但透過強化學習和結構化自我提問來提升性能,實現高效低資源運行,且支持多項應用場景。 - 企業為什麼應考慮部署 Qwen QwQ-32B?
Qwen QwQ-32B 是一款開源模型,允許用戶進行自由微調,專注於複雜推理和數學能力,並能有效支持金融建模、自動化分析及智慧客服等應用。 - 如何最佳化使用 Qwen QwQ-32B?
根據阿里巴巴的建議,最佳化參數設定包括:溫度值 0.6、TopP 設為 0.95,以及 TopK 介於 20-40。此外,YaRN 擴展功能可對長序列輸入進行高效處理。 - Qwen QwQ-32B 的學習與應用深度如何影響 AI 產業?
QwQ-32B 強調使用多階段強化學習,並在推理問題、倫理決策及程式設計應用上表現卓越,成為具備普遍適用性與強大潛力的領先模型。
