近日,Qwen 3 正式推出,這款由阿里巴巴打造的完全開源且開放權重的模型,以其卓越的性能震驚業界。作為一款旗艦級產品,Qwen 3 235B(擁有2350億參數,其中220億為活躍參數)在多項基準測試中表現出色,甚至與頂尖閉源模型如 Gemini 2.5 Pro 展開激烈競爭。本文將深入剖析 Qwen 3 的性能數據,並展示其在編碼、代理任務及其他領域的強大潛力,同時介紹其獨特的混合思維模式如何為用戶帶來前所未有的靈活性。


Qwen 3 235B:旗艦模型的基準測試霸主

Qwen 3 235B 是這一系列中的頂級型號,採用混合專家(MoE)架構,總計2350億參數,每次推理僅啟動220億活躍參數。這使其在高效運算與強大性能之間取得了完美平衡。以下是其與前沿模型(如 O1DeepSeek R1Grok 3 BetaGemini 2.5 ProO3 Mini)的基準測試對比:

基準測試 Qwen 3 235B Gemini 2.5 Pro DeepSeek R1 O1 O3 Mini
Arena Hard 95.6 96.4 85.5 91.0 87.3
AIME '24 85.7 92.0 71.0 80.0 76.0
AIME '25 81.5 86.7 70.0 78.0 74.0
LiveCodeBench 70.7 70.4 37.6 65.0 60.0
CodeForces Elo 2056 2001 1950 1980 1900
BFCL (功能調用) 70.8 62.9 60.0 64.0 58.0

從數據中可見,Qwen 3 235BLiveCodeBench(70.7 vs 70.4)和 CodeForces Elo(2056 vs 2001)上超越了 Gemini 2.5 Pro,尤其在功能調用(BFCL)測試中以70.8對62.9大幅領先。這表明 Qwen 3 在編碼和代理任務優化方面表現尤為突出。雖然 Gemini 2.5 ProArena HardAIME 測試中略勝一籌,但差距並不明顯,顯示 Qwen 3 已接近甚至在某些領域超越了這一業界標杆。


Qwen 3 30B:高效能的輕量級選擇

除了旗艦型號,Qwen 3 30B(300億參數,30億活躍參數)同樣令人驚豔。這款混合專家模型因其極高的運算效率,成為本地運行設備的理想選擇。以下是其與其他模型的基準對比:

基準測試 Qwen 3 30B Qwen 2.5 72B Gemma 3 27B DeepSeek V3 GPT-4o (11月)
Arena Hard 91.0 85.0 80.0 85.5 85.3
AIME '24 80.0 70.0 65.0 75.9 11.0
AIME '25 70.0 60.0 55.0 70.0 7.0
LiveCodeBench 62.0 50.0 45.0 37.6 32.0

Qwen 3 30B 在所有測試中均顯著優於前代 Qwen 2.5 72BGemma 3 27BDeepSeek V3GPT-4o,尤其在數學(AIME)和編碼(LiveCodeBench)領域展現出驚人實力。僅30億活躍參數即可實現如此性能,使其成為高效能與低資源需求的典範。


混合思維模式:Qwen 3 的獨特優勢

Qwen 3 引入了創新的混合思維模式,讓用戶能根據任務需求靈活調整模型的推理深度。這種模式分為兩種狀態:

  • 思維模式:模型會逐步推理,適合處理複雜問題,如數學證明或多步編碼任務。隨著分配的token數量增加,性能平滑提升。例如,在 AIME '24 中,非思維模式得分為75,而啟用更多思維token後可提升至85.7。
  • 非思維模式:提供快速直接的回答,適用於簡單查詢或即時操作,無需過多計算資源。

這種設計允許用戶精確控制「思維預算」,在成本與推理質量之間找到最佳平衡。例如,在「氛圍編碼」(vibe coding)場景中,開發者可為複雜功能開發分配更多思維資源,而對於簡單的終端命令則採用非思維模式,極大提升效率。


優化代理與工具調用:MCP的完美搭檔

Qwen 3 在代理任務和工具調用(MCP,Model-Controller-Protocol)方面表現卓越。其 BFCL 得分顯示,即使是較小的 Qwen 3 32B 密集模型(70.3),也大幅超越 Gemini 2.5 Pro(62.9)。這種優勢源於其在推理過程中無縫整合工具調用的能力。例如,在提取GitHub星星數並繪製圖表的任務中,Qwen 3 32B 能在單次推理中多次調用工具,完成數據獲取和圖表生成,展現出極高的實用性。

Zapier 的 MCP 服務結合後,Qwen 3 可連接超過7000個應用程序,無需編寫代碼即可實現自動化工作流。無論是文件整理還是數據分析,這款模型都能快速適應並高效執行。


模型家族:從輕量到旗艦的多樣選擇

Qwen 3 系列包括兩款混合專家模型和六款密集模型,滿足不同需求:

  • Qwen 3 235B:2350億參數,220億活躍參數,128K上下文長度,適合高性能應用。
  • Qwen 3 30B:300億參數,30億活躍參數,128K上下文長度,高效本地運行首選。
  • 密集模型:從32B到0.6B不等,8B及以上型號支持128K上下文,4B及以下為32K。

這些模型在Apache 2.0許可下完全開源,可通過 LM StudioOllama 等平台立即下載使用。


訓練背後的秘密:36萬億token的數據力量

Qwen 3 的成功離不開其強大的訓練流程。相較於 Qwen 2.5 的18萬億token,Qwen 3 使用了36萬億token,涵蓋119種語言。數據集不僅來自網絡,還包括PDF類文檔(通過 Qwen 2.5 VL 提取文本)及合成數據(由 Qwen 2.5 MathQwen 2.5 Coder 生成)。預訓練分三階段完成,後訓練則採用四階段管道,融合長鏈推理與快速響應能力。


結語:開源AI的新標杆

Qwen 3 以其卓越的基準測試表現、靈活的混合思維模式和強大的代理能力,重新定義了開源模型的潛力。無論是旗艦 Qwen 3 235B 還是輕量級 Qwen 3 30B,它們都在編碼、數學和功能調用領域展現出與 Gemini 2.5 Pro 匹敵甚至超越的實力。對於開發者和企業而言,這款模型不僅是技術突破,更是實用工具的典範。

FAQ

  1. 什麼是 Qwen 3 模型?
    • Qwen 3 是阿里巴巴推出的開源 AI 模型,具備 2350 億參數中的 220 億活躍參數,採用混合專家架構(MoE)。該模型在多項基準測試表現優秀,尤其在編碼、數學推理及功能調用方面。
  2. Qwen 3 如何在性能上與 Gemini 2.5 Pro 相比?
    • Qwen 3 235B 在多個測試中接近或超越 Gemini 2.5 Pro,例如在 LiveCodeBench 和 CodeForces Elo 測試中分別以 70.7 和 2056 的分數領先。此外,其功能調用性能(BFCL)也有明顯優勢。
  3. Qwen 3 的混合思維模式有何優勢?
    • Qwen 3 引入了「混合思維模式」,可根據任務需求調整推理深度:複雜問題可使用「思維模式」深入推理,簡單查詢則可用「非思維模式」快速響應,用戶可靈活分配思維資源,提升效率。
  4. Qwen 3 30B 適合哪些場景使用?
    • Qwen 3 30B 因其高效能與僅需 30 億活躍參數,非常適合資源有限的本地運行環境。此外,它在數學(AIME)和編碼(LiveCodeBench)任務中表現顯著優於其他輕量級模型。
  5. 如何獲取與使用 Qwen 3?
    • Qwen 3 在 Apache 2.0 許可下完全開源,用戶可通過 LM Studio、Ollama 等平台免費下載使用。開發者亦可整合其功能到自己的業務中,以提升工作效率與創新能力。

隆重介紹 Roo Code:一款 AI 驅動的開源程式助手,旨在提升開發者生產力與程式碼品質。整合更智能的編碼建議,簡化您的工作流程。了解更多如何在您的開發生命週期中利用 AI。#AI #開源 #軟體開發 #DevOps #程式助手 #RooCode

探索並解鎖 Qwen 3 的無限潛力,這款功能強大的開源模型將助您提升效率與創新能力!如果您希望將 AI 集成到業務流中並實現自動化工作流,請即刻預約免費會議,與 Tenten AI 的專家團隊攜手合作。我們的專業服務讓企業加速數字化轉型,點擊 這裡 預約您的免費顧問諮詢!

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...