Qwen 3.6 Plus 在 2026 年 4 月 2 日正式發布,是阿里巴巴通義千問系列最新旗艦大型語言模型。 這款模型預設提供 100 萬 Token 上下文窗口、最高 65,536 Token 輸出,架構採用線性注意力機制加上稀疏混合專家路由(Sparse MoE),主攻代理式編碼(Agentic Coding)和多步驟自動化工作流。在 Terminal-Bench 2.0 上拿到 61.6 分,超過 Claude 4.5 Opus 的 59.3 分;SWE-bench Verified 則拿到 78.8 分,略低於 Claude Opus 4.6 的 80.8 分。透過阿里雲百煉平台(Model Studio)使用,輸入定價 USD 0.50/百萬 Token、輸出 USD 3.00/百萬 Token(約 NTD 16/百萬輸入 Token、NTD 96/百萬輸出 Token),OpenRouter 上也有免費預覽版可以測試。
這裡先釐清一個容易搞混的地方:Qwen 3.6 Plus 是閉源的商用 API 模型,不是開源模型。阿里巴巴在 Qwen3 家族裡確實有開源權重版本(像 Qwen3-32B、Qwen3-235B-A22B),但 Plus 系列一直都是專有的 API 服務。阿里巴巴表示後續會推出開發者友善尺寸的開源版本,目前還沒有確切時程。
架構設計:為什麼選混合架構?
Qwen 3.6 Plus 的底層結合了兩種技術:線性注意力和稀疏混合專家路由。線性注意力降低了長序列處理的計算成本,MoE 則讓模型在推論時只啟用部分參數,提高吞吐量。社群早期測試顯示推論速度大約是 Claude Opus 4.6 的 3 倍,對延遲敏感的互動式編碼場景來說差距明顯。
另一個設計決策是「永遠開啟」的思維鏈(Chain-of-Thought)推理。跟其他模型讓你選擇開關思考模式不同,Qwen 3.6 Plus 每次回應都會走完推理流程。對代理式編碼來說這是合理的——你需要可稽核的決策過程,而且多步驟任務的穩定性比簡單對話的延遲更重要。它還引入了 preserve_thinking 參數,讓內部推理狀態可以跨多輪對話保留,減少 Agent 在長程任務中的上下文漂移。
100 萬 Token 的上下文窗口大約等於 2,000 頁文字。對開發者來說,這意味著可以把整個程式碼庫丟進去處理,不需要額外做檢索增強生成(RAG)來拆分文件。
基準測試:跟誰比、比了什麼
基準測試數據來自多個第三方平台和阿里巴巴官方公告,以下是截至 2026 年 4 月的對照:
| 基準測試 | Qwen 3.6 Plus | Claude Opus 4.6 | GPT-5.4 | 測試內容 |
|---|---|---|---|---|
| SWE-bench Verified | 78.8 | 80.8 | 57.7 (Pro) | 真實 GitHub Issue 修復 |
| Terminal-Bench 2.0 | 61.6 | 59.3 | ~61.2 | 終端機代理式編碼 |
| MCPMark | 48.2% | — | — | 工具呼叫可靠性 |
| MMMU | 86.0 | — | — | 多模態推理 |
| OmniDocBench | 91.2 | — | — | 文件理解 |
| GPQA Diamond | 88.2% | — | — | 研究生級科學推理 |
幾個值得注意的地方:
SWE-bench Verified 測的是修復真實軟體 Bug 的能力,Claude Opus 4.6 以 80.8 分領先,Qwen 3.6 Plus 的 78.8 分是第二梯隊的領先者。不過 SWE-bench 有不同難度版本——Verified 測常見問題,Pro 測複雜多檔案修改——直接跨版本比較分數要小心。
Terminal-Bench 2.0 更貼近代理式編碼的真實場景:模型要在終端機環境裡自主操作、除錯、完成任務。Qwen 3.6 Plus 在這項拿到 61.6 分,超過 Claude 4.5 Opus 的 59.3 分。這跟它「永遠開啟」的推理模式和 preserve_thinking 機制直接相關。
MCPMark 測的是模型使用外部工具(Function Calling)的穩定度,48.2% 的分數在目前公開數據裡最高。對需要串接多個 API 的 Agent 系統來說,工具呼叫的可靠性比單次回應品質更關鍵。
代理式編碼:實際能做什麼
代理式編碼(Agentic Coding)是 Qwen 3.6 Plus 的主打場景。跟傳統「你問我答」的程式碼產生不同,代理式編碼要求模型能自主規劃任務、拆解步驟、執行程式碼、偵測錯誤、反覆修正,直到交出可用的結果。
根據阿里巴巴的官方說明,Qwen 3.6 Plus 支援:
完整專案庫(Repo-level)的問題處理——不只改單一檔案,而是能理解跨檔案依賴關係後做修改。前端網頁開發——從截圖、線框圖或文字描述直接產生可運行的前端程式碼。終端機自動化——在命令列環境裡自主執行指令、安裝套件、跑測試。
它也相容主流的代理式編碼工具:包括 Claude Code、OpenClaw 和 Cline。在這些框架裡,Qwen 3.6 Plus 充當推理核心,工具負責執行和互動。
社群開發者在早期測試中做了一些壓力測試,包括用它生成瀏覽器裡的 macOS 克隆版、F1 飄移模擬器、Minecraft 克隆版等。前端生成品質被多個開發者評為接近 Claude Opus 水準,3D 場景和遊戲邏輯的完整度高於預期。
多模態能力:能看圖,但不是全能
這裡要做一個重要的區分。Qwen 3.6 Plus 支援文字、圖像和文件輸入,可以做視覺編碼(Visual Coding)——從 UI 截圖或手繪線框圖產生程式碼。文件理解方面,OmniDocBench 91.2 分表現突出。
但影片理解不是 Qwen 3.6 Plus 的強項。阿里巴巴的影片處理能力主要在 Qwen 3.5 Omni 上面,那是一個完整的多模態模型,支援文字、圖像、音訊和影片。兩款模型發布時間只差一天(3.5 Omni 在 3 月 30 日、3.6 Plus 正式版在 4 月 2 日),是互補而非競爭關係。
如果你的工作流需要影片分析或語音輸入,Qwen 3.5 Omni 是對的選擇。如果主要場景是程式碼生成、長文件處理和 Agent 自動化,Qwen 3.6 Plus 更適合。
定價與取得方式
| 管道 | 輸入價格(每百萬 Token) | 輸出價格(每百萬 Token) | 上下文窗口 | 備註 |
|---|---|---|---|---|
| 阿里雲百煉(Bailian) | USD 0.50(約 NTD 16) | USD 3.00(約 NTD 96) | 1M | 正式 API,支援批次推論半價 |
| OpenRouter(付費版) | USD 0.50 | USD 3.00 | 1M | 第三方代理,流量大時可能遇到 429 錯誤 |
| OpenRouter(免費預覽) | 免費 | 免費 | 1M | 收集 Prompt 數據用於模型改進,勿送敏感資料 |
跟主要競爭對手比:Claude Opus 4.6 是 USD 5.00/25.00(輸入/輸出),GPT-5.4 是 USD 2.50/15.00。Qwen 3.6 Plus 的輸入成本是 Claude Opus 4.6 的十分之一、輸出成本是八分之一。對高吞吐量的 Agent 系統來說,這個價差直接影響可行性——一個每天處理數千個 API 呼叫的系統,Token 成本可能從月費數萬美元降到數千美元。
免費預覽版有幾個注意事項:阿里巴巴會收集你的 Prompt 和回應資料來改進模型,不適合送入機密或客戶資料。Preview 階段的運算資源配置比較保守,尖峰時段延遲會明顯升高。
阿里巴巴的競爭策略:Token Hub 與生態系
Qwen 3.6 Plus 的發布背景是阿里巴巴在 2026 年初將 AI 團隊重組為「阿里巴巴 Token Hub」,目的是加速模型迭代以因應 ByteDance 和 DeepSeek 的競爭壓力。
從產品線來看,阿里巴巴的策略是多層次覆蓋:Qwen-Max 做旗艦級複雜任務,Qwen Plus 做性價比最高的中階應用,Qwen-Flash 做速度優先的輕量場景,Qwen 3.5 Omni 做全模態。Qwen 3.6 Plus 定位在「代理式編碼的最佳性價比」——不追求 SWE-bench 最高分,而是在 Agent 穩定性、工具呼叫可靠性和長程任務連續性上做出差異化。
模型也已整合到阿里巴巴自己的產品裡,包括悟空(Wukong)企業 AI 平台和 Qwen App。阿里雲第三季營收成長 36%,AI 需求是主要驅動力。
給開發者的實務建議
如果你正在評估要不要把 Qwen 3.6 Plus 加入工作流,幾個考量:
先在免費預覽版上測你自己的任務。基準測試分數跟你的具體場景表現可能差很多。建一個 10-20 個真實案例的測試集,跑一輪再決定。
代理式編碼場景優先考慮。如果你在做 Claude Code 或類似工具的開發,Qwen 3.6 Plus 可以當成備選推理引擎。Terminal-Bench 和 MCPMark 的成績說明它在多步驟工具呼叫上有競爭力。
成本敏感的 Agent 系統值得評估。輸入 Token 價格比 Claude Opus 4.6 便宜 90%,對每天跑數千次 API 呼叫的系統來說,光 Token 費用就能省下一大筆。
生產環境暫時觀望。Preview 標籤意味著模型規格還可能變動,運算資源也還在擴充階段。正式 GA(General Availability)之前不建議用在客戶面向的關鍵系統上。
長上下文不等於品質一致。100 萬 Token 窗口能塞進整個程式碼庫,但模型在窗口後段的注意力品質可能下降。超過 200K Token 的使用場景建議額外做品質驗證。
Qwen 3.6 Plus 跟 Claude Opus 4.6 哪個比較適合代理式編碼?
看你優先什麼。Claude Opus 4.6 在 SWE-bench Verified 上領先(80.8 vs 78.8),指令遵循和長程 Agent 迴圈的穩定性更高。Qwen 3.6 Plus 在 Terminal-Bench 2.0 和 MCPMark 上表現更好,Token 成本低 80-90%。如果你的 Agent 系統每天處理大量呼叫且對成本敏感,Qwen 3.6 Plus 值得測試;如果你需要最高可靠性且預算充裕,Claude Opus 4.6 目前還是更穩的選擇。
Qwen 3.6 Plus 是開源模型嗎?
不是。Qwen 3.6 Plus 是阿里巴巴的閉源商用 API 模型,透過阿里雲百煉平台和 OpenRouter 提供。阿里巴巴在 Qwen3 家族裡有開源權重版本(如 Qwen3-32B、Qwen3-235B-A22B),但 Plus 系列一直是專有服務。阿里巴巴已表示會後續推出開發者友善尺寸的開源版本。
免費預覽版可以用在正式產品上嗎?
不建議。免費預覽版會收集你的 Prompt 和回應資料用於模型改進,不適合處理機密或客戶資料。Preview 階段的運算資源有限,高峰時段延遲較高,OpenRouter 上還常出現 429 速率限制錯誤。正式上線的產品應該用阿里雲百煉的付費 API。
Qwen 3.6 Plus 的 100 萬 Token 上下文窗口在實際使用中表現如何?
100 萬 Token 大約等於 2,000 頁文字,可以一次處理整個中型程式碼庫或長法律文件。不過長上下文不等於品質一致,模型在窗口後段的注意力可能衰減。一些第三方評測指出超過 200K Token 後品質開始下降。建議在你的具體使用場景做長度敏感度測試。
阿里巴巴 Qwen 系列在全球 AI 競爭中處於什麼位置?
Qwen 3.6 Plus 讓阿里巴巴首次在代理式編碼基準測試上進入跟 Anthropic 和 OpenAI 相當的區間。阿里雲第三季營收成長 36%,AI 需求是主要驅動力。阿里巴巴在 2026 年初重組 AI 團隊為「Token Hub」加速迭代,同時用「免費 + 低價」策略搶攻開發者市場。相較於 Anthropic 的安全優先定位和 OpenAI 的多模態全覆蓋,阿里巴巴走的是可負擔的高效能路線。
引用來源
- Caixin Global — Alibaba Releases Qwen 3.6-Plus AI Model With Enhanced Coding Capabilities
- Alibaba Cloud — Qwen3.6-Plus: Towards Real World Agents(官方公告)
- Constellation Research — Alibaba's Qwen launches new flagship LLM with Qwen 3.6-Plus
- Artificial Analysis — Qwen3.6 Plus API Provider Performance & Pricing
- OpenRouter — Qwen 3.6 Plus API Pricing & Providers
Author Insight
我們團隊在替客戶評估 AI 編碼工具時,會在真實專案上跑 A/B 測試,而非只看基準分數。Qwen 3.6 Plus 讓我注意到的不是單一測試項目的分數,而是它在 MCPMark(工具呼叫可靠性)上的領先——因為我們在部署 Agent 系統時,最常遇到的問題不是模型「不夠聰明」,是工具呼叫在第五、第六步之後開始出錯。Token 成本下降 80-90% 也改變了可行性計算:原本因為 API 費用而被否決的自動化流程,現在有機會重新評估。不過我對免費預覽版的資料收集機制保持謹慎,企業客戶在正式 GA 之前不應該在上面跑任何包含客戶資料的工作流。
我們最近協助多家企業客戶建立 AI 代理式編碼的技術評估框架,包括 Claude Code、Cursor 和各種開源替代方案的導入策略。如果你正在評估 Qwen 3.6 Plus 或其他 AI 編碼工具在企業環境的導入方式,歡迎跟 Tenten 團隊預約諮詢。
