Qwen 3.6 Plus 在 2026 年 4 月 2 日正式發布,是阿里巴巴通義千問系列最新旗艦大型語言模型。 這款模型預設提供 100 萬 Token 上下文窗口、最高 65,536 Token 輸出,架構採用線性注意力機制加上稀疏混合專家路由(Sparse MoE),主攻代理式編碼(Agentic Coding)和多步驟自動化工作流。在 Terminal-Bench 2.0 上拿到 61.6 分,超過 Claude 4.5 Opus 的 59.3 分;SWE-bench Verified 則拿到 78.8 分,略低於 Claude Opus 4.6 的 80.8 分。透過阿里雲百煉平台(Model Studio)使用,輸入定價 USD 0.50/百萬 Token、輸出 USD 3.00/百萬 Token(約 NTD 16/百萬輸入 Token、NTD 96/百萬輸出 Token),OpenRouter 上也有免費預覽版可以測試。

這裡先釐清一個容易搞混的地方:Qwen 3.6 Plus 是閉源的商用 API 模型,不是開源模型。阿里巴巴在 Qwen3 家族裡確實有開源權重版本(像 Qwen3-32B、Qwen3-235B-A22B),但 Plus 系列一直都是專有的 API 服務。阿里巴巴表示後續會推出開發者友善尺寸的開源版本,目前還沒有確切時程。


架構設計:為什麼選混合架構?

Qwen 3.6 Plus 的底層結合了兩種技術:線性注意力和稀疏混合專家路由。線性注意力降低了長序列處理的計算成本,MoE 則讓模型在推論時只啟用部分參數,提高吞吐量。社群早期測試顯示推論速度大約是 Claude Opus 4.6 的 3 倍,對延遲敏感的互動式編碼場景來說差距明顯。

另一個設計決策是「永遠開啟」的思維鏈(Chain-of-Thought)推理。跟其他模型讓你選擇開關思考模式不同,Qwen 3.6 Plus 每次回應都會走完推理流程。對代理式編碼來說這是合理的——你需要可稽核的決策過程,而且多步驟任務的穩定性比簡單對話的延遲更重要。它還引入了 preserve_thinking 參數,讓內部推理狀態可以跨多輪對話保留,減少 Agent 在長程任務中的上下文漂移。

100 萬 Token 的上下文窗口大約等於 2,000 頁文字。對開發者來說,這意味著可以把整個程式碼庫丟進去處理,不需要額外做檢索增強生成(RAG)來拆分文件。


基準測試:跟誰比、比了什麼

基準測試數據來自多個第三方平台和阿里巴巴官方公告,以下是截至 2026 年 4 月的對照:

基準測試 Qwen 3.6 Plus Claude Opus 4.6 GPT-5.4 測試內容
SWE-bench Verified 78.8 80.8 57.7 (Pro) 真實 GitHub Issue 修復
Terminal-Bench 2.0 61.6 59.3 ~61.2 終端機代理式編碼
MCPMark 48.2% 工具呼叫可靠性
MMMU 86.0 多模態推理
OmniDocBench 91.2 文件理解
GPQA Diamond 88.2% 研究生級科學推理

幾個值得注意的地方:

SWE-bench Verified 測的是修復真實軟體 Bug 的能力,Claude Opus 4.6 以 80.8 分領先,Qwen 3.6 Plus 的 78.8 分是第二梯隊的領先者。不過 SWE-bench 有不同難度版本——Verified 測常見問題,Pro 測複雜多檔案修改——直接跨版本比較分數要小心。

Terminal-Bench 2.0 更貼近代理式編碼的真實場景:模型要在終端機環境裡自主操作、除錯、完成任務。Qwen 3.6 Plus 在這項拿到 61.6 分,超過 Claude 4.5 Opus 的 59.3 分。這跟它「永遠開啟」的推理模式和 preserve_thinking 機制直接相關。

MCPMark 測的是模型使用外部工具(Function Calling)的穩定度,48.2% 的分數在目前公開數據裡最高。對需要串接多個 API 的 Agent 系統來說,工具呼叫的可靠性比單次回應品質更關鍵。


代理式編碼:實際能做什麼

代理式編碼(Agentic Coding)是 Qwen 3.6 Plus 的主打場景。跟傳統「你問我答」的程式碼產生不同,代理式編碼要求模型能自主規劃任務、拆解步驟、執行程式碼、偵測錯誤、反覆修正,直到交出可用的結果。

根據阿里巴巴的官方說明,Qwen 3.6 Plus 支援:

完整專案庫(Repo-level)的問題處理——不只改單一檔案,而是能理解跨檔案依賴關係後做修改。前端網頁開發——從截圖、線框圖或文字描述直接產生可運行的前端程式碼。終端機自動化——在命令列環境裡自主執行指令、安裝套件、跑測試。

它也相容主流的代理式編碼工具:包括 Claude Code、OpenClaw 和 Cline。在這些框架裡,Qwen 3.6 Plus 充當推理核心,工具負責執行和互動。

社群開發者在早期測試中做了一些壓力測試,包括用它生成瀏覽器裡的 macOS 克隆版、F1 飄移模擬器、Minecraft 克隆版等。前端生成品質被多個開發者評為接近 Claude Opus 水準,3D 場景和遊戲邏輯的完整度高於預期。


多模態能力:能看圖,但不是全能

這裡要做一個重要的區分。Qwen 3.6 Plus 支援文字、圖像和文件輸入,可以做視覺編碼(Visual Coding)——從 UI 截圖或手繪線框圖產生程式碼。文件理解方面,OmniDocBench 91.2 分表現突出。

但影片理解不是 Qwen 3.6 Plus 的強項。阿里巴巴的影片處理能力主要在 Qwen 3.5 Omni 上面,那是一個完整的多模態模型,支援文字、圖像、音訊和影片。兩款模型發布時間只差一天(3.5 Omni 在 3 月 30 日、3.6 Plus 正式版在 4 月 2 日),是互補而非競爭關係。

如果你的工作流需要影片分析或語音輸入,Qwen 3.5 Omni 是對的選擇。如果主要場景是程式碼生成、長文件處理和 Agent 自動化,Qwen 3.6 Plus 更適合。


定價與取得方式

管道 輸入價格(每百萬 Token) 輸出價格(每百萬 Token) 上下文窗口 備註
阿里雲百煉(Bailian) USD 0.50(約 NTD 16) USD 3.00(約 NTD 96) 1M 正式 API,支援批次推論半價
OpenRouter(付費版) USD 0.50 USD 3.00 1M 第三方代理,流量大時可能遇到 429 錯誤
OpenRouter(免費預覽) 免費 免費 1M 收集 Prompt 數據用於模型改進,勿送敏感資料

跟主要競爭對手比:Claude Opus 4.6 是 USD 5.00/25.00(輸入/輸出),GPT-5.4 是 USD 2.50/15.00。Qwen 3.6 Plus 的輸入成本是 Claude Opus 4.6 的十分之一、輸出成本是八分之一。對高吞吐量的 Agent 系統來說,這個價差直接影響可行性——一個每天處理數千個 API 呼叫的系統,Token 成本可能從月費數萬美元降到數千美元。

免費預覽版有幾個注意事項:阿里巴巴會收集你的 Prompt 和回應資料來改進模型,不適合送入機密或客戶資料。Preview 階段的運算資源配置比較保守,尖峰時段延遲會明顯升高。


阿里巴巴的競爭策略:Token Hub 與生態系

Qwen 3.6 Plus 的發布背景是阿里巴巴在 2026 年初將 AI 團隊重組為「阿里巴巴 Token Hub」,目的是加速模型迭代以因應 ByteDance 和 DeepSeek 的競爭壓力。

從產品線來看,阿里巴巴的策略是多層次覆蓋:Qwen-Max 做旗艦級複雜任務,Qwen Plus 做性價比最高的中階應用,Qwen-Flash 做速度優先的輕量場景,Qwen 3.5 Omni 做全模態。Qwen 3.6 Plus 定位在「代理式編碼的最佳性價比」——不追求 SWE-bench 最高分,而是在 Agent 穩定性、工具呼叫可靠性和長程任務連續性上做出差異化。

模型也已整合到阿里巴巴自己的產品裡,包括悟空(Wukong)企業 AI 平台和 Qwen App。阿里雲第三季營收成長 36%,AI 需求是主要驅動力。


給開發者的實務建議

如果你正在評估要不要把 Qwen 3.6 Plus 加入工作流,幾個考量:

先在免費預覽版上測你自己的任務。基準測試分數跟你的具體場景表現可能差很多。建一個 10-20 個真實案例的測試集,跑一輪再決定。

代理式編碼場景優先考慮。如果你在做 Claude Code 或類似工具的開發,Qwen 3.6 Plus 可以當成備選推理引擎。Terminal-Bench 和 MCPMark 的成績說明它在多步驟工具呼叫上有競爭力。

成本敏感的 Agent 系統值得評估。輸入 Token 價格比 Claude Opus 4.6 便宜 90%,對每天跑數千次 API 呼叫的系統來說,光 Token 費用就能省下一大筆。

生產環境暫時觀望。Preview 標籤意味著模型規格還可能變動,運算資源也還在擴充階段。正式 GA(General Availability)之前不建議用在客戶面向的關鍵系統上。

長上下文不等於品質一致。100 萬 Token 窗口能塞進整個程式碼庫,但模型在窗口後段的注意力品質可能下降。超過 200K Token 的使用場景建議額外做品質驗證。


Qwen 3.6 Plus 跟 Claude Opus 4.6 哪個比較適合代理式編碼?

看你優先什麼。Claude Opus 4.6 在 SWE-bench Verified 上領先(80.8 vs 78.8),指令遵循和長程 Agent 迴圈的穩定性更高。Qwen 3.6 Plus 在 Terminal-Bench 2.0 和 MCPMark 上表現更好,Token 成本低 80-90%。如果你的 Agent 系統每天處理大量呼叫且對成本敏感,Qwen 3.6 Plus 值得測試;如果你需要最高可靠性且預算充裕,Claude Opus 4.6 目前還是更穩的選擇。

Qwen 3.6 Plus 是開源模型嗎?

不是。Qwen 3.6 Plus 是阿里巴巴的閉源商用 API 模型,透過阿里雲百煉平台和 OpenRouter 提供。阿里巴巴在 Qwen3 家族裡有開源權重版本(如 Qwen3-32B、Qwen3-235B-A22B),但 Plus 系列一直是專有服務。阿里巴巴已表示會後續推出開發者友善尺寸的開源版本。

免費預覽版可以用在正式產品上嗎?

不建議。免費預覽版會收集你的 Prompt 和回應資料用於模型改進,不適合處理機密或客戶資料。Preview 階段的運算資源有限,高峰時段延遲較高,OpenRouter 上還常出現 429 速率限制錯誤。正式上線的產品應該用阿里雲百煉的付費 API。

Qwen 3.6 Plus 的 100 萬 Token 上下文窗口在實際使用中表現如何?

100 萬 Token 大約等於 2,000 頁文字,可以一次處理整個中型程式碼庫或長法律文件。不過長上下文不等於品質一致,模型在窗口後段的注意力可能衰減。一些第三方評測指出超過 200K Token 後品質開始下降。建議在你的具體使用場景做長度敏感度測試。

阿里巴巴 Qwen 系列在全球 AI 競爭中處於什麼位置?

Qwen 3.6 Plus 讓阿里巴巴首次在代理式編碼基準測試上進入跟 Anthropic 和 OpenAI 相當的區間。阿里雲第三季營收成長 36%,AI 需求是主要驅動力。阿里巴巴在 2026 年初重組 AI 團隊為「Token Hub」加速迭代,同時用「免費 + 低價」策略搶攻開發者市場。相較於 Anthropic 的安全優先定位和 OpenAI 的多模態全覆蓋,阿里巴巴走的是可負擔的高效能路線。


引用來源


Author Insight

我們團隊在替客戶評估 AI 編碼工具時,會在真實專案上跑 A/B 測試,而非只看基準分數。Qwen 3.6 Plus 讓我注意到的不是單一測試項目的分數,而是它在 MCPMark(工具呼叫可靠性)上的領先——因為我們在部署 Agent 系統時,最常遇到的問題不是模型「不夠聰明」,是工具呼叫在第五、第六步之後開始出錯。Token 成本下降 80-90% 也改變了可行性計算:原本因為 API 費用而被否決的自動化流程,現在有機會重新評估。不過我對免費預覽版的資料收集機制保持謹慎,企業客戶在正式 GA 之前不應該在上面跑任何包含客戶資料的工作流。

我們最近協助多家企業客戶建立 AI 代理式編碼的技術評估框架,包括 Claude Code、Cursor 和各種開源替代方案的導入策略。如果你正在評估 Qwen 3.6 Plus 或其他 AI 編碼工具在企業環境的導入方式,歡迎跟 Tenten 團隊預約諮詢

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...