Kimi K2.5 完整解析:Agent Swarm 如何重新定義 AI 協作架構
2026 年 1 月 27 日,Moonshot AI 發布 Kimi K2.5,這款開源多模態模型標誌著 AI 產業從單一代理架構邁向群體智能協作的關鍵轉折。K2.5 的核心突破在於 Agent Swarm 功能:模型能自主協調多達 100 個子代理並行執行任務,完成超過 1,500 次工具呼叫,將複雜工作流程的執行時間縮短至傳統單代理系統的四分之一。
Moonshot AI 與創辦人楊植麟
Moonshot AI 於 2023 年 3 月由楊植麟、周昕宇、吳育昕三位清華大學校友共同創立。執行長楊植麟的學術背景相當亮眼:清華大學電腦科學系第一名畢業,於卡內基美隆大學以不到四年時間取得博士學位,研究期間與多位圖靈獎得主合作,發表超過 20 篇具影響力的 AI 論文,包括 Transformer-XL 與 XLNet 等奠定長序列處理基礎的關鍵研究。創業前,楊植麟曾任職於 Google Brain 與 Meta AI Research。
公司命名「月之暗面」源自楊植麟鍾愛的 Pink Floyd 專輯《The Dark Side of the Moon》,呼應探索未知領域的創業理念。截至 2026 年 1 月,Moonshot AI 已累計融資約 USD 1.77 億(約 NTD 57 億),估值達 USD 43 億(約 NTD 1,376 億),投資人包括阿里巴巴、騰訊與 IDG 資本。

K2.5 技術架構:兆級參數與混合專家系統
Kimi K2.5 採用混合專家(Mixture-of-Experts, MoE)架構,總參數量達 1 兆(1 trillion),推論時僅啟動 320 億參數。這種設計的優勢在於:當模型接收提示時,不會啟動全部參數,而是根據任務特性調用最適合的專家網絡,大幅降低硬體資源消耗。
| 技術規格 | 數據 |
|---|---|
| 總參數量 | 1 兆 |
| 啟動參數量 | 320 億 |
| 專家數量 | 384 個 |
| 每 token 啟動專家數 | 8 個 |
| 視覺編碼器參數 | 4 億 |
| 上下文窗口 | 256K tokens |
| 訓練數據量 | 15 兆 tokens |
模型使用 MuonClip 優化器進行訓練,在兆級參數規模下實現零訓練不穩定性——這是目前業界的重要技術成就。K2.5 原生支援多模態輸入,視覺與文本能力從訓練階段即整合發展,避免傳統模型「後期加入視覺能力會削弱推理能力」的取捨困境。

Agent Swarm:平行代理強化學習的突破
Agent Swarm 是 K2.5 最具創新性的功能。傳統 AI 助手採用單代理架構,面對複雜任務時必須依序處理每個步驟。Agent Swarm 則允許模型自主生成並協調多達 100 個子代理並行工作,透過 Parallel-Agent Reinforcement Learning(PARL) 技術訓練而成。
PARL 的運作邏輯如下:一個可訓練的協調代理負責將複雜任務分解為可平行化的子任務,每個子任務由動態實例化的「凍結」子代理執行。子代理同時運行,大幅縮短端到端延遲。根據 Moonshot AI 的內部評測,Agent Swarm 模式相較單代理執行可達成 80% 的運行時間縮減,複雜任務的關鍵步驟數減少 3 至 4.5 倍。
訓練可靠的平行協調器面臨一個核心挑戰:串行崩潰(Serial Collapse)。由於獨立運行的子代理回傳的回饋具有延遲性、稀疏性與非穩態特性,協調器容易退化為單代理執行模式。PARL 採用階段式獎勵塑形(Staged Reward Shaping)解決此問題:訓練初期強調平行化獎勵,後期轉向整體任務品質,避免無意義的平行化。
效能評估採用「關鍵步驟(Critical Steps)」指標,借鑑平行計算中的關鍵路徑概念。此指標考量協調開銷並反映每階段最慢子代理的執行時間,確保產生更多子任務只有在真正縮短關鍵路徑時才有效益。

效能基準測試:與 GPT-5.2、Claude 4.5 Opus 的對比
在多項業界標準測試中,Kimi K2.5 展現與頂尖閉源模型匹敵的表現:
| 測試項目 | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus |
|---|---|---|---|
| HLE(無工具) | 31.5% | - | - |
| HLE(含工具) | 51.8% | 41.7% | - |
| SWE-bench Verified | 71.3% | 74.9% | 77.2% |
| SWE-bench Multilingual | 61.1% | 55.3% | 68.0% |
| LiveCodeBench v6 | 83.1% | 87.0% | 64.0% |
| BrowseComp | 60.2% | 54.9% | 24.1% |
HLE(Humanity's Last Exam)是目前業界最困難的 LLM 評測之一,涵蓋 2,500 道跨數學、物理、人文等領域的專家級問題。K2.5 在啟用工具後取得最高分,展現其代理式智能的優勢。在網頁自動化導航測試 BrowseComp 中,K2.5 大幅領先競爭對手,顯示其在多步驟工具協調上的設計優勢。
值得注意的是,K2.5 在編碼任務上表現強勁但並非全面領先。在 SWE-bench Verified 測試中略遜於 GPT-5.2 與 Claude 4.5 Opus,但在多語言編碼與競爭程式設計(LiveCodeBench)上則展現優勢。社群回饋指出,K2.5 生成的程式碼較為簡潔,減少不必要的樣板程式碼。

Kimi Code:終端機編碼代理
伴隨 K2.5 發布,Moonshot AI 同步推出 Kimi Code,這是一款開源終端機編碼工具,功能定位對標 Anthropic 的 Claude Code。開發者可透過終端機直接使用,或整合至 VSCode、Cursor、Zed 等主流 IDE。
Kimi Code 的獨特之處在於支援影像與影片作為輸入。開發者可上傳 UI 設計稿或操作錄影,模型能理解互動邏輯並生成對應程式碼,包括捲動觸發動畫等複雜效果。根據 Moonshot AI 的 Kimi Code Bench 評測,K2.5 在建構、除錯、重構、測試與腳本撰寫等任務上,相較前代 K2 均有明顯提升。
Kimi Code CLI 支援 Agent Client Protocol(ACP),可與支援 ACP 的編輯器或 IDE 整合。此外,工具內建 MCP(Model Context Protocol)支援,允許開發者管理 MCP 伺服器並擴展功能。對於使用 Zsh 的開發者,可透過按下 Ctrl-X 切換至代理模式,在不離開終端機的情況下獲得 AI 輔助。
開發者社群的真實回饋
Hacker News 上的討論呈現多元觀點。部分開發者稱讚這是「開源社群的歡樂日」,認為從 K2 到 K2.5 的品質躍升堪比 Gemini 2.5 Pro 到 Gemini 3 Pro 的進化。
硬體需求是主要質疑點。一位開發者指出,實際部署需要 16 張 H100 80GB GPU 搭配 NVLink,硬體成本約 USD 50 萬至 70 萬(約 NTD 1,600 萬至 2,240 萬),或按需租用每小時 USD 40 至 60(約 NTD 1,280 至 1,920)。較親民的選項是兩台 512GB Mac Studio M3 Ultra(約 USD 20,000 / NTD 640,000),但推論速度會明顯下降。
「Agent Swarm 本質上是專門化的 LLM 實例在分解任務上平行運作,」一位 Hacker News 用戶評論,「這不是魔法,是平行程式設計應用在 AI 上。運行 100 個代理意味著消耗 100 倍算力。4.5 倍加速能否抵銷成本?Moonshot 沒有說明協調開銷。」
視覺能力方面,部分專注視覺任務的開發者認為 K2.5 在標準基準測試上表現出色,但實際需要深度圖像理解的任務仍落後於 Gemini 3 Pro。另一方面,用戶普遍讚賞 K2.5 的「情感智慧」,認為其對話風格比其他模型更具人性化。
寫作能力是 Kimi 系列的傳統強項。多位用戶反映 K2.5 在創意寫作上保持平衡,不像部分模型在強化邏輯推理後犧牲了表達的生動性。
定價與可及性
Kimi K2.5 採用 Modified MIT 授權,原始碼與模型權重皆可於 Hugging Face 下載。授權的唯一限制是:若商業產品月活用戶超過 1 億或月營收超過 USD 2,000 萬(約 NTD 6.4 億),須在用戶介面顯著標示「Kimi K2.5」。
| 存取方式 | 價格 |
|---|---|
| API 輸入 | USD 0.60 / 百萬 tokens(約 NTD 19) |
| API 輸出 | USD 3.00 / 百萬 tokens(約 NTD 96) |
| 快取命中 | USD 0.10 / 百萬 tokens(約 NTD 3) |
| Kimi.com 網頁版 | 免費使用,有速率限制 |
| 訂閱方案 | Moderato / Allegretto / Vivace |
透過 OpenRouter 等第三方服務,開發者可以近似 Claude Haiku 的價格使用 K2.5。對於大量使用快取的 RAG 應用或長時間運行的代理,有效成本可降至接近 DeepSeek 的水準。
中國 AI 開源策略的更大圖景
Kimi K2.5 的發布延續中國 AI 企業的開源攻勢。2025 年 1 月 DeepSeek 發布 R1 模型,訓練成本僅 USD 600 萬(約 NTD 1.92 億),遠低於美國同業數十億美元的投入。Kimi K2 Thinking 的訓練成本據報導約 USD 460 萬(約 NTD 1.47 億)。
這種策略的邏輯清晰:透過開源建立生態系,對抗美國閉源模型的主導地位。面對晶片出口管制的限制,中國企業在演算法優化上取得突破,以較少的硬體資源達成可比較的效能。開源也讓全球開發者能夠檢視、部署並改進這些模型,擴大技術影響力。
從商業角度,Moonshot AI 執行長楊植麟的策略是結合「OpenAI 的技術理想主義」與「ByteDance 的商業哲學」。公司同時經營 B2C 消費端產品(Kimi 聊天機器人)與 B2B API 服務,並開發海外市場產品如 AI 角色扮演應用 Ohai 與音樂影片生成器 Noisee。
實際應用場景與限制
Agent Swarm 最適合的應用場景包括:
- 大規模研究任務:同時分析多個領域的資訊並彙整結果
- 多檔案程式碼重構:平行處理具有交叉依賴的程式碼修改
- 分散式資料處理:平行執行獨立的資料擷取與分析子任務
- 複雜文件生成:同步撰寫長篇報告的不同章節
限制方面,Agent Swarm 目前處於 Beta 階段,僅限高階付費用戶使用。100 個子代理的並行執行意味著算力消耗線性增長,對於對延遲敏感但預算有限的應用可能不適用。此外,雖然模型權重開源,完整複製 Agent Swarm 功能需要理解 PARL 訓練方法論,這並非所有開發者都能輕易掌握。
結論:從單一助手到協作群體
Kimi K2.5 的意義不僅在於效能基準的競爭,而是代表 AI 代理架構 的典範轉移。單一全能助手的模式正在讓位給專業化代理群體的協作模式——這更接近人類團隊的運作方式。
對於評估 AI 工具的企業決策者,K2.5 提供了一個具吸引力的選項:開源透明度、與閉源模型匹敵的效能、以及顯著的成本優勢。建議的策略是先透過 API 測試特定使用場景,確認符合需求後再考慮基礎設施投資。
引用來源
- Moonshot AI 官方技術報告
- Hugging Face 模型卡
- Stanford HAI - AI Index Report
- McKinsey Global Institute - AI Economics
作者簡介
Ewan Mak 是 Tenten.co 的 Lead AI Researcher,專注於 AI 工具評測與企業數位轉型諮詢。擁有多年全端開發經驗,特別關注 headless CMS 與雲端基礎設施領域。
觀點:Agent Swarm 代表的平行化協作模式,可能比單純追求模型參數規模更能解決實際商業問題。當任務可被有效分解時,100 個專注的子代理往往比一個試圖兼顧所有的超級模型更有效率。這種架構轉變值得所有正在評估 AI 投資的企業密切關注。
若您正在評估企業級 AI 解決方案,或希望深入了解如何將 Agent Swarm 等先進技術整合至現有工作流程,歡迎與 Tenten 團隊預約諮詢,探討最適合您業務需求的實施策略。
