Kimi K2 Thinking：460萬美元訓練出的AI模型,如何在全球最難測試中擊敗OpenAI?

還記得去年大家都在討論需要多少億美元才能訓練出頂尖的AI模型嗎?Moonshot AI剛剛用實際行動告訴我們:聰明的架構設計,有時比燒錢更重要。

當大多數人還在關注OpenAI和Anthropic的最新動態時,一個由阿里巴巴支持的中國新創公司悄悄地在AI界投下了震撼彈。他們的Kimi K2 Thinking模型,以僅僅460萬美元的訓練成本,在被稱為「人類最後考試」的Humanity's Last Exam上取得了44.9%的突破性成績——這是目前所有AI模型中的最高分,遠遠超越了OpenAI的GPT-5和xAI的Grok-4。

什麼讓「人類最後考試」如此特別?

當AI模型在各種基準測試上都開始接近滿分時,研究人員意識到需要一個真正能測試AI極限的評估標準。這就是Scale AI與Center for AI Safety共同開發的Humanity's Last Exam(HLE)誕生的原因。

這不是你在學校見過的那種標準化測試。HLE包含2,500到3,000道橫跨100多個學術領域的高難度問題——從量子力學到哲學推理,從高等數學到跨領域知識整合。更關鍵的是,這些答案在網路上找不到,AI無法靠「死記硬背」通過,必須真正具備推理能力才行。

想像一下這樣的場景:人類專家在這個測試上的正確率能達到近90%,而目前最先進的AI模型普遍只能達到30%以下。這個巨大的差距,正是HLE設計的初衷——在其他基準測試都被AI「考滿分」而失去鑑別度的時代,HLE成為了真正能測試AI推理能力極限的最後防線。

Kimi K2的技術突破:不只是跑分高而已

當我第一次看到Kimi K2的技術規格時,最讓我驚訝的不是它的參數量,而是它的設計哲學。這個擁有1兆參數的模型,採用了混合專家架構(Mixture-of-Experts, MoE),但每次推理時只啟動320億參數。

這種設計有什麼好處?想像你要解決一個程式設計問題,你不需要同時啟動所有的知識和技能,而是根據問題的性質,調動最相關的專業知識。Kimi K2就是這樣工作的——既保持了強大的整體能力,又能在相對標準的硬體上高效運行。

更令人印象深刻的是它的實戰表現:

基準測試	Kimi K2	GPT-5	Claude Sonnet 4.5
Humanity's Last Exam	44.9%	< 30%	< 30%
BrowseComp (瀏覽任務)	60.2%	54.9%	24.1%
SWE-Bench Verified (軟體工程)	71.3%	資料未公開	資料未公開
LiveCodeBench v6 (即時編碼)	83.1%	資料未公開	資料未公開

在我與幾位使用AI程式碼工具的開發者朋友交流後,他們特別提到Kimi K2在真實編碼場景中的表現。一位朋友告訴我,他在配備雙M3 Ultra的設備上運行Kimi K2,達到了每秒約15個token的速度,而256K的超大上下文視窗讓他能輕鬆處理大型專案而不出現任何問題。

開源策略:技術民主化的實踐

Kimi K2最具革命性的地方,不是它有多強,而是它多容易取得。Moonshot AI以修改版的MIT授權條款在Hugging Face上開源了完整的模型權重和程式碼。

這意味著什麼?任何開發者、研究人員,甚至企業都能免費使用它進行商業開發。唯一的限制是:如果你的產品月活躍用戶超過500萬,或月收入超過2,000萬美元,你需要在使用者介面上顯著標示「Kimi K2」。

對於大多數新創公司和中小企業來說,這個條款幾乎等同於完全自由使用。更重要的是,它徹底打破了AI技術長期以來由少數科技巨頭壟斷的局面。

開發者可以透過platform.moonshot.ai和kimi.com存取這個模型,也可以直接從Hugging Face下載。它支援原生的INT4量化,能在不犧牲品質的情況下將推理速度提升2倍。這種技術民主化的做法,正在改寫數位轉型的遊戲規則。

成本效益:重新定義AI經濟學

讓我們來算一筆帳。Kimi K2的訓練成本是460萬美元,而據報導,OpenAI在類似等級的模型上投入了數十億美元。即使是同為中國開源模型的DeepSeek V3,訓練成本也達到560萬美元。

更有趣的是實際使用成本。在處理超過128K輸出token的任務時,Kimi K2的費用約為0.40美元,而Grok-4則需要5到6美元以上。這種價格優勢,對於需要大量AI運算的企業來說,意義重大。

一些美國公司,包括Airbnb,已經開始重視某些中國AI模型相較於OpenAI的產品,不僅是可行的替代方案,而且往往更具成本效益。這不是崇洋媚外或盲目跟風,而是理性的商業決策。

實戰測試:開發者的真實反饋

理論上的跑分很重要,但實際使用起來呢?我看到Reddit上有位開發者分享了他的使用經驗。他特別提到,雖然在工具調用準確度上,Grok-4達到了完美的100%(Kimi K2是70%),但在首次提示成功率、bug偵測和提示遵循度上,兩者的差距並不大。

更重要的是,Kimi K2的首個token生成速度更快(約0.5秒),這在需要即時回應的應用場景中非常關鍵。雖然完成整體任務的時間較長,但考慮到它只有0.40美元的成本,相較於Grok-4的5-6美元,這個速度差異是完全可以接受的。

有趣的是,多位使用Cursor等AI編碼工具的朋友告訴我,Kimi K2在長時間的程式碼對話中表現特別穩定,不會像某些商業模型那樣在對話後期出現品質下降的情況。

全球AI競賽的新格局

Kimi K2的成功,標誌著全球AI競賽格局的重大轉變。儘管美國對中國企業獲取先進晶片實施了限制,像DeepSeek和Moonshot AI這樣的公司仍然推出了開源且成本遠低於ChatGPT的AI模型。

這讓Nvidia CEO Jensen Huang都公開呼籲美國必須持續努力,應對來自中國的AI發展競爭。但我認為,這種競爭對全球的開發者和企業來說,其實是一件好事。

當AI能力不再是少數科技巨頭的專利,當開發工具和企業能以極低的成本取得頂尖的模型,整個產業的創新速度將會大幅加快。Kimi K2證明了一件事:在AI的世界裡,資源的多寡不再是唯一的決定因素,聰明的架構設計和高效的訓練方法,同樣能創造出世界級的成果。

對企業和開發者的啟示

作為一個長期關注AI產業的觀察者,我認為Kimi K2的出現給我們幾個重要啟示:

技術壁壘正在降低:不需要數十億美元的預算,中小型團隊也能訓練出具有競爭力的AI模型。這意味著AI新創的門檻正在下降。
開源成為主流:當頂尖的AI模型開始開源,閉源商業模型的優勢將逐漸縮小。企業需要重新思考自己的AI策略。
成本效益至關重要:在功能相近的情況下,成本優勢將成為決定性因素。這對於需要大規模部署AI的企業尤其重要。
中國AI不容小覷:儘管面臨晶片限制,中國的AI公司正在透過創新的架構設計和訓練方法,縮小與美國的差距。

關於作者

Erik (EKC) 是Tenten的共同創辦人,擁有超過20年的科技產業經驗。他專注於AI技術應用、數位轉型策略,以及新創生態系統的發展。Erik長期追蹤全球AI產業動態,特別關注開源AI模型的發展與商業應用。

在我看來,Kimi K2的出現不只是技術上的突破,更重要的是它向整個產業證明了:AI的未來不應該被少數公司壟斷。當技術變得更加開放、成本變得更加親民,真正的創新才會百花齊放。這也是為什麼Tenten一直致力於幫助台灣企業掌握AI技術,因為我相信,在這個技術民主化的時代,每一家企業都有機會成為AI驅動的贏家。

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running

Kimi K2 Thinking：460萬美元訓練出的AI模型,如何在全球最難測試中擊敗OpenAI?

什麼讓「人類最後考試」如此特別?

Kimi K2的技術突破:不只是跑分高而已

開源策略:技術民主化的實踐

成本效益:重新定義AI經濟學

實戰測試:開發者的真實反饋

全球AI競賽的新格局

對企業和開發者的啟示

關於作者

輾壓對手！Kimi K2.6 實測曝光：AI 寫程式省下 88% 成本，Reddit 網友全嗨翻

終極部署！OpenClaw 多智能體與 CLIProxyAPIPlus 完美架構指南

本地部署 Kimi 2.5 完整指南：Mac Studio、NVIDIA GPU 與雲端方案成本效益分析

如何在 Mac Studio M3 Ultra 512GB 本機運行 Kimi K2.5

如何在兩台 Mac Studio M4 Ultra 上運行 Kimi K2.5：完整部署指南

【深度解析】Kimi K2.5 超越 GPT-5？揭秘 Agent Swarm 背後的「蜂群智慧」