TL;DR

Anthropic 的 Claude Opus 4.5 和 ultrathink 功能正在重新定義 AI 編碼工具的競爭格局。儘管在 SWE-bench 等技術基準測試中領先,但 GPT-5.2 仍主導實際開發者採用率(81% 市場佔有率)。關鍵數據:Opus 4.5 定價從 $15/$75 降至 $5/$25(降幅 67%),ultrathink 功能分配最高 32K token 思考預算,可將 Sonnet 4.5 的性能提升至接近 Opus 水準。然而,開發者社群揭示一個令人意外的真相:ultrathink 僅在 Claude Code CLI 環境中有效,在 claude.ai 網頁介面或 API 中完全無作用。這場技術軍備競賽的真正贏家?懂得策略性運用多模型工作流程的開發者。

當基準測試冠軍遇上市場現實:一場價值 5 倍的認知落差

80.9%。

這是 Claude Opus 4.5 在 SWE-bench Verified 上的得分,在所有 AI 模型中排名第一,勝過 GPT-5.2 的 80.0% 和 Gemini 3 Pro 的 76.2%。按理說,技術領先者應該贏得市場。但現實卻恰恰相反。

根據 2025 年 12 月的數據,ChatGPT 擁有壓倒性的 81% AI 聊天機器人市場佔有率,每週活躍用戶達 8 億,每日處理超過 20 億次查詢。超過 200 萬開發者整合了 OpenAI 的平台,其中 GPT-5.2 Codex 變體專門針對開發工作流程進行了優化。

這就是 2025 年末 AI 編碼戰爭的悖論核心:最強的模型不一定贏得最多用戶。讓我們拆解這個數字背後的真相。

背景:三週內的三場模型發布戰

2025 年 11 月見證了前所未有的 AI 軍備競賽。Anthropic 於 9 月 29 日發布 Claude Sonnet 4.5,聲稱是「世界上最好的編碼模型」,在 SWE-bench Verified 上達到 77.2% 的表現。OpenAI 於 11 月 12 日以 GPT-5.1 回擊。Google 在 11 月 18 日推出 Gemini 3。

然後在 11 月 24 日感恩節前,Anthropic 打出了王牌:Claude Opus 4.5。

這不是年度發布週期,這是週度競爭。Bloomberg 報導 OpenAI CEO Sam Altman 在 Gemini 3 發布後宣布內部「紅色警報」,承認來自 Google 和 Anthropic 的競爭壓力。結果?OpenAI 正在加速開發代號「Garlic」的新模型,可能在 2026 年初以 GPT-5.2 或 GPT-5.5 的名義推出。

這種競爭對整個開發者社群有利,推動所有 AI 公司更快地迭代並提供更好的產品。但它也創造了一個令人困惑的選擇矩陣:哪個模型真正最適合實際工作?

數字深入探討:效能、定價與那個神秘的 Ultrathink

基準測試表現

讓我們從硬數據開始:

SWE-bench Verified(實際軟體工程能力)

  • Claude Opus 4.5: 80.9%
  • GPT-5.2 Codex: 80.0%
  • Claude Sonnet 4.5: 77.2%
  • Gemini 3 Pro: 76.2%

OSWorld(實際電腦使用任務)

  • Claude Opus 4.5: 66.3%
  • Claude Sonnet 4.5: 61.4%
  • Claude Sonnet 4(4 個月前): 42.2%

Terminal Bench(自主編碼能力)

  • Claude Opus 4.5 比 Sonnet 4.5 提升 15%

這些數字令人印象深刻。Anthropic 的內部測試甚至更引人注目:他們讓 Opus 4.5 參加公司性能工程候選人的實際技術測試(兩小時時限),結果 Opus 4.5 的得分高於任何應徵者。

但這裡有一個關鍵問題:基準測試並不總是反映真實世界的使用案例。開發者 Simon Willison 在測試 Opus 4.5 後寫道:「我的預覽在週日晚上 8 點到期,當時我的里程碑中還有一些剩餘問題。我切換回 Claude Sonnet 4.5,然後……以我一直在使用新模型的速度繼續工作。」

這告訴我們什麼?對於生產編碼,模型之間的差距比基準測試顯示的要窄得多。

定價革命

Anthropic 在定價上進行了大膽的舉措:

Claude Opus 定價演變

  • 舊版 Opus 4.1: $15/$75 每百萬 token
  • 新版 Opus 4.5: $5/$25 每百萬 token
  • 降幅:67%

市場比較(每百萬 token)

  • Claude Opus 4.5: $5/$25
  • GPT-5.1 家族: $1.25/$10
  • Gemini 3 Pro: $2/$12(<200K token)
  • Claude Sonnet 4.5: $3/$15
  • Claude Haiku 4.5: $1/$5

這意味著什麼?Opus 4.5 在大幅提升能力的同時降低了價格。但它仍然比 GPT-5.1 貴 4 倍(輸入)和 2.5 倍(輸出)。

更重要的是效率增益。在中等努力水準下,Opus 4.5 在使用少 76% 輸出 token 的情況下,與之前的 Sonnet 4.5 模型的最佳得分相匹配。在最高努力水準下,Opus 4.5 在仍使用少 48% token 的情況下,性能超過 Sonnet 4.5 4.3 個百分點。

這種效率提升意味著由於 token 消耗減少,Opus 4.5 可以以顯著降低的總成本匹配或超越之前的旗艦性能。

Ultrathink 揭秘:一個被誤解的功能

這是事情變得有趣的地方。在開發者論壇、Reddit 討論和各種指南中,「ultrathink」已成為傳奇——一個能夠解鎖 Claude 最大推理能力的魔法詞。

真相?它確實有效,但只在 Claude Code CLI 中。

根據多位開發者的逆向工程研究(包括 2025 年 11 月的深入分析),以下是 ultrathink 的實際運作方式:

思考層級階層

  • 標準(無關鍵詞): 快速完成,簡單編輯,明顯實現
  • think: 4K token 預算,非平凡的錯誤,多檔案變更(回應時間約長 30%)
  • think hard / megathink: 10K token 預算,複雜重構,神秘故障除錯(回應時間約 2 倍)
  • ultrathink: 32K token 預算,主要架構決策,關鍵遷移(回應時間約 3 倍,token 成本明顯更高)

關鍵警告

  • ultrathink 在 Claude Code CLI 終端中運作
  • 在 claude.ai 網頁聊天或直接 API 呼叫中不運作
  • 網頁介面和 API 需要以程式化方式設定明確的 extended_thinking 參數

一位資深開發者在使用 6 個月後的建議:「系統性使用 ultrathink 揭示了根本性的誤解並產生了不成比例的成本。漸進式升級策略可優化全球效率。從 think 開始,評估回應相關性,然後在必要時升級。」

換句話說:ultrathink 是手術刀,不是錘子。將它留給真正重要的架構決策——那些會影響程式碼庫數月的決策。

多重視角:為什麼基準測試領導者會輸掉市場戰爭

看多論點:Opus 4.5 的技術優勢

開發者 McKay Wrigley 在使用 Opus 4.5 兩週後寫道:「任何使用過 Opus 4.5 的人都清楚,AI 進展並未放緩。我很驚訝沒有更多人將此視為一個重大時刻……這是編碼和代理的最佳模型,而且差距很大。」

他不是唯一一個。早期測試者報告:

Cursor CEO Michael Truell: 「Claude Opus 4.5 在 Cursor 中是一個顯著的改進,在困難的編碼任務上具有改進的定價和智能。」

Lovable: 「Claude Opus 4.5 在我們的聊天模式中提供前沿推理……它的推理深度改變了規劃——而出色的規劃使程式碼生成更好。」

Hai(安全代理): 「Claude Sonnet 4.5 使我們的安全代理的平均漏洞攝入時間減少了 44%,同時將準確性提高了 25%。」

Harvey(法律 AI): 「Claude Sonnet 4.5 在最複雜的訴訟任務上處於最先進水準。」

技術能力無可爭議。在深層推理、長時間自主任務和複雜的代理工作流程方面,Opus 4.5 設定了新的標準。

看空論點:生態系統優勢勝過基準測試領導地位

但這裡有一個反駁:在現實世界中,足夠好加上出色的執行力每次都會擊敗理論完美。

生態系統整合

  • GPT-5.2:與 Cursor、VS Code 和其他流行開發環境深度整合
  • 超過 18,000 個商業應用程式已整合 ChatGPT API
  • GitHub Copilot 主要預設為 GPT 變體,儘管現在也支援 Claude

開發者體驗

  • 強大的 API,文件完善,使構建自定義工具更容易
  • 更快的回應時間(GPT-5.2 對簡單任務約 2 秒,複雜推理 10+ 秒)
  • 更好的多語言程式碼編輯性能(在 Aider Polyglot 上達到 88%)

市場網絡效應

  • 150 萬企業客戶跨 ChatGPT 的 Enterprise、Team 和 Edu 產品
  • 最大的開發者社群意味著更多的教程、疑難排解和支援
  • 現有工作流程和肌肉記憶的慣性

一位開發者對比總結得很好:「Claude Opus 4.5 保持技術優勢……但差距小到 GPT-5.2 的實際優勢對大多數開發者來說超過了性能差異。」

務實觀點:多模型方法的興起

但這裡有第三個視角:也許問題本身就是錯誤的。

越來越多的專業開發者正在採用多模型工作流程,利用每個 AI 的優勢,同時避免其缺陷。策略看起來像這樣:

預算導向(每月 $50-150)

  • 主要模型:Gemini 3 Pro(用於大多數任務)
  • 輔助模型:GPT-5.2 Codex(用於關鍵邏輯)
  • 最適合:新創公司、獨立開發者、預算意識團隊

平衡方法(每月 $150-300)

  • 主要模型:GPT-5.2 Codex(用於日常工作)
  • 輔助模型:Claude Opus 4.5(用於複雜架構)
  • 選擇性:Gemini 3 Pro(用於視覺/多模態任務)
  • 最適合:成長中的團隊、全端開發

最大能力(每月 $300+)

  • Gemini 3 Pro + GPT-5.2 Codex + 選擇性 Opus 4.5
  • 最大能力覆蓋,ROI 證明成本合理
  • 最適合:企業團隊、高度複雜專案

這種方法承認一個簡單的真相:沒有單一模型在所有事情上都出類拔萃。掌握這種多模型方法的開發者將在 2025 年及以後擁有重大競爭優勢。

實際影響:這對創始人和開發者意味著什麼

讓我們將這個分析轉化為可行的要點:

對於新創公司創始人

如果你正在為團隊評估 AI 編碼工具,請專注於總擁有成本,而不僅僅是每個 token 的價格。一個使用 50% 較少 token 的 2 倍貴的模型實際上更便宜。

密切關注整合要求。模型可能在基準測試中表現出色,但如果它不能與你的團隊現有工具配合使用(GitHub、VS Code、Slack),採用摩擦會抵消任何技術優勢。

考慮團隊學習曲線。Claude Code 的 CLAUDE.md 檔案、思考層級和子代理等功能很強大,但需要投資學習。如果你的團隊已經在 Cursor 或另一個工具中建立了工作流程,切換成本可能會很高。

對於開發者

ultrathink 是真實的,但僅在 Claude Code CLI 中。如果你在 claude.ai 或透過 API 使用 Claude,不要浪費時間在魔法詞上——它們不起作用。相反,學習如何使用適當的 API 參數。

掌握思考層級階層。為每個任務使用最少的必要思考預算:

  • 簡單修復和明顯變更的標準
  • 多檔案變更和非平凡錯誤的 think
  • 複雜重構和性能優化的 think hard
  • 僅主要架構決策的 ultrathink

積極清除上下文。每當你開始真正新的東西時,使用 /clear 指令。你不需要歷史記錄消耗你的 token,你也不需要 Claude 執行壓縮呼叫來總結舊對話。大多數工程師起初抗拒這一點(「我正在失去有價值的上下文!」),但這是一個錯誤的節約。

對於投資者

這場 AI 編碼戰爭揭示了一些有趣的市場動態:

  1. 技術領導地位不等於市場領導地位(OpenAI 的生態系統優勢很重要)
  2. 定價權力正在侵蝕(Anthropic 降價 67% 以保持競爭力)
  3. 多模型工作流程正在興起(開發者不會鎖定到單一提供者)

尋找建立跨多個 LLM 提供者運作的抽象層的公司。押注單一模型提供者的垂直整合工具面臨集中風險。

關注採用指標,而不僅僅是基準測試得分。一個擁有 200 萬開發者和深度生態系統整合的「足夠好」模型比一個技術上更優越但孤立的模型更有價值。

結語:競賽才剛開始

Claude Opus 4.5 和 ultrathink 功能代表了 AI 編碼能力的真正進步。在技術基準測試、效率增益和複雜推理任務方面,Anthropic 已經設定了新的標準。

但 2025 年末的市場現實提醒我們,技術卓越只是等式的一部分。生態系統整合、開發者體驗和網絡效應同樣重要——有時更重要。

這裡的核心教訓並不是 Opus 4.5「輸了」或 GPT-5.2「贏了」。這是關於認識到我們正進入一個多模型工作流程成為常態的時代,開發者越來越擅長根據任務選擇正確的工具。

對於創始人,這意味著專注於靈活性。不要將你的整個技術堆疊押注在單一 AI 提供者上。建立能夠跨模型工作的抽象層。

對於開發者,這意味著成為多語言——不僅在程式語言方面,而且在 AI 模型方面。學習每個主要平台的優勢和劣勢。掌握切換工具的藝術。

而對於整個行業,這意味著競爭正在推動創新的速度比我們預期的更快。我們在三週內看到了三個主要模型發布。OpenAI 已經在開發「Garlic」以反擊。Google 的 Gemini 3 繼續發展。

AI 編碼戰爭才剛剛開始。獲勝者不會是擁有最高基準測試得分的人——而是那些最好地服務開發者實際需求的人。

我們將在 2025 年剩餘時間密切關注這些模型如何競爭,以及哪些功能從實驗性變為不可或缺。ultrathink 可能只是冰山一角。


準備好在 AI 時代提升你的業務了嗎?

無論你是想整合 AI 工具來提升團隊生產力,還是需要建立完整的數位解決方案,Tenten 團隊都能協助你實現目標。我們專注於 AI 驅動的數位轉型,幫助企業善用最新技術工具,從策略規劃到實際執行。

立即預約諮詢,讓我們一起探討如何將 AI 創新轉化為你的競爭優勢。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...