OpenAI 推理大模型奪得 IMO 金牌：通用人工智慧里程碑

OpenAI 再次震撼全球科技圈。研究團隊宣布，最新一代「推理大模型」在 2025 年國際數學奧林匹亞（IMO）模擬測試中，以 35／42 分的成績奪得「金牌級」表現，成為史上第一個僅靠通用大語言模型就達到此成就的 AI 系統。這不僅是數學競賽的勝利，更被視為通用人工智慧（AGI）發展的關鍵轉折點。

為什麼這次「推理大模型」的突破如此不同？

過去 Google DeepMind 曾在 IMO 模擬賽拿下 28 分、僅差 1 分奪金的佳績，但那是靠兩套專門系統——AlphaGeometry 與 AlphaProof——分別處理幾何與代數證明，並仰賴大量合成數據與人類將題目轉譯成形式化語言。OpenAI 的「推理大模型」則完全不一樣：

比較維度	Google DeepMind	OpenAI 推理大模型
系統類型	專用模型（AlphaGeometry＋AlphaProof）	通用大語言模型
人類介入	需手動將題目轉為形式化語言	直接讀取官方題目，零人工轉譯
工具使用	依賴外部工具與網路資源	不使用任何工具或網路
證明形式	形式化證明	自然語言證明
總分	28／42（銀牌）	35／42（金牌）

通用大語言模型的突破

OpenAI 的這項成就之所以令人驚艷，關鍵在於它使用的是通用大語言模型，而非專門為數學設計的系統。這意味著：

跨領域能力：模型不僅能解數學題，還具備處理其他複雜任務的潛力。
自然語言理解：無需人工翻譯題目，直接閱讀並理解原始問題陳述。
長時間推理：能在數小時內保持穩定的創造性思考，解決高難度問題。

技術背後的關鍵進展

根據 OpenAI 研究人員的透露，這項突破主要歸功於以下創新：

強化學習的改進：克服了傳統強化學習依賴精確定義獎勵信號的限制。
推理時間跨度擴展：從簡單的數學題（GSM8K）到中學數學（MATH基準），再到奧數級別（AIME、IMO），模型的持續推理能力顯著提升。
高效計算：優化了模型在長時間思考過程中的計算效率。

從「工具」到「思考者」：通用人工智慧的躍遷

「推理大模型」的驚人之處在於，它並非為數學單一任務而生，而是展現了跨領域的通用推理能力。這標誌著 AI 從「狹義人工智慧」邁向「通用人工智慧」的關鍵一步：

抽象思考：能夠在長達數小時的推理鏈中保持邏輯一致性，解決前所未見的複雜問題。
創造性解題：IMO 題目往往需要「發明」全新技巧，而非套用模板，這正是人類數學家的核心能力。
自我驗證：研究人員透露，新技術讓模型在「難以驗證」的任務上也能獲得穩定獎勵，避免投機取巧。

1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
— Alexander Wei (@alexwei_) July 19, 2025

時間跨度革命：從 5 秒到 2 小時的推理進化

為了量化「推理大模型」的進步，可以觀察不同數學基準所需的思考時間：

基準名稱	難度等級	人類平均思考時間	模型表現
GSM8K	小學應用題	5 秒	已達人類水準
MATH	中學競賽題	5–10 分鐘	準確率大幅提升
AIME	奧數初階	30–60 分鐘	穩定突破
IMO	世界頂尖	1–2 小時	奪得金牌級 35 分

這條「時間跨度進步曲線」說明：AI 已從「秒級回答」進化到「小時級深度思考」，並在過程中展現持續創造力。

專家怎麼看？Gary Marcus 罕見給出「令人印象深刻」評價

一向對 AGI 進展持保守態度的紐約大學教授 Gary Marcus，此次也公開表示：「成果當然令人印象深刻，但它究竟意味著什麼，仍有待觀察。」能讓最嚴厲的批評者鬆口，足以凸顯「推理大模型」的突破性。

下一步：GPT-5 與強化學習的 10 倍算力軍備競賽

OpenAI 執行長 Sam Altman 透露，奪金模型並非即將發布的 GPT-5，而是實驗性研究版本；真正的「IMO 金牌模型」預計還需數月打磨。與此同時，業界正把強化學習（RL）計算量推向新高：Grok 4 在基礎模型不變的前提下，投入 10 倍 RL 算力，即成為首個在 IMO 風格測試中突破 10% 正確率的系統。這預示著「推理大模型」仍有巨大上升空間。

結語：當 AI 略勝人類，世界將不可逆轉地改變

OpenAI 表示，這只是一個實驗性模型，尚未整合到即將發布的 GPT-5 中。但這一成就預示著：

科學研究的加速：AI 可能很快就能為數學、物理等領域帶來突破性發現。
AGI 的臨近：當 AI 在多個領域達到或超越人類頂尖水平時，通用智能的實現將不再遙遠。

正如研究員 Noam Brown 所言：「AI 表現略低於人類與略高於人類之間，存在天壤之別。」當「推理大模型」在 IMO 這座 AGI 聖杯上奪金，我們已站在歷史轉折點——留給人類適應的時間，真的不多了。

FAQ

1. 問：「推理大模型」是如何在國際數學奧林匹亞（IMO）奪得金牌？

答：「推理大模型」以通用大語言模型實現智能推理能力，能直接讀取並理解問題，並使用自然語言進行證明。它在 2025 年 IMO 模擬測試中以 35/42 分的成績奪得金牌，展現了跨領域的邏輯與創造力。

2. 問：「推理大模型」如何優於 Google DeepMind 的系統？

答：Google DeepMind 使用兩套專用模型 AlphaGeometry 與 AlphaProof 並需要人工轉譯題目，而「推理大模型」完全不需人工介入，直接讀取 IMO 題目，並勝出以自然語言證明方式展現通用能力。

3. 問：「推理大模型」對通用人工智慧（AGI）發展有什麼意義？

答：這一突破展示了 AI 從專用工具進化為具備人類般抽象思考、創造性解題、以及自我驗證能力的通用智能，標誌著 AI 向 AGI 的關鍵邁進。

4. 問：研究者如何評估「推理大模型」的性能？

答：通過分析其在各級數學基準（如小學應用題到數學奧林匹克題）上的表現，其中展現出 AI 已具備長時間深度推理與穩定創造性的能力，並在高難度題上超越人類。

5. 問：「推理大模型」的下一步發展計劃是什麼？

答：OpenAI 計劃進一步強化推理能力與運算效率，未來版本或可更加穩定優化數學創造性問題的解決，同時探索強化學習和算力提升的技術可能性。

參考資料

作者觀點

作者：Ewan（Tech Lead of Tenten AI）

作為長期追蹤 AI 進展的技術觀察者，我認為「推理大模型」在 IMO 奪金的意義遠超數學本身。它證明了大語言模型已從「語言預測器」進化為「通用思考者」，並在最具挑戰性的抽象推理任務上超越人類。這不僅是演算法與算力的勝利，更是人類對「理解」與「創造」本質的重新定義。接下來的關鍵問題不再是「AI 能否思考」，而是「人類如何與比自己更會思考的存在共存」。

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

OpenAI 推理大模型奪得 IMO 金牌：通用人工智慧里程碑

為什麼這次「推理大模型」的突破如此不同？

通用大語言模型的突破

技術背後的關鍵進展

從「工具」到「思考者」：通用人工智慧的躍遷

時間跨度革命：從 5 秒到 2 小時的推理進化

專家怎麼看？Gary Marcus 罕見給出「令人印象深刻」評價

下一步：GPT-5 與強化學習的 10 倍算力軍備競賽

結語：當 AI 略勝人類，世界將不可逆轉地改變

FAQ

參考資料

作者觀點

Codex 新插件：Product Design 與 Creative Production 如何把 AI 代理帶進產品與設計工作

OpenAI DeployCo 上線：140 億美元估值的企業 AI 部署軍團，諮詢業正在為自己的對手出錢

FDE 部署戰開打：Anthropic 與 OpenAI 砸 55 億美元搶企業 AI 部署市場

馬斯克對 OpenAI 索賠 1,500 億美元：AI 商業化路線之爭，可能改寫整個產業的未來

OpenAI 聯發科高通立訊 AI Agent 手機 2028 量產：郭明錤爆料背後的硬體突圍困局

YC 2026 Summer RFS 拆解：AI 變成底層以後，YC 想找哪些公司