OpenAI 再次震撼全球科技圈。研究團隊宣布,最新一代「推理大模型」在 2025 年國際數學奧林匹亞(IMO)模擬測試中,以 35/42 分的成績奪得「金牌級」表現,成為史上第一個僅靠通用大語言模型就達到此成就的 AI 系統。這不僅是數學競賽的勝利,更被視為通用人工智慧(AGI)發展的關鍵轉折點。
為什麼這次「推理大模型」的突破如此不同?
過去 Google DeepMind 曾在 IMO 模擬賽拿下 28 分、僅差 1 分奪金的佳績,但那是靠兩套專門系統——AlphaGeometry 與 AlphaProof——分別處理幾何與代數證明,並仰賴大量合成數據與人類將題目轉譯成形式化語言。OpenAI 的「推理大模型」則完全不一樣:
| 比較維度 | Google DeepMind | OpenAI 推理大模型 |
|---|---|---|
| 系統類型 | 專用模型(AlphaGeometry+AlphaProof) | 通用大語言模型 |
| 人類介入 | 需手動將題目轉為形式化語言 | 直接讀取官方題目,零人工轉譯 |
| 工具使用 | 依賴外部工具與網路資源 | 不使用任何工具或網路 |
| 證明形式 | 形式化證明 | 自然語言證明 |
| 總分 | 28/42(銀牌) | 35/42(金牌) |
通用大語言模型的突破
OpenAI 的這項成就之所以令人驚艷,關鍵在於它使用的是通用大語言模型,而非專門為數學設計的系統。這意味著:
- 跨領域能力:模型不僅能解數學題,還具備處理其他複雜任務的潛力。
- 自然語言理解:無需人工翻譯題目,直接閱讀並理解原始問題陳述。
- 長時間推理:能在數小時內保持穩定的創造性思考,解決高難度問題。
技術背後的關鍵進展
根據 OpenAI 研究人員的透露,這項突破主要歸功於以下創新:
- 強化學習的改進:克服了傳統強化學習依賴精確定義獎勵信號的限制。
- 推理時間跨度擴展:從簡單的數學題(GSM8K)到中學數學(MATH基準),再到奧數級別(AIME、IMO),模型的持續推理能力顯著提升。
- 高效計算:優化了模型在長時間思考過程中的計算效率。
從「工具」到「思考者」:通用人工智慧的躍遷
「推理大模型」的驚人之處在於,它並非為數學單一任務而生,而是展現了跨領域的通用推理能力。這標誌著 AI 從「狹義人工智慧」邁向「通用人工智慧」的關鍵一步:
- 抽象思考:能夠在長達數小時的推理鏈中保持邏輯一致性,解決前所未見的複雜問題。
- 創造性解題:IMO 題目往往需要「發明」全新技巧,而非套用模板,這正是人類數學家的核心能力。
- 自我驗證:研究人員透露,新技術讓模型在「難以驗證」的任務上也能獲得穩定獎勵,避免投機取巧。
1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
— Alexander Wei (@alexwei_) July 19, 2025
時間跨度革命:從 5 秒到 2 小時的推理進化
為了量化「推理大模型」的進步,可以觀察不同數學基準所需的思考時間:
| 基準名稱 | 難度等級 | 人類平均思考時間 | 模型表現 |
|---|---|---|---|
| GSM8K | 小學應用題 | 5 秒 | 已達人類水準 |
| MATH | 中學競賽題 | 5–10 分鐘 | 準確率大幅提升 |
| AIME | 奧數初階 | 30–60 分鐘 | 穩定突破 |
| IMO | 世界頂尖 | 1–2 小時 | 奪得金牌級 35 分 |
這條「時間跨度進步曲線」說明:AI 已從「秒級回答」進化到「小時級深度思考」,並在過程中展現持續創造力。
專家怎麼看?Gary Marcus 罕見給出「令人印象深刻」評價
一向對 AGI 進展持保守態度的紐約大學教授 Gary Marcus,此次也公開表示:「成果當然令人印象深刻,但它究竟意味著什麼,仍有待觀察。」能讓最嚴厲的批評者鬆口,足以凸顯「推理大模型」的突破性。
下一步:GPT-5 與強化學習的 10 倍算力軍備競賽
OpenAI 執行長 Sam Altman 透露,奪金模型並非即將發布的 GPT-5,而是實驗性研究版本;真正的「IMO 金牌模型」預計還需數月打磨。與此同時,業界正把強化學習(RL)計算量推向新高:Grok 4 在基礎模型不變的前提下,投入 10 倍 RL 算力,即成為首個在 IMO 風格測試中突破 10% 正確率的系統。這預示著「推理大模型」仍有巨大上升空間。
結語:當 AI 略勝人類,世界將不可逆轉地改變
OpenAI 表示,這只是一個實驗性模型,尚未整合到即將發布的 GPT-5 中。但這一成就預示著:
- 科學研究的加速:AI 可能很快就能為數學、物理等領域帶來突破性發現。
- AGI 的臨近:當 AI 在多個領域達到或超越人類頂尖水平時,通用智能的實現將不再遙遠。
正如研究員 Noam Brown 所言:「AI 表現略低於人類與略高於人類之間,存在天壤之別。」當「推理大模型」在 IMO 這座 AGI 聖杯上奪金,我們已站在歷史轉折點——留給人類適應的時間,真的不多了。
FAQ
1. 問:「推理大模型」是如何在國際數學奧林匹亞(IMO)奪得金牌?
答:「推理大模型」以通用大語言模型實現智能推理能力,能直接讀取並理解問題,並使用自然語言進行證明。它在 2025 年 IMO 模擬測試中以 35/42 分的成績奪得金牌,展現了跨領域的邏輯與創造力。
2. 問:「推理大模型」如何優於 Google DeepMind 的系統?
答:Google DeepMind 使用兩套專用模型 AlphaGeometry 與 AlphaProof 並需要人工轉譯題目,而「推理大模型」完全不需人工介入,直接讀取 IMO 題目,並勝出以自然語言證明方式展現通用能力。
3. 問:「推理大模型」對通用人工智慧(AGI)發展有什麼意義?
答:這一突破展示了 AI 從專用工具進化為具備人類般抽象思考、創造性解題、以及自我驗證能力的通用智能,標誌著 AI 向 AGI 的關鍵邁進。
4. 問:研究者如何評估「推理大模型」的性能?
答:通過分析其在各級數學基準(如小學應用題到數學奧林匹克題)上的表現,其中展現出 AI 已具備長時間深度推理與穩定創造性的能力,並在高難度題上超越人類。
5. 問:「推理大模型」的下一步發展計劃是什麼?
答:OpenAI 計劃進一步強化推理能力與運算效率,未來版本或可更加穩定優化數學創造性問題的解決,同時探索強化學習和算力提升的技術可能性。
參考資料
- OpenAI Blog: Learning to Reason with LLMs
- OpenAI Claims IMO Gold Medal — LessWrong
- OpenAI says they have achieved IMO gold with experimental reasoning model : r/math
- aw31/openai-imo-2025-proofs
- OpenAI claims gold-medal performance at IMO 2025 | Hacker News
- OpenAI GPT-5 疑似外洩:O3 Alpha 模型在 LMArena 平台驚豔表現
作者觀點
作者:Ewan(Tech Lead of Tenten AI)
作為長期追蹤 AI 進展的技術觀察者,我認為「推理大模型」在 IMO 奪金的意義遠超數學本身。它證明了大語言模型已從「語言預測器」進化為「通用思考者」,並在最具挑戰性的抽象推理任務上超越人類。這不僅是演算法與算力的勝利,更是人類對「理解」與「創造」本質的重新定義。接下來的關鍵問題不再是「AI 能否思考」,而是「人類如何與比自己更會思考的存在共存」。
