OpenAI 再次震撼全球科技圈。研究團隊宣布,最新一代「推理大模型」在 2025 年國際數學奧林匹亞(IMO)模擬測試中,以 35/42 分的成績奪得「金牌級」表現,成為史上第一個僅靠通用大語言模型就達到此成就的 AI 系統。這不僅是數學競賽的勝利,更被視為通用人工智慧(AGI)發展的關鍵轉折點。

為什麼這次「推理大模型」的突破如此不同?

過去 Google DeepMind 曾在 IMO 模擬賽拿下 28 分、僅差 1 分奪金的佳績,但那是靠兩套專門系統——AlphaGeometry 與 AlphaProof——分別處理幾何與代數證明,並仰賴大量合成數據與人類將題目轉譯成形式化語言。OpenAI 的「推理大模型」則完全不一樣:

比較維度 Google DeepMind OpenAI 推理大模型
系統類型 專用模型(AlphaGeometry+AlphaProof) 通用大語言模型
人類介入 需手動將題目轉為形式化語言 直接讀取官方題目,零人工轉譯
工具使用 依賴外部工具與網路資源 不使用任何工具或網路
證明形式 形式化證明 自然語言證明
總分 28/42(銀牌) 35/42(金牌)

通用大語言模型的突破

OpenAI 的這項成就之所以令人驚艷,關鍵在於它使用的是通用大語言模型,而非專門為數學設計的系統。這意味著:

  1. 跨領域能力:模型不僅能解數學題,還具備處理其他複雜任務的潛力。
  2. 自然語言理解:無需人工翻譯題目,直接閱讀並理解原始問題陳述。
  3. 長時間推理:能在數小時內保持穩定的創造性思考,解決高難度問題。

技術背後的關鍵進展

根據 OpenAI 研究人員的透露,這項突破主要歸功於以下創新:

  • 強化學習的改進:克服了傳統強化學習依賴精確定義獎勵信號的限制。
  • 推理時間跨度擴展:從簡單的數學題(GSM8K)到中學數學(MATH基準),再到奧數級別(AIME、IMO),模型的持續推理能力顯著提升。
  • 高效計算:優化了模型在長時間思考過程中的計算效率。

從「工具」到「思考者」:通用人工智慧的躍遷

「推理大模型」的驚人之處在於,它並非為數學單一任務而生,而是展現了跨領域的通用推理能力。這標誌著 AI 從「狹義人工智慧」邁向「通用人工智慧」的關鍵一步:

  1. 抽象思考:能夠在長達數小時的推理鏈中保持邏輯一致性,解決前所未見的複雜問題。
  2. 創造性解題:IMO 題目往往需要「發明」全新技巧,而非套用模板,這正是人類數學家的核心能力。
  3. 自我驗證:研究人員透露,新技術讓模型在「難以驗證」的任務上也能獲得穩定獎勵,避免投機取巧。

時間跨度革命:從 5 秒到 2 小時的推理進化

為了量化「推理大模型」的進步,可以觀察不同數學基準所需的思考時間:

基準名稱 難度等級 人類平均思考時間 模型表現
GSM8K 小學應用題 5 秒 已達人類水準
MATH 中學競賽題 5–10 分鐘 準確率大幅提升
AIME 奧數初階 30–60 分鐘 穩定突破
IMO 世界頂尖 1–2 小時 奪得金牌級 35 分

這條「時間跨度進步曲線」說明:AI 已從「秒級回答」進化到「小時級深度思考」,並在過程中展現持續創造力。

專家怎麼看?Gary Marcus 罕見給出「令人印象深刻」評價

一向對 AGI 進展持保守態度的紐約大學教授 Gary Marcus,此次也公開表示:「成果當然令人印象深刻,但它究竟意味著什麼,仍有待觀察。」能讓最嚴厲的批評者鬆口,足以凸顯「推理大模型」的突破性。

下一步:GPT-5 與強化學習的 10 倍算力軍備競賽

OpenAI 執行長 Sam Altman 透露,奪金模型並非即將發布的 GPT-5,而是實驗性研究版本;真正的「IMO 金牌模型」預計還需數月打磨。與此同時,業界正把強化學習(RL)計算量推向新高:Grok 4 在基礎模型不變的前提下,投入 10 倍 RL 算力,即成為首個在 IMO 風格測試中突破 10% 正確率的系統。這預示著「推理大模型」仍有巨大上升空間。

結語:當 AI 略勝人類,世界將不可逆轉地改變

OpenAI 表示,這只是一個實驗性模型,尚未整合到即將發布的 GPT-5 中。但這一成就預示著:

  • 科學研究的加速:AI 可能很快就能為數學、物理等領域帶來突破性發現。
  • AGI 的臨近:當 AI 在多個領域達到或超越人類頂尖水平時,通用智能的實現將不再遙遠。
正如研究員 Noam Brown 所言:「AI 表現略低於人類與略高於人類之間,存在天壤之別。」當「推理大模型」在 IMO 這座 AGI 聖杯上奪金,我們已站在歷史轉折點——留給人類適應的時間,真的不多了。

FAQ

1. 問:「推理大模型」是如何在國際數學奧林匹亞(IMO)奪得金牌?

答:「推理大模型」以通用大語言模型實現智能推理能力,能直接讀取並理解問題,並使用自然語言進行證明。它在 2025 年 IMO 模擬測試中以 35/42 分的成績奪得金牌,展現了跨領域的邏輯與創造力。

2. 問:「推理大模型」如何優於 Google DeepMind 的系統?

答:Google DeepMind 使用兩套專用模型 AlphaGeometry 與 AlphaProof 並需要人工轉譯題目,而「推理大模型」完全不需人工介入,直接讀取 IMO 題目,並勝出以自然語言證明方式展現通用能力。

3. 問:「推理大模型」對通用人工智慧(AGI)發展有什麼意義?

答:這一突破展示了 AI 從專用工具進化為具備人類般抽象思考、創造性解題、以及自我驗證能力的通用智能,標誌著 AI 向 AGI 的關鍵邁進。

4. 問:研究者如何評估「推理大模型」的性能?

答:通過分析其在各級數學基準(如小學應用題到數學奧林匹克題)上的表現,其中展現出 AI 已具備長時間深度推理與穩定創造性的能力,並在高難度題上超越人類。

5. 問:「推理大模型」的下一步發展計劃是什麼?

答:OpenAI 計劃進一步強化推理能力與運算效率,未來版本或可更加穩定優化數學創造性問題的解決,同時探索強化學習和算力提升的技術可能性。


參考資料


作者觀點

作者:Ewan(Tech Lead of Tenten AI

作為長期追蹤 AI 進展的技術觀察者,我認為「推理大模型」在 IMO 奪金的意義遠超數學本身。它證明了大語言模型已從「語言預測器」進化為「通用思考者」,並在最具挑戰性的抽象推理任務上超越人類。這不僅是演算法與算力的勝利,更是人類對「理解」與「創造」本質的重新定義。接下來的關鍵問題不再是「AI 能否思考」,而是「人類如何與比自己更會思考的存在共存」。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...