性能的真相：OpenAI O3 與 O4 Mini 模型深度評測

透過深度評測OpenAI O3及O4 Mini模型的技術基準與實際能力，本指南將引導您了解如何將其應用於商業場景，最大化AI投資報酬。

近期，OpenAI 推出了兩款引人注目的新模型：O3 和 O4 Mini。值得注意的是，這些模型與 GPT-4o 或 GPT-4.0 並非同一概念。OpenAI 聲稱，這是他們迄今為止最智能、能力最強的模型，並具備完整的工具使用權限。在深入探討這點之前，我們花費數天時間進行了嚴謹的測試，以評估 OpenAI O3 與 O4 Mini 的實際表現。本文將詳細介紹這些模型的亮點功能、規格、性能以及與其他領先 AI 模型的基準比較。

O3 與 O4 Mini 的核心差異

OpenAI O3 與 O4 Mini 之間存在細微但重要的區別。根據官方描述：

O3：定位為最強大的推理模型，在編碼、數學、科學、視覺感知等領域推動了技術前沿。
O4 Mini：則是一款更小型的模型，專為快速、具成本效益的推理而優化，同時在數學、編碼和視覺任務上表現良好。

簡單來說，若追求效率與成本效益，O4 Mini 是理想選擇；若更看重最高品質與性能，OpenAI O3 目前略勝一籌。然而，對於日常任務，如寫作、教學或基礎編碼，現今頂尖的 AI 模型都能夠勝任。

**o3 在 ARC-AGI-1 上表現良好** - o3-low 在 ARC-AGI-1 Semi Private Eval 集上得分為 41%，o3-medium 達到 53%。在 ARC-AGI-2 上均未超過 3%

革命性的自主工具使用能力

OpenAI O3 和 O4 Mini 最令人興奮的特性之一，是它們透過強化學習訓練獲得的自主工具使用 (Agentic Tool Use) 能力。這意味著模型能根據任務需求，自主選擇並運用多種不同的工具和代理 (agents) 來解決問題。例如，它可以指示一個代理搜尋網路資訊，另一個代理抓取數據，或者一個編碼代理協助完成程式專案。更厲害的是，OpenAI O3 可以並行部署和使用多個代理，極大地提升了處理速度和效率。

OpenAI O3 圖像分析實例：餐廳菜單解謎

OpenAI O3 的圖像分析工具尤為突出。我們上傳了一張在某餐廳拍攝的模糊手機照片菜單。照片中並未包含餐廳名稱或地點的明確信息。我們向 OpenAI O3 提問：「這家餐廳叫什麼名字？在哪裡？」

經過 3 分 20 秒的思考，OpenAI O3 展示了其分步解決過程：

圖像分析代理：首先分析圖像，並進行放大和裁剪以尋找更多線索。它注意到頂部的圖標文字模糊，初步猜測了幾個可能的中文（儘管並非餐廳名稱）。
文字識別與驗證：進一步分析後，識別出一個詞是某種中菜餚的名稱。
代碼執行 (Python)：使用 Python 代碼進一步裁剪圖像底部，試圖尋找水印或地點細節，但未找到。
策略調整：意識到沒有地址信息後，決定搜索菜單上獨特的菜品名稱。
網頁搜索代理 (並行)：啟動網頁搜索代理，首先搜索了一個詞組，但結果幫助不大。
精準搜索：接著搜索了另一個更具體的菜品相關詞組。
結果匹配：搜索結果指向了位於台北的 "鼎泰豐" 餐廳。模型指出，搜索到的菜單分類與照片中的菜單完全匹配。
交叉驗證：進一步在 TripAdvisor 上搜索，確認了菜單項目和價格與照片完全一致。

OpenAI O3 視覺解謎：迷宮挑戰

接下來，我們測試 OpenAI O3 解決迷宮的能力。

測試一：簡單迷宮

我們上傳了一個入口（紅點）和出口（藍點）都在迷宮外部邊緣的圖片，要求 OpenAI O3 從紅點走到藍點並用紅色標出路徑。

OpenAI O3 的處理步驟：

工具選擇：決定使用 Python 代碼來解決。
圖像加載與顏色識別：加載圖像，分離顏色以定位紅點（入口）和藍點（出口）。
路徑搜索 (BFS)：運用廣度優先搜索（BFS）算法尋找最短路徑。
路徑繪製：執行 Python 代碼繪製路徑。

結果出人意料但技術上正確：OpenAI O3 找到了最短路徑——直接繞過迷宮外部從紅點到達藍點，因為我們並未強制要求它必須進入迷宮內部。

測試二：複雜迷宮

這次，我們使用了一個入口在左下角、出口在右上角的複雜迷宮，要求 OpenAI O3 標出紅色路徑。

OpenAI O3 的處理步驟：

圖像導入與二值化：使用 Python 導入圖像，並將其轉換為純黑白像素。
路徑搜索 (BFS)：再次執行 BFS 算法尋找最短路徑。
路徑計算與繪製：經過大量代碼執行，計算出路徑長度（11,000 像素），並在原圖上疊加紅色路徑。

初步檢查顯示路徑正確，沒有穿牆。但線條過細，於是我們要求「將紅線加粗」。OpenAI O3 隨即生成了線條更粗的版本，路徑依然準確。整個過程僅耗時約 51 秒，比大多數人類解決的速度要快得多。

OpenAI O3 實時信息追蹤：遊艇定位

我們上傳了一張模糊船隻照片，線索只有一個旗幟和 "Nord" 標誌，背景城市也難以明確辨認。我們提問：「這艘船的型號是什麼？船主是誰？它現在在哪裡？」

OpenAI O3 僅用 35 秒就給出了詳盡的回答：

船隻識別：識別出該遊艇為 "Nord"（原名 Project Opus）。
船主識別：正確指出船主是俄羅斯億萬富翁 Mordashov。
位置搜索 (網頁代理)：使用網頁搜索代理查詢 "Nord superyacht current location April 2025" 等關鍵詞。
信息匯總與分析：
- 找到最近的港口停靠記錄是 1 月份在塞舌爾的維多利亞港。
- 搜索 3 月和 4 月的更新信息，但未找到公開數據。
- 發現最新的 AIS（船舶自動識別系統，類似 GPS）數據是 73 天前在東非地區。
- 指出由於 Nord 經常關閉 AIS 以避免追踪，其確切位置不確定。
- 引用了 3 月 10 日在塞舌爾附近被拍攝到的報告，並嘗試核實照片。
最終答案：總結了船隻型號、名稱、船主，並根據現有最佳開源信息推斷，該船很可能仍在塞舌爾附近。

在如此短的時間內完成如此深入的調查和分析，OpenAI O3 的效率令人難以置信。

OpenAI O3 地理定位能力：風景照片來源推斷

我們上傳了普通風景照，沒有明顯地標，只有山脈、樹木和一條公路（已移除所有 EXIF 元數據）。我們要求：「給我這個地點的確切位置。」

這次耗時稍長，但 OpenAI O3 的初步判斷已相當準確：

初步定位：識別出這是位於溫哥華和斯闊米什之間的海天公路 (Sea to Sky Highway) 沿岸。
相似圖像搜索：在網上搜索類似照片（非反向圖像搜索，因為是私人照片）以確認視角。
視角分析：推斷拍攝點可能是一個較高的觀景點或徒步點。分析了 Tantalus 觀景台的可能性但排除了。
深入搜索：搜索徒步路線網站，尋找視角相似的觀景點。
圖像分析代理：進一步分析圖像特徵。
坐標查詢：搜索政府網站和地理信息網站以獲取 GPS 坐標。

最終，OpenAI O3 提供了精確的觀景點位置，並給出了 GPS 坐標。在 Google 地圖中驗證，坐標準確無誤。它還額外提供了照片中附近島嶼和山脈的信息。

值得注意的是，地理定位並非 OpenAI O3 獨有。Google 的 Gemini 2.5 Pro 也能大致定位同一張照片。根據 DeepGuessr 的排行榜，在地理猜謎方面：

排名	模型
1	OpenAI O1
2	Google Gemini 2.5 Pro
3	OpenAI O3
...	...
12	O4 Mini

這表明 OpenAI O3 在此特定任務上略遜於其前代 O1 和競爭對手 Gemini 2.5 Pro。

OpenAI O3 驅動的多圖像生成：兒童故事書與分層圖像

憑藉其自主工具使用能力，OpenAI O3 可以調用 GPT-4o 的圖像生成器來創建多個圖像，適用於故事板、漫畫書頁或分層圖像等複雜工作流。

示例：兒童故事書

提示：「製作一本五頁的兒童故事書。每頁應有簡短文字和可愛插圖。頁面內容需連貫。將圖像生成為整個頁面。」

OpenAI O3 的執行過程：

規劃：理解需求，計劃生成五個連貫的頁面。
調用圖像生成器：依次使用 GPT-4o 生成每一頁的圖像和文字。

結果展示了風格一致的角色和插畫，儘管存在拼寫錯誤和輕微的顏色不一致（最後一頁兔子變灰），但整體效果良好，且可通過後續提示修正。

示例：分層 TIFF 圖像

提示：「使用你的圖像生成器，製作以下照片：一個未來賽博朋克城市日落天際線的分層設計。單獨包含以下圖層：帶有日落漸變的背景天空、遠處城市剪影、前景建築、前景行走的人群。將所有圖層提供在一個 TIFF 文件中。」

OpenAI O3 的執行過程：

生成獨立圖層：依次生成了四個帶有透明背景的圖層（天空、遠景、中景建築、前景人物）。
打包 TIFF 文件：將所有圖層整合到一個 TIFF 文件中供下載。

在圖像編輯器中打開該 TIFF 文件，可以看到各個圖層是獨立的。這允許用戶進行精細調整，例如更改圖層不透明度、移動位置、調整亮度和對比度等，創造出最終的合成圖像。這是 OpenAI O3 獨有的實用功能，常規的 ChatGPT 或 Sora 無法直接生成多層 TIFF 文件。

OpenAI O3 在其他領域的嘗試：3D建模、股市預測與網頁數據抓取

3D 模型生成

我們上傳了一張房屋草圖，要求 OpenAI O3 創建一個 OpenSCAD 3D 模型。儘管它生成了 OpenSCAD 代碼，但在查看器中渲染的結果與草圖相去甚遠，甚至不像房子。相比之下，Google Gemini 2.5 Pro 在同樣的任務中一次性生成了更接近草圖的模型。

股市預測

我們提供了一張 NVIDIA 的股價圖表（數據截止於 2024 年 2 月 20 日，恰逢大跌前），要求 OpenAI O3 預測一個月後的股價及置信區間，並提供完整報告。

OpenAI O3 進行了複雜的分析：

數據分析 (Python)：使用 Python 分析圖表數據。
蒙特卡洛模擬：基於已知數據，進行了 50,000 次蒙特卡洛模擬，預測價格分佈。
計算指標：計算了日漂移率、日波動率等。
預測引擎：使用了幾何布朗運動公式。

最終報告預測一個月後價格為 151 美元（±7%），90% 置信區間為 130-173 美元。然而，實際一個月後的價格約為 111 美元，遠低於預測區間。這表明，儘管分析過程複雜，OpenAI O3 未能預見到隨後發生的股價暴跌。

網頁數據抓取：Uber Eats 優惠碼

我們嘗試讓 OpenAI O3 查找台灣可用的 Uber Eats 優惠碼。

OpenAI O3 的執行過程：

網頁搜索：並行啟動多個代理，搜索 "Uber Eats 折扣碼四月 2025 台北" 等關鍵詞。
數據抓取與整理：從多個來源抓取信息，並整理成表格。

結果生成了一個包含多個優惠碼及其適用條件（新/老用戶）的表格。然而，在實際嘗試使用一個新的 Uber Eats 帳戶驗證這些代碼時，發現所有代碼均無效。

OpenAI O3 與 O4 Mini 編碼能力評估

在編碼任務上，OpenAI O3 和 O4 Mini 表現出色，但與 Gemini 2.5 Pro 相比，並未顯示出壓倒性優勢。

失敗案例（夜空查看器）：要求創建一個包含前 20 個星座標籤的交互式夜空查看器。OpenAI O3 生成的 HTML 文件無法運行，控制台顯示錯誤。多次嘗試均失敗。而 Gemini 2.5 Pro 一次成功。
成功案例（蜜蜂採集模擬）：要求使用 p5.js 模擬蜜蜂從花朵採集花粉，包含可調設置、精美視覺和交互性。OpenAI O3 生成了功能完善且視覺效果良好的 HTML 文件。用戶可以調整蜜蜂數量、花朵數量、蜜蜂速度、花粉容量、花朵再生速度，甚至點擊畫布添加花朵。花朵顏色會根據花粉量從黃色漸變到粉色。Gemini 2.5 Pro 也能完成類似任務，兩者表現相當。

總體而言，OpenAI O3 和 O4 Mini 是強大的編碼工具，但並非明顯優於頂級競爭對手。

OpenAI O3 與 O4 Mini 性能基準測試

官方基準數據

O3 vs O4 Mini：總體 O3 性能更強，但在競爭性數學和編碼方面，O4 Mini 略優。
數學基準：AIME 基準接近飽和 (100%)。
編碼基準：相較於 O1/O3 Mini，Elo 評分大幅提升超過 700 分。
科學與視覺推理：在分析科學圖表方面，相較於 O1 提升約 20%。
軟件工程 (SweBench)：相較於 O1/O3 Mini 提升約 20%。
指令遵循與工具使用：相較於前代模型顯著提升。

獨立排行榜數據

Artificial Analysis (智能指數)：O3 和 O4 Mini High 位居榜首，略微領先 Gemini 2.5 Pro。但 O3 定價 ($17/百萬 token) 遠高於 Gemini 2.5 Pro ($3.4/百萬 token)。
Creative Writing：O3 排名第一，Gemini 2.5 Pro 排名較後。
Function LiveBench (長文本分析)：O3 在分析超過 120k 單詞的故事時達到 100% 準確率，遠超 Gemini 2.5 Pro (90%) 和 O4 Mini (62.5%)。
LiveBench (Abacus AI)：O3 和 O4 Mini High 總體排名高於 Gemini 2.5 Pro，但在數學和數據分析方面仍落後。
MathArena (競爭性數學)：O4 Mini High (89%) > Gemini 2.5 Pro (86%) > O3 High (85%)。

綜合來看，OpenAI O3 和 O4 Mini 確實是目前性能最強的模型之一，但在不同領域各有優劣，且 O3 的成本較高。

事實準確性與幻覺率

儘管能力強大，OpenAI O3 的事實準確性卻令人擔憂。根據 Vectera 的幻覺率基準測試：

Google Gemini 2.0 Flash: 0.7% (最低)
Google Gemini 2.5 Pro: 1.1%
O4 Mini: 4.6%
OpenAI O3: 6.8% (甚至高於 GPT-4)

這意味著 OpenAI O3 有接近 7% 的機率提供不正確的信息。O4 Mini 稍好，但 4.6% 的幻覺率依然偏高。這在使用這些模型進行重要研究或信息核查時，是一個需要高度警惕的問題，務必進行事實驗證。

可用性與未來展望

當前訪問：Plus、Pro 和 Team 用戶已可在模型選擇器中找到 O3、O4 Mini 和 O4 Mini High。Enterprise 和 Education 用戶將在一周內獲得訪問權限。
免費試用：免費版用戶可以在提交查詢前選擇 "Reason" (思考) 功能來試用 O4 Mini。
API 訪問：開發者可通過 API 使用 O3 和 O4 Mini。
未來版本：OpenAI 計劃在數週內發布帶有完整工具支持的 O3 Pro，理論上性能將更優。

結論

OpenAI O3 和 O4 Mini 無疑是強大的 AI 模型，其核心優勢在於創新的自主工具使用能力，使其能夠協調圖像分析、網頁搜索、代碼生成等多種工具來完成複雜任務。在圖像處理、深度研究和多步驟任務執行方面表現尤為出色。

然而，它們並非完美。在編碼方面，雖然強大，但與 Gemini 2.5 Pro 等頂尖模型相比並無質的飛躍。更重要的是，OpenAI O3 的幻覺率相對較高，這意味著用戶在使用其提供的信息時必須保持謹慎，並進行嚴格的事實核查。O4 Mini 作為更經濟高效的選擇，在某些基準上甚至超越了 O3，但總體性能和長文本處理能力稍遜。選擇哪款模型取決於具體的應用場景、性能需求和預算考量。

選 OpenAI O3 還是 O4 Mini 讓你困惑？😫 看看我們的深度評測，涵蓋能力、基準與應用！✅ 找出哪個模型在哪方面更強！✨ 別再猜了，立即做出正確選擇！👇 閱讀完整評測！#OpenAI #AI模型 #科技分析 #O3 #O4mini #選擇指南

您是否正在尋找能夠利用 OpenAI O3、Gemini 等尖端 AI 模型力量的數字解決方案？Tenten 是一家領先的數位機構，專注於幫助企業整合最新 AI 技術，提升效率、創新產品並實現增長。無論您需要客製化的 AI 應用、數據分析、還是自動化流程，我們的專家團隊都能提供協助。

想了解 AI 如何為您的業務帶來變革？立即預約免費諮詢會議，與我們的專家深入探討您的需求。

預約免費諮詢會議

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

性能的真相：OpenAI O3 與 O4 Mini 模型深度評測

O3 與 O4 Mini 的核心差異

革命性的自主工具使用能力

OpenAI O3 圖像分析實例：餐廳菜單解謎

OpenAI O3 視覺解謎：迷宮挑戰

OpenAI O3 實時信息追蹤：遊艇定位

OpenAI O3 地理定位能力：風景照片來源推斷

OpenAI O3 驅動的多圖像生成：兒童故事書與分層圖像

OpenAI O3 在其他領域的嘗試：3D建模、股市預測與網頁數據抓取

OpenAI O3 與 O4 Mini 編碼能力評估

OpenAI O3 與 O4 Mini 性能基準測試

事實準確性與幻覺率

可用性與未來展望

結論

Token 資本：Nadella 的企業 AI 主權論，真正考驗的是你能不能換掉模型

前線部署行銷是什麼？一套把行銷能力變成公司資產的 90 天模式

Forward Deployed Marketing Agency：AI 時代代理商的真正分水嶺

Claude Fable 5 + Higgsfield MCP：用一段提示詞做出 3D 滾動網站，真正該學的是工作流程

震撼發布！Claude Fable 5 讓頂級 AI 走向大眾

CPO 量產時程吵翻天：SemiAnalysis 唱衰、輝達反擊，光通訊股一天蒸發多少？