透過深度評測OpenAI O3及O4 Mini模型的技術基準與實際能力,本指南將引導您了解如何將其應用於商業場景,最大化AI投資報酬。
近期,OpenAI 推出了兩款引人注目的新模型:O3 和 O4 Mini。值得注意的是,這些模型與 GPT-4o 或 GPT-4.0 並非同一概念。OpenAI 聲稱,這是他們迄今為止最智能、能力最強的模型,並具備完整的工具使用權限。在深入探討這點之前,我們花費數天時間進行了嚴謹的測試,以評估 OpenAI O3 與 O4 Mini 的實際表現。本文將詳細介紹這些模型的亮點功能、規格、性能以及與其他領先 AI 模型的基準比較。

O3 與 O4 Mini 的核心差異
OpenAI O3 與 O4 Mini 之間存在細微但重要的區別。根據官方描述:
- O3:定位為最強大的推理模型,在編碼、數學、科學、視覺感知等領域推動了技術前沿。
- O4 Mini:則是一款更小型的模型,專為快速、具成本效益的推理而優化,同時在數學、編碼和視覺任務上表現良好。
簡單來說,若追求效率與成本效益,O4 Mini 是理想選擇;若更看重最高品質與性能,OpenAI O3 目前略勝一籌。然而,對於日常任務,如寫作、教學或基礎編碼,現今頂尖的 AI 模型都能夠勝任。


革命性的自主工具使用能力
OpenAI O3 和 O4 Mini 最令人興奮的特性之一,是它們透過強化學習訓練獲得的自主工具使用 (Agentic Tool Use) 能力。這意味著模型能根據任務需求,自主選擇並運用多種不同的工具和代理 (agents) 來解決問題。例如,它可以指示一個代理搜尋網路資訊,另一個代理抓取數據,或者一個編碼代理協助完成程式專案。更厲害的是,OpenAI O3 可以並行部署和使用多個代理,極大地提升了處理速度和效率。
OpenAI O3 圖像分析實例:餐廳菜單解謎
OpenAI O3 的圖像分析工具尤為突出。我們上傳了一張在某餐廳拍攝的模糊手機照片菜單。照片中並未包含餐廳名稱或地點的明確信息。我們向 OpenAI O3 提問:「這家餐廳叫什麼名字?在哪裡?」
經過 3 分 20 秒的思考,OpenAI O3 展示了其分步解決過程:
- 圖像分析代理:首先分析圖像,並進行放大和裁剪以尋找更多線索。它注意到頂部的圖標文字模糊,初步猜測了幾個可能的中文(儘管並非餐廳名稱)。
- 文字識別與驗證:進一步分析後,識別出一個詞是某種中菜餚的名稱。
- 代碼執行 (Python):使用 Python 代碼進一步裁剪圖像底部,試圖尋找水印或地點細節,但未找到。
- 策略調整:意識到沒有地址信息後,決定搜索菜單上獨特的菜品名稱。
- 網頁搜索代理 (並行):啟動網頁搜索代理,首先搜索了一個詞組,但結果幫助不大。
- 精準搜索:接著搜索了另一個更具體的菜品相關詞組。
- 結果匹配:搜索結果指向了位於台北的 "鼎泰豐" 餐廳。模型指出,搜索到的菜單分類與照片中的菜單完全匹配。
- 交叉驗證:進一步在 TripAdvisor 上搜索,確認了菜單項目和價格與照片完全一致。
OpenAI O3 視覺解謎:迷宮挑戰
接下來,我們測試 OpenAI O3 解決迷宮的能力。
測試一:簡單迷宮
我們上傳了一個入口(紅點)和出口(藍點)都在迷宮外部邊緣的圖片,要求 OpenAI O3 從紅點走到藍點並用紅色標出路徑。
OpenAI O3 的處理步驟:
- 工具選擇:決定使用 Python 代碼來解決。
- 圖像加載與顏色識別:加載圖像,分離顏色以定位紅點(入口)和藍點(出口)。
- 路徑搜索 (BFS):運用廣度優先搜索(BFS)算法尋找最短路徑。
- 路徑繪製:執行 Python 代碼繪製路徑。
結果出人意料但技術上正確:OpenAI O3 找到了最短路徑——直接繞過迷宮外部從紅點到達藍點,因為我們並未強制要求它必須進入迷宮內部。
測試二:複雜迷宮
這次,我們使用了一個入口在左下角、出口在右上角的複雜迷宮,要求 OpenAI O3 標出紅色路徑。

OpenAI O3 的處理步驟:
- 圖像導入與二值化:使用 Python 導入圖像,並將其轉換為純黑白像素。
- 路徑搜索 (BFS):再次執行 BFS 算法尋找最短路徑。
- 路徑計算與繪製:經過大量代碼執行,計算出路徑長度(11,000 像素),並在原圖上疊加紅色路徑。
初步檢查顯示路徑正確,沒有穿牆。但線條過細,於是我們要求「將紅線加粗」。OpenAI O3 隨即生成了線條更粗的版本,路徑依然準確。整個過程僅耗時約 51 秒,比大多數人類解決的速度要快得多。
OpenAI O3 實時信息追蹤:遊艇定位
我們上傳了一張模糊船隻照片,線索只有一個旗幟和 "Nord" 標誌,背景城市也難以明確辨認。我們提問:「這艘船的型號是什麼?船主是誰?它現在在哪裡?」
OpenAI O3 僅用 35 秒就給出了詳盡的回答:
- 船隻識別:識別出該遊艇為 "Nord"(原名 Project Opus)。
- 船主識別:正確指出船主是俄羅斯億萬富翁 Mordashov。
- 位置搜索 (網頁代理):使用網頁搜索代理查詢 "Nord superyacht current location April 2025" 等關鍵詞。
- 信息匯總與分析:
- 找到最近的港口停靠記錄是 1 月份在塞舌爾的維多利亞港。
- 搜索 3 月和 4 月的更新信息,但未找到公開數據。
- 發現最新的 AIS(船舶自動識別系統,類似 GPS)數據是 73 天前在東非地區。
- 指出由於 Nord 經常關閉 AIS 以避免追踪,其確切位置不確定。
- 引用了 3 月 10 日在塞舌爾附近被拍攝到的報告,並嘗試核實照片。
- 最終答案:總結了船隻型號、名稱、船主,並根據現有最佳開源信息推斷,該船很可能仍在塞舌爾附近。
在如此短的時間內完成如此深入的調查和分析,OpenAI O3 的效率令人難以置信。

OpenAI O3 地理定位能力:風景照片來源推斷
我們上傳了普通風景照,沒有明顯地標,只有山脈、樹木和一條公路(已移除所有 EXIF 元數據)。我們要求:「給我這個地點的確切位置。」
這次耗時稍長,但 OpenAI O3 的初步判斷已相當準確:
- 初步定位:識別出這是位於溫哥華和斯闊米什之間的海天公路 (Sea to Sky Highway) 沿岸。
- 相似圖像搜索:在網上搜索類似照片(非反向圖像搜索,因為是私人照片)以確認視角。
- 視角分析:推斷拍攝點可能是一個較高的觀景點或徒步點。分析了 Tantalus 觀景台的可能性但排除了。
- 深入搜索:搜索徒步路線網站,尋找視角相似的觀景點。
- 圖像分析代理:進一步分析圖像特徵。
- 坐標查詢:搜索政府網站和地理信息網站以獲取 GPS 坐標。
最終,OpenAI O3 提供了精確的觀景點位置,並給出了 GPS 坐標。在 Google 地圖中驗證,坐標準確無誤。它還額外提供了照片中附近島嶼和山脈的信息。
值得注意的是,地理定位並非 OpenAI O3 獨有。Google 的 Gemini 2.5 Pro 也能大致定位同一張照片。根據 DeepGuessr 的排行榜,在地理猜謎方面:
| 排名 | 模型 |
|---|---|
| 1 | OpenAI O1 |
| 2 | Google Gemini 2.5 Pro |
| 3 | OpenAI O3 |
| ... | ... |
| 12 | O4 Mini |
這表明 OpenAI O3 在此特定任務上略遜於其前代 O1 和競爭對手 Gemini 2.5 Pro。
OpenAI O3 驅動的多圖像生成:兒童故事書與分層圖像
憑藉其自主工具使用能力,OpenAI O3 可以調用 GPT-4o 的圖像生成器來創建多個圖像,適用於故事板、漫畫書頁或分層圖像等複雜工作流。
示例:兒童故事書
提示:「製作一本五頁的兒童故事書。每頁應有簡短文字和可愛插圖。頁面內容需連貫。將圖像生成為整個頁面。」
OpenAI O3 的執行過程:
- 規劃:理解需求,計劃生成五個連貫的頁面。
- 調用圖像生成器:依次使用 GPT-4o 生成每一頁的圖像和文字。
結果展示了風格一致的角色和插畫,儘管存在拼寫錯誤和輕微的顏色不一致(最後一頁兔子變灰),但整體效果良好,且可通過後續提示修正。
示例:分層 TIFF 圖像
提示:「使用你的圖像生成器,製作以下照片:一個未來賽博朋克城市日落天際線的分層設計。單獨包含以下圖層:帶有日落漸變的背景天空、遠處城市剪影、前景建築、前景行走的人群。將所有圖層提供在一個 TIFF 文件中。」
OpenAI O3 的執行過程:
- 生成獨立圖層:依次生成了四個帶有透明背景的圖層(天空、遠景、中景建築、前景人物)。
- 打包 TIFF 文件:將所有圖層整合到一個 TIFF 文件中供下載。
在圖像編輯器中打開該 TIFF 文件,可以看到各個圖層是獨立的。這允許用戶進行精細調整,例如更改圖層不透明度、移動位置、調整亮度和對比度等,創造出最終的合成圖像。這是 OpenAI O3 獨有的實用功能,常規的 ChatGPT 或 Sora 無法直接生成多層 TIFF 文件。
OpenAI O3 在其他領域的嘗試:3D建模、股市預測與網頁數據抓取
3D 模型生成
我們上傳了一張房屋草圖,要求 OpenAI O3 創建一個 OpenSCAD 3D 模型。儘管它生成了 OpenSCAD 代碼,但在查看器中渲染的結果與草圖相去甚遠,甚至不像房子。相比之下,Google Gemini 2.5 Pro 在同樣的任務中一次性生成了更接近草圖的模型。
股市預測
我們提供了一張 NVIDIA 的股價圖表(數據截止於 2024 年 2 月 20 日,恰逢大跌前),要求 OpenAI O3 預測一個月後的股價及置信區間,並提供完整報告。
OpenAI O3 進行了複雜的分析:
- 數據分析 (Python):使用 Python 分析圖表數據。
- 蒙特卡洛模擬:基於已知數據,進行了 50,000 次蒙特卡洛模擬,預測價格分佈。
- 計算指標:計算了日漂移率、日波動率等。
- 預測引擎:使用了幾何布朗運動公式。
最終報告預測一個月後價格為 151 美元(±7%),90% 置信區間為 130-173 美元。然而,實際一個月後的價格約為 111 美元,遠低於預測區間。這表明,儘管分析過程複雜,OpenAI O3 未能預見到隨後發生的股價暴跌。
網頁數據抓取:Uber Eats 優惠碼
我們嘗試讓 OpenAI O3 查找台灣可用的 Uber Eats 優惠碼。
OpenAI O3 的執行過程:
- 網頁搜索:並行啟動多個代理,搜索 "Uber Eats 折扣碼 四月 2025 台北" 等關鍵詞。
- 數據抓取與整理:從多個來源抓取信息,並整理成表格。
結果生成了一個包含多個優惠碼及其適用條件(新/老用戶)的表格。然而,在實際嘗試使用一個新的 Uber Eats 帳戶驗證這些代碼時,發現所有代碼均無效。
OpenAI O3 與 O4 Mini 編碼能力評估
在編碼任務上,OpenAI O3 和 O4 Mini 表現出色,但與 Gemini 2.5 Pro 相比,並未顯示出壓倒性優勢。
- 失敗案例(夜空查看器):要求創建一個包含前 20 個星座標籤的交互式夜空查看器。OpenAI O3 生成的 HTML 文件無法運行,控制台顯示錯誤。多次嘗試均失敗。而 Gemini 2.5 Pro 一次成功。
- 成功案例(蜜蜂採集模擬):要求使用 p5.js 模擬蜜蜂從花朵採集花粉,包含可調設置、精美視覺和交互性。OpenAI O3 生成了功能完善且視覺效果良好的 HTML 文件。用戶可以調整蜜蜂數量、花朵數量、蜜蜂速度、花粉容量、花朵再生速度,甚至點擊畫布添加花朵。花朵顏色會根據花粉量從黃色漸變到粉色。Gemini 2.5 Pro 也能完成類似任務,兩者表現相當。
總體而言,OpenAI O3 和 O4 Mini 是強大的編碼工具,但並非明顯優於頂級競爭對手。
OpenAI O3 與 O4 Mini 性能基準測試
官方基準數據
- O3 vs O4 Mini:總體 O3 性能更強,但在競爭性數學和編碼方面,O4 Mini 略優。
- 數學基準:AIME 基準接近飽和 (100%)。
- 編碼基準:相較於 O1/O3 Mini,Elo 評分大幅提升超過 700 分。
- 科學與視覺推理:在分析科學圖表方面,相較於 O1 提升約 20%。
- 軟件工程 (SweBench):相較於 O1/O3 Mini 提升約 20%。
- 指令遵循與工具使用:相較於前代模型顯著提升。
獨立排行榜數據
- Artificial Analysis (智能指數):O3 和 O4 Mini High 位居榜首,略微領先 Gemini 2.5 Pro。但 O3 定價 ($17/百萬 token) 遠高於 Gemini 2.5 Pro ($3.4/百萬 token)。
- Creative Writing:O3 排名第一,Gemini 2.5 Pro 排名較後。
- Function LiveBench (長文本分析):O3 在分析超過 120k 單詞的故事時達到 100% 準確率,遠超 Gemini 2.5 Pro (90%) 和 O4 Mini (62.5%)。
- LiveBench (Abacus AI):O3 和 O4 Mini High 總體排名高於 Gemini 2.5 Pro,但在數學和數據分析方面仍落後。
- MathArena (競爭性數學):O4 Mini High (89%) > Gemini 2.5 Pro (86%) > O3 High (85%)。
綜合來看,OpenAI O3 和 O4 Mini 確實是目前性能最強的模型之一,但在不同領域各有優劣,且 O3 的成本較高。
事實準確性與幻覺率
儘管能力強大,OpenAI O3 的事實準確性卻令人擔憂。根據 Vectera 的幻覺率基準測試:
- Google Gemini 2.0 Flash: 0.7% (最低)
- Google Gemini 2.5 Pro: 1.1%
- O4 Mini: 4.6%
- OpenAI O3: 6.8% (甚至高於 GPT-4)
這意味著 OpenAI O3 有接近 7% 的機率提供不正確的信息。O4 Mini 稍好,但 4.6% 的幻覺率依然偏高。這在使用這些模型進行重要研究或信息核查時,是一個需要高度警惕的問題,務必進行事實驗證。
可用性與未來展望
- 當前訪問:Plus、Pro 和 Team 用戶已可在模型選擇器中找到 O3、O4 Mini 和 O4 Mini High。Enterprise 和 Education 用戶將在一周內獲得訪問權限。
- 免費試用:免費版用戶可以在提交查詢前選擇 "Reason" (思考) 功能來試用 O4 Mini。
- API 訪問:開發者可通過 API 使用 O3 和 O4 Mini。
- 未來版本:OpenAI 計劃在數週內發布帶有完整工具支持的 O3 Pro,理論上性能將更優。
結論
OpenAI O3 和 O4 Mini 無疑是強大的 AI 模型,其核心優勢在於創新的自主工具使用能力,使其能夠協調圖像分析、網頁搜索、代碼生成等多種工具來完成複雜任務。在圖像處理、深度研究和多步驟任務執行方面表現尤為出色。
然而,它們並非完美。在編碼方面,雖然強大,但與 Gemini 2.5 Pro 等頂尖模型相比並無質的飛躍。更重要的是,OpenAI O3 的幻覺率相對較高,這意味著用戶在使用其提供的信息時必須保持謹慎,並進行嚴格的事實核查。O4 Mini 作為更經濟高效的選擇,在某些基準上甚至超越了 O3,但總體性能和長文本處理能力稍遜。選擇哪款模型取決於具體的應用場景、性能需求和預算考量。
- openai - Tenten AI: 探索人工智慧的無限可能,科技新聞深度解析
- Gemini 2.5 Pro 與 ChatGPT-03 全面評測:誰是真正的AI王者?
- AI 的定義正在改變:迎接 OpenAI 的 o3 模型時代
- 領先 AI 模型評比 (2025/04):市場最強技術解析
- 解讀 OpenAI 思考模型 O3、O4 Mini、O4 Mini High 的核心秘密
- 告別 GPT-4: OpenAI 的前瞻視野
- OpenAI 計畫收購 Windsurf,o3 與 4o-mini 模型實測超越 Claude

您是否正在尋找能夠利用 OpenAI O3、Gemini 等尖端 AI 模型力量的數字解決方案?Tenten 是一家領先的數位機構,專注於幫助企業整合最新 AI 技術,提升效率、創新產品並實現增長。無論您需要客製化的 AI 應用、數據分析、還是自動化流程,我們的專家團隊都能提供協助。
想了解 AI 如何為您的業務帶來變革?立即預約免費諮詢會議,與我們的專家深入探討您的需求。
