在 LM Arena 排行榜上,GPT Image 2 以 1512 分登頂,領先第二名 Nano Banana 2 達 242 分。在大型模型評測的語境下,個位數的差距都能讓社群討論許久,242 分的差距是前所未見的。
這篇文章不打算逐條翻譯 OpenAI 的產品頁面。我想聊的是:GPT Image 2 到底改變了什麼工作流程?對台灣的設計師、行銷人、電商經營者來說,哪些功能值得現在就開始用?
三個真正改變遊戲規則的功能
文字渲染準確率超過 95%
AI 圖像生成最讓人頭痛的問題,一直是文字。Midjourney、DALL-E 3、Stable Diffusion 都會把文字弄得歪七扭八,尤其是中日韓文字(CJK)幾乎沒有一次是對的。
GPT Image 2 宣稱文字準確率超過 95%,實測在英文和拉丁語系確實接近完美。中文的表現也有明顯提升,在曲面、小字號、密集排版的情境下都能維持可讀性。對做電商產品圖、社群素材、多語言標示牌的人來說,這意味著不再需要後製手動修字。
根據 VentureBeat 的報導,GPT Image 2 是 OpenAI 第一個能準確生成地圖(含完整圖例)和資訊圖表的圖像模型。這把 AI 圖像的應用場景從「好看的配圖」推進到「可以直接用的功能性視覺素材」。
Thinking Mode:生成前先想清楚
GPT Image 2 首度整合了 O 系列推理模型的能力。在 Thinking Mode 下,模型會在生圖之前先進行研究、規劃和自我檢查。根據 OpenAI 的說法,這讓複雜場景的「一次成功率」大幅提升。
具體能做到的事情包括:單一 prompt 生成最多 8 張一致的圖像、即時搜尋網路確認視覺細節的正確性、自動檢查輸出品質再交付。Research Lead Boyuan Chen 在受訪時提到,底層架構是「從頭重新設計的」,但沒有透露是傳統擴散模型還是自迴歸架構。
Thinking Mode 目前僅限 Plus(每月約 NTD 640)、Pro(每月約 NTD 6,400)、Business 和 Enterprise 用戶使用。免費用戶只能用 Instant Mode。
跨鏡頭角色一致性
鎖定一個角色、一個產品或一個品牌元素,讓它在分鏡、廣告變體、多鏡頭序列中保持一致。臉部特徵、服裝、身體比例和細節不會隨著場景切換而走樣。
對做 AI UGC 或品牌行銷的團隊來說,這解決了一個長期痛點:以前用 AI 生成系列素材,每張圖的「同一個人」看起來都不一樣。GPT Image 2 搭配 Higgsfield 的 Soul ID 功能,可以在圖像生成後直接推進到影片製作流程。
跟其他模型比起來如何?
| 比較項目 | GPT Image 2 | Nano Banana Pro | Midjourney v8 |
|---|---|---|---|
| 文字渲染 | 95%+ 準確率,支援 CJK | 優秀,有線上搜尋輔助 | 中等,仍會出錯 |
| 寫實感 | 頂級,消除了先前的暖色偏差 | 優秀 | 風格化強,寫實偏弱 |
| 多圖批次 | 單一 prompt 最多 8 張 | 不支援 | 4 張格線輸出 |
| API 可用性 | 2026 年 5 月初開放 | 透過 Higgsfield API | 無公開 API |
| 解析度 | 原生 4K | 原生 4K | 最高 2048×2048 |
| 推理能力 | 有(Thinking Mode) | 有線上搜尋 | 無 |
多數用 Higgsfield 平台的創作者會在兩個模型之間切換。Nano Banana Pro 在推理引導的場景構圖和快速 4K 生成上有優勢,GPT Image 2 在寫實度、文字渲染和商業級產品攝影上勝出。
定價結構:Token 制計費
GPT Image 2 採用跟文字模型一樣的 token 計費邏輯,跟 DALL-E 時代的「每張圖一個價」不同。
| 計費項目 | 每百萬 token 價格 | 約 NTD |
|---|---|---|
| 圖像輸入 | USD 8 | 約 NTD 256,000 |
| 圖像快取輸入 | USD 2 | 約 NTD 64,000 |
| 圖像輸出 | USD 30 | 約 NTD 960,000 |
| 文字輸入 | USD 5 | 約 NTD 160,000 |
| 快取文字輸入 | USD 1.25 | 約 NTD 40,000 |
換算成每張圖的概估費用:1024×1024 解析度下,低品質約 USD 0.006(約 NTD 0.2),中品質約 USD 0.053(約 NTD 2),高品質約 USD 0.211(約 NTD 7)。如果你需要製作 1,000 張高品質的產品圖,成本大約是 USD 211(約 NTD 7,000)。Batch API 可以再打五折。
DALL-E 退場倒數
OpenAI 已宣布 DALL-E 2 和 DALL-E 3 將於 2026 年 5 月 12 日正式下線。所有使用 DALL-E API 的開發者必須在此之前遷移到 GPT Image 系列。API 的模型 ID 是 gpt-image-2,也可以用 chatgpt-image-latest 作為自動追蹤最新版本的別名。
對台灣的開發者和行銷技術團隊來說,現在是重新評估圖像生成 pipeline 的好時機。幾個需要注意的點:
第一,GPT Image 2 的知識截止日期是 2025 年 12 月。這代表 2025 年底之前的品牌 logo 和文化參考資料它都認得,但更新的東西可能不準確。
第二,精確的物理操作(例如重新定位特定手指、調整像素級的位置)仍然不穩定。
第三,API 目前尚未正式開放,預計 2026 年 5 月初 GA。在那之前只能透過 ChatGPT 網頁介面或第三方服務使用。
台灣使用者該怎麼開始?
最直接的方式是在 ChatGPT 裡面用。免費用戶有 Instant Mode,付費用戶有 Thinking Mode。如果你想要更多控制選項,Higgsfield 平台已經整合了 GPT Image 2,可以搭配 Cinema Studio、Face Swap、Sora 2 等工具使用。
對有 API 整合需求的團隊,建議等 5 月 GA 之後再正式導入生產環境。在此之前可以用 ChatGPT 介面做概念驗證和素材測試。
幾個值得優先測試的場景:
多語言社群素材。GPT Image 2 的 CJK 文字渲染是目前所有模型中最好的,特別適合同時需要中英日文的社群行銷內容。
產品攝影替代方案。對電商來說,高品質的產品圖成本從一張數百到數千元,GPT Image 2 的每張成本在 NTD 7 以下。當然,AI 生成圖和實拍有明顯差異,但在 A/B 測試、廣告素材快速迭代、商品頁 placeholder 等場景,已經足夠實用。
品牌素材系列化。利用角色一致性功能,一次 prompt 生成一整組風格統一的行銷素材。這在 TikTok、Instagram 等需要大量同風格內容的平台上特別有價值。
技術限制與目前的邊界
GPT Image 2 很強,但有些事情它還是做不好。精確的手部姿勢和手指數量偶爾還是會出錯。極端細緻的像素級控制不如 Photoshop 手動操作。架構未公開,外部研究者無法針對特定失敗模式做系統性測試。
另外,OpenAI 的內容安全策略比多數競品嚴格。真人肖像、版權角色、品牌 logo 的直接生成都有限制。這在某些行銷場景下會造成不便,但也降低了法律風險。
這對設計產業意味著什麼
GPT Image 2 不會取代設計師,但它正在改變設計工作的結構。執行面的技能(打光、修圖、基本排版)正在被自動化,創意策略和品牌思考的價值因此提升。
根據 PANews 的分析,GPT Image 2 代表 OpenAI 首次把「策略級視覺智能」整合進圖像模型。它能自主完成研究、設計和精確的多語言排版,傳統設計流程中由助理或初級設計師執行的部分,現在可以用 AI 完成初稿。
對台灣的數位行銷和內容製作團隊來說,這是一個實質的效率升級機會。重點不在於把人換掉,而在於讓每個人能處理更多專案、更快迭代、更早拿到可用的視覺素材。
