Grok 4.20 實測：幻覺率最低的 AI 模型，但寫程式不行

Q: Grok 4.20 適合拿來寫程式嗎？

目前不推薦。Grok 4.20 在程式撰寫和 coding benchmark 上的表現落後於 Claude 和 GPT 系列。它的強項是事實準確度和即時資訊搜尋。

Q: Grok 的 Companion 功能安全嗎？

有爭議。Common Sense Media 把 Grok 評為對兒童和青少年最不安全的聊天機器人之一。App Store 上的年齡分級是 12+，但更高好感度可解鎖成人內容。

Q: xAI 被 SpaceX 收購對 Grok 的影響是什麼？

SpaceX 以 USD 1.25 兆合併估值收購 xAI 後，11 位共同創辦人全部離開。短期影響是組織不穩定，長期影響取決於 SpaceX IPO 能否帶來足夠資金。

Grok 4.20 Beta 在 Artificial Analysis 的事實準確度測試拿下 78% 的非幻覺率，是目前所有受測模型裡最高的。 但整體智力指數只有 48 分，落後 Gemini 3.1 Pro Preview 和 GPT-5.4 的 57 分將近兩成。這個模型在 2026 年 2 月 17 日進入公開測試，3 月 3 日推出 Beta 2 更新，目前仍是 Beta 狀態，沒有正式的技術論文或模型卡。

xAI 在 2026 年 2 月 2 日被 SpaceX 收購，合併估值 USD 1.25 兆，成為史上最大併購案之一。Grok 4.20 就是在這個企業結構劇變之後推出的第一個重要模型更新。

四個 Agent 分工的架構設計

Grok 4.20 跟前幾代最大的差異是從單一模型改成多 Agent 協作架構。每個查詢會同時交給四個專門化的子 Agent 處理：

Agent 名稱	角色	負責內容
Captain Grok	協調者	拆解問題、分派任務、合成最終回答
Harper	研究員	即時搜尋網路、X 貼文、上傳文件
Benjamin	驗證者	數學運算、程式執行、事實交叉比對
Lucas	創意者	提出反面觀點、非傳統解法

四個 Agent 平行運作，不是前後串接。這意味著延遲比單模型高，但每個回答都經過內部交叉驗證。使用者也可以在 prompt 裡直接指揮特定 Agent，例如「Harper，幫我查 X 上關於這個的最新討論」。

這個架構的實際效果：Artificial Analysis 測出 78% 的非幻覺率，意思是每五個事實性問題裡大約有四個不會瞎編。Grok 4.1 已經把幻覺率從 12.09% 降到 4.22%（降幅 65%），4.20 在這個基礎上繼續改善。

不過 xAI 自己沒有發表任何官方 benchmark。目前公開 Beta 跑的是 500B 參數的「小型」版本，完整版 Grok 4.20 截至 2026 年 3 月仍在訓練中。

200 萬 Token 上下文與即時 X 資料

上下文窗口支援 200 萬個 Token。實際用途是可以餵進一整本書、完整的程式碼庫或幾個小時的對話紀錄，模型不會丟失脈絡。

更獨特的是即時存取 X（前 Twitter）的公開資料。這是其他主流 AI 模型做不到的。X 是目前新聞時效性最強的社群平台之一，Grok 可以直接讀取最新的貼文和討論串，在回答時效性問題時有明確優勢。

根據社群流出的內部文件暗示，Grok 4.20 內建了一個叫「Reality Engine」的模組，連接到一個基於 X Community Notes 資料建立的即時事實資料庫，用來交叉比對模型的輸出。這如果屬實，就是把群眾智慧當成防幻覺的護欄。

誰適合用、誰不適合

把目前的測試數據拉在一起比較：

指標	Grok 4.20 Beta	GPT-5.4	Gemini 3.1 Pro Preview	Claude Opus 4.5
AA 非幻覺率	78%（最高）	未公開同期數據	未公開同期數據	未公開同期數據
AA 智力指數（含推理）	48	57	57	較高（具體分數待確認）
上下文窗口	200 萬 Token	依版本而異	100 萬+ Token	依版本而異
API 價格（每百萬 Token）	輸入 USD 2 / 輸出 USD 6	輸入 USD 2.5 / 輸出 USD 15	依版本而異	較高
即時社群資料	✓（X 平台）	✗	✗	✗
多 Agent 架構	✓（4 Agent）	✗	✗	✗

Grok 4.20 的定位很清楚：事實準確度和即時資訊是它的強項，純推理能力和寫程式是它的弱項。

API 定價有競爭力。輸入 USD 2、輸出 USD 6（每百萬 Token），比 GPT-5.4 的 USD 2.5/USD 15 便宜不少。但這是建立在推理能力差距的前提上。

對於在乎即時新聞、社群趨勢、資料查核的使用者，Grok 4.20 有其他模型沒有的獨特優勢。對於需要寫程式、做複雜推理的使用者，Claude 或 GPT 仍然是更好的選擇。

圖片與影片生成：Grok Imagine

xAI 在 2026 年 2 月 1 日推出 Grok Imagine 1.0，支援從文字生成圖片和影片。2 月 25 日 Elon Musk 分享了一個使用技巧：可以先讓 Grok 幫你寫好 prompt，再丟進 Imagine 生成。

生成速度確實快，社群用戶反映幾乎等同於刷新一次網頁的時間。影片生成品質在 Beta 2 也有改善。支援自訂比例，這在同類工具裡算是基本功能。

2026 年 3 月又加了新的風格化模板，包括日本 Chibi 風格。Musk 把一張 Chibi 風格的圖片釘在自己的 X 個人頁面上，引發大量傳播。

但 Grok Imagine 有一個大問題：deepfake 爭議。

Companion 功能與 18+ 內容：爭議的雙面刃

Grok 在 2025 年 7 月推出 Companion 功能，讓使用者跟 3D 動畫角色互動。目前有五個角色：Ani（哥德蘿莉風格動漫少女）、Mika、Valentine、Good Rudi 和 Bad Rudi（浣熊）。

系統有一套「好感度」機制，從 -10 到 +15 分。跟角色互動得越好，好感度越高，到 Level 5 可以解鎖「Mature Mode」。曾經一度有更露骨的視覺效果，但 xAI 在用戶反彈後暫時關閉了。

語音模式確實有趣。AI 會用語音回應，搭配 3D 角色的口型同步和情緒動畫。SuperGrok 訂閱者（月費 USD 30，約 NTD 960）可以獲得無限互動次數。

但讓我說直話：這個功能引發了嚴重的安全問題。

2025 年 12 月，使用者發現 Grok 的「編輯圖片」功能可以把照片裡的人「脫衣」，生成穿比基尼或透明衣物的圖片，受害者包括未成年人。歐盟數位事務發言人 Thomas Regnier 直接說這是「令人髮指的」（appalling），而且「這不是辣，這是違法的」。

後續反應：

印尼：率先暫時封鎖 Grok
馬來西亞：通訊及多媒體委員會下令暫時禁用
英國：Ofcom 對 X 啟動調查，威脅要求 ISP 封鎖 Grok
法國：巴黎檢察官辦公室擴大對 X 的調查範圍，納入兒童色情指控
義大利：資料保護局警告使用 Grok 脫衣功能可能面臨刑事指控

xAI 在 2026 年 1 月 5 日承認「安全防護措施有疏漏」，表示正在緊急修復。但 AI 安全組織 The Midas Project 執行長 Tyler Johnston 指出，他們早在 2025 年 8 月就警告過 xAI 的圖片生成功能「基本上是一個等著被武器化的脫衣工具」。

CNN 報導，Musk 在內部抵制安全護欄的強化，xAI 的安全團隊「規模本來就比競爭對手小，在 deepfake 危機前又流失了好幾位員工」。Common Sense Media 把 Grok 評為「對兒童和青少年最不安全的」聊天機器人之一。

免費額度偏低、付費方案分級

免費使用者的限制很嚴格。以 Grok 4 為例，免費額度是每兩小時兩則 prompt，這在主流 AI 模型裡算是最低的。

付費方案分級：

方案	月費	主要功能
免費	USD 0	基本對話，嚴格用量限制
SuperGrok	USD 30（約 NTD 960）	Grok 4.20 Beta、Companion 無限互動、Imagine
SuperGrok Heavy	傳聞約 USD 300（約 NTD 9,600）	三倍 Agent 存取、最大運算資源

API 目前提供三種模式：含推理、不含推理、多 Agent 模式。定價都是輸入 USD 2、輸出 USD 6（每百萬 Token）。

xAI 被 SpaceX 收購後的變局

2026 年 2 月 2 日，SpaceX 以全股交易方式收購 xAI。合併估值 USD 1.25 兆，SpaceX 估值 USD 1 兆、xAI 估值 USD 2,500 億。

這筆交易的表面原因是建造太空資料中心。Musk 認為地面資料中心的電力需求已經無法單靠地面方案解決，太空資料中心是出路。SpaceX 已向 FCC 申請發射最多 100 萬顆衛星來支持這個計畫。

但內部真正發生的是人才流失。收購後 xAI 進行了重組，原本的 11 位共同創辦人到 2026 年 3 月全部離開，只剩 Musk 一人。4 月 10 日財務長 Anthony Armstrong 也離職，SpaceX Starlink 副總裁 Michael Nicholls 接任 xAI 總裁。

xAI 每月燒錢約 USD 10 億（約 NTD 32,000,000,000）。2024 年估計營收約 USD 1 億，2025 年目標 ARR USD 5 億。相比 OpenAI 和 Anthropic 的營收規模，這個數字還有很大差距。

SpaceX 預計 2026 年中進行史上最大 IPO，目標估值 USD 1.75 兆，募資 USD 400-800 億。這場 IPO 的成敗會直接影響 xAI 未來的資源和發展空間。

跟影片作者的觀點不同的地方

原始影片對 Grok 4.20 的評價偏正面，有幾個地方需要修正或補充：

影片說「幻覺是所有 AI 裡最低的」。這需要限定條件：Grok 4.20 在 AA Omniscience 測試的非幻覺率確實是受測模型中最高的（78%），但整體智力指數 48 分顯著低於 GPT-5.4 和 Gemini 3.1 的 57 分。幻覺少不等於回答品質高。

影片提到「審查很弱」當作優點。但弱審查已經直接導致 deepfake 危機，多國政府啟動調查或封鎖。對企業用戶來說，這是風險而非功能。VentureBeat 的評估：「問題不在基礎設施，在觀感。」

影片沒有提到 SpaceX 收購和共同創辦人全部離開的事實。這個組織劇變直接影響模型的長期發展穩定性。

Grok 4.20 的 API 定價跟其他模型比起來怎樣？

Grok 4.20 的 API 定價是每百萬輸入 Token USD 2、每百萬輸出 Token USD 6，比 GPT-5.4 的 USD 2.5/USD 15 便宜 33-60%。但要注意 Grok 4.20 的整體智力指數（48 分）低於 GPT-5.4（57 分），所以便宜的價格對應的是較低的推理能力。在事實查核導向的任務上，這個性價比是合理的。

Grok 4.20 適合拿來寫程式嗎？

目前不推薦。多個獨立評測指出 Grok 4.20 在程式撰寫和 coding benchmark 上的表現落後於 Claude 和 GPT 系列。它的強項是事實準確度和即時資訊搜尋，寫程式最好選擇 Claude Code 或 GitHub Copilot。

Grok 4.20 在歐盟能用嗎？

受限制。由於 deepfake 爭議，歐盟正在調查 X 和 xAI，英國 Ofcom 也啟動了獨立調查。印尼和馬來西亞已經暫時封鎖 Grok。歐盟用戶目前仍可存取部分功能，但 NSFW 相關功能在多個地區受到限制，且隨時可能有新的監管行動。

Grok 的 Companion 功能安全嗎？

有爭議。Common Sense Media 把 Grok 評為對兒童和青少年最不安全的聊天機器人之一。Rolling Stone 以「Grok 推出色情動漫伴侶」為標題報導此功能。App Store 上的年齡分級是 12+，但更高好感度可解鎖成人內容。xAI 在用戶反彈後暫時關閉了部分功能，但整體安全架構仍在完善中。

xAI 被 SpaceX 收購對 Grok 的影響是什麼？

2026 年 2 月 SpaceX 以 USD 1.25 兆合併估值收購 xAI 後，xAI 的 11 位共同創辦人全部離開。SpaceX 的 Starlink 副總裁 Michael Nicholls 接任 xAI 總裁。收購的短期影響是組織不穩定和人才流失，長期影響取決於 SpaceX IPO 能否帶來足夠資金支撐 xAI 每月 USD 10 億的燒錢速度。

引用來源

Author Insight

我們團隊在協助企業客戶評估 AI 工具導入時，Grok 是最常被問到但最少被採用的。原因不在技術面，在風險面。多數台灣企業的法遵部門一看到 deepfake 爭議和歐盟調查就直接否決。對於資訊查核、社群監測這類用途，Grok 4.20 的即時 X 資料存取確實有其他模型沒有的優勢，但內容審查的問題讓企業合規團隊無法放心。我的建議是：個人用戶拿來追即時新聞很好用，但企業導入要等安全框架成熟再說。

如果你正在評估不同 AI 模型在企業場景的適用性，包括成本結構、合規風險和實際效能差異，歡迎跟 Tenten 團隊預約諮詢。我們最近協助金融和科技業客戶做了 Claude、GPT、Gemini 的多模型比較測試，可以分享第一手的導入經驗。

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare