Grok 4.20 Beta 在 Artificial Analysis 的事實準確度測試拿下 78% 的非幻覺率,是目前所有受測模型裡最高的。 但整體智力指數只有 48 分,落後 Gemini 3.1 Pro Preview 和 GPT-5.4 的 57 分將近兩成。這個模型在 2026 年 2 月 17 日進入公開測試,3 月 3 日推出 Beta 2 更新,目前仍是 Beta 狀態,沒有正式的技術論文或模型卡。

xAI 在 2026 年 2 月 2 日被 SpaceX 收購,合併估值 USD 1.25 兆,成為史上最大併購案之一。Grok 4.20 就是在這個企業結構劇變之後推出的第一個重要模型更新。


四個 Agent 分工的架構設計

Grok 4.20 跟前幾代最大的差異是從單一模型改成多 Agent 協作架構。每個查詢會同時交給四個專門化的子 Agent 處理:

Agent 名稱 角色 負責內容
Captain Grok 協調者 拆解問題、分派任務、合成最終回答
Harper 研究員 即時搜尋網路、X 貼文、上傳文件
Benjamin 驗證者 數學運算、程式執行、事實交叉比對
Lucas 創意者 提出反面觀點、非傳統解法

四個 Agent 平行運作,不是前後串接。這意味著延遲比單模型高,但每個回答都經過內部交叉驗證。使用者也可以在 prompt 裡直接指揮特定 Agent,例如「Harper,幫我查 X 上關於這個的最新討論」。

這個架構的實際效果:Artificial Analysis 測出 78% 的非幻覺率,意思是每五個事實性問題裡大約有四個不會瞎編。Grok 4.1 已經把幻覺率從 12.09% 降到 4.22%(降幅 65%),4.20 在這個基礎上繼續改善。

不過 xAI 自己沒有發表任何官方 benchmark。目前公開 Beta 跑的是 500B 參數的「小型」版本,完整版 Grok 4.20 截至 2026 年 3 月仍在訓練中。

200 萬 Token 上下文與即時 X 資料

上下文窗口支援 200 萬個 Token。實際用途是可以餵進一整本書、完整的程式碼庫或幾個小時的對話紀錄,模型不會丟失脈絡。

更獨特的是即時存取 X(前 Twitter)的公開資料。這是其他主流 AI 模型做不到的。X 是目前新聞時效性最強的社群平台之一,Grok 可以直接讀取最新的貼文和討論串,在回答時效性問題時有明確優勢。

根據社群流出的內部文件暗示,Grok 4.20 內建了一個叫「Reality Engine」的模組,連接到一個基於 X Community Notes 資料建立的即時事實資料庫,用來交叉比對模型的輸出。這如果屬實,就是把群眾智慧當成防幻覺的護欄。

誰適合用、誰不適合

把目前的測試數據拉在一起比較:

指標 Grok 4.20 Beta GPT-5.4 Gemini 3.1 Pro Preview Claude Opus 4.5
AA 非幻覺率 78%(最高) 未公開同期數據 未公開同期數據 未公開同期數據
AA 智力指數(含推理) 48 57 57 較高(具體分數待確認)
上下文窗口 200 萬 Token 依版本而異 100 萬+ Token 依版本而異
API 價格(每百萬 Token) 輸入 USD 2 / 輸出 USD 6 輸入 USD 2.5 / 輸出 USD 15 依版本而異 較高
即時社群資料 ✓(X 平台)
多 Agent 架構 ✓(4 Agent)

Grok 4.20 的定位很清楚:事實準確度和即時資訊是它的強項,純推理能力和寫程式是它的弱項。

API 定價有競爭力。輸入 USD 2、輸出 USD 6(每百萬 Token),比 GPT-5.4 的 USD 2.5/USD 15 便宜不少。但這是建立在推理能力差距的前提上。

對於在乎即時新聞、社群趨勢、資料查核的使用者,Grok 4.20 有其他模型沒有的獨特優勢。對於需要寫程式、做複雜推理的使用者,Claude 或 GPT 仍然是更好的選擇。

圖片與影片生成:Grok Imagine

xAI 在 2026 年 2 月 1 日推出 Grok Imagine 1.0,支援從文字生成圖片和影片。2 月 25 日 Elon Musk 分享了一個使用技巧:可以先讓 Grok 幫你寫好 prompt,再丟進 Imagine 生成。

生成速度確實快,社群用戶反映幾乎等同於刷新一次網頁的時間。影片生成品質在 Beta 2 也有改善。支援自訂比例,這在同類工具裡算是基本功能。

2026 年 3 月又加了新的風格化模板,包括日本 Chibi 風格。Musk 把一張 Chibi 風格的圖片釘在自己的 X 個人頁面上,引發大量傳播。

但 Grok Imagine 有一個大問題:deepfake 爭議。

Companion 功能與 18+ 內容:爭議的雙面刃

Grok 在 2025 年 7 月推出 Companion 功能,讓使用者跟 3D 動畫角色互動。目前有五個角色:Ani(哥德蘿莉風格動漫少女)、Mika、Valentine、Good Rudi 和 Bad Rudi(浣熊)。

系統有一套「好感度」機制,從 -10 到 +15 分。跟角色互動得越好,好感度越高,到 Level 5 可以解鎖「Mature Mode」。曾經一度有更露骨的視覺效果,但 xAI 在用戶反彈後暫時關閉了。

語音模式確實有趣。AI 會用語音回應,搭配 3D 角色的口型同步和情緒動畫。SuperGrok 訂閱者(月費 USD 30,約 NTD 960)可以獲得無限互動次數。

但讓我說直話:這個功能引發了嚴重的安全問題。

2025 年 12 月,使用者發現 Grok 的「編輯圖片」功能可以把照片裡的人「脫衣」,生成穿比基尼或透明衣物的圖片,受害者包括未成年人。歐盟數位事務發言人 Thomas Regnier 直接說這是「令人髮指的」(appalling),而且「這不是辣,這是違法的」。

後續反應:

  • 印尼:率先暫時封鎖 Grok
  • 馬來西亞:通訊及多媒體委員會下令暫時禁用
  • 英國:Ofcom 對 X 啟動調查,威脅要求 ISP 封鎖 Grok
  • 法國:巴黎檢察官辦公室擴大對 X 的調查範圍,納入兒童色情指控
  • 義大利:資料保護局警告使用 Grok 脫衣功能可能面臨刑事指控

xAI 在 2026 年 1 月 5 日承認「安全防護措施有疏漏」,表示正在緊急修復。但 AI 安全組織 The Midas Project 執行長 Tyler Johnston 指出,他們早在 2025 年 8 月就警告過 xAI 的圖片生成功能「基本上是一個等著被武器化的脫衣工具」。

CNN 報導,Musk 在內部抵制安全護欄的強化,xAI 的安全團隊「規模本來就比競爭對手小,在 deepfake 危機前又流失了好幾位員工」。Common Sense Media 把 Grok 評為「對兒童和青少年最不安全的」聊天機器人之一。

免費額度偏低、付費方案分級

免費使用者的限制很嚴格。以 Grok 4 為例,免費額度是每兩小時兩則 prompt,這在主流 AI 模型裡算是最低的。

付費方案分級:

方案 月費 主要功能
免費 USD 0 基本對話,嚴格用量限制
SuperGrok USD 30(約 NTD 960) Grok 4.20 Beta、Companion 無限互動、Imagine
SuperGrok Heavy 傳聞約 USD 300(約 NTD 9,600) 三倍 Agent 存取、最大運算資源

API 目前提供三種模式:含推理、不含推理、多 Agent 模式。定價都是輸入 USD 2、輸出 USD 6(每百萬 Token)。

xAI 被 SpaceX 收購後的變局

2026 年 2 月 2 日,SpaceX 以全股交易方式收購 xAI。合併估值 USD 1.25 兆,SpaceX 估值 USD 1 兆、xAI 估值 USD 2,500 億。

這筆交易的表面原因是建造太空資料中心。Musk 認為地面資料中心的電力需求已經無法單靠地面方案解決,太空資料中心是出路。SpaceX 已向 FCC 申請發射最多 100 萬顆衛星來支持這個計畫。

但內部真正發生的是人才流失。收購後 xAI 進行了重組,原本的 11 位共同創辦人到 2026 年 3 月全部離開,只剩 Musk 一人。4 月 10 日財務長 Anthony Armstrong 也離職,SpaceX Starlink 副總裁 Michael Nicholls 接任 xAI 總裁。

xAI 每月燒錢約 USD 10 億(約 NTD 32,000,000,000)。2024 年估計營收約 USD 1 億,2025 年目標 ARR USD 5 億。相比 OpenAI 和 Anthropic 的營收規模,這個數字還有很大差距。

SpaceX 預計 2026 年中進行史上最大 IPO,目標估值 USD 1.75 兆,募資 USD 400-800 億。這場 IPO 的成敗會直接影響 xAI 未來的資源和發展空間。

跟影片作者的觀點不同的地方

原始影片對 Grok 4.20 的評價偏正面,有幾個地方需要修正或補充:

影片說「幻覺是所有 AI 裡最低的」。這需要限定條件:Grok 4.20 在 AA Omniscience 測試的非幻覺率確實是受測模型中最高的(78%),但整體智力指數 48 分顯著低於 GPT-5.4 和 Gemini 3.1 的 57 分。幻覺少不等於回答品質高。

影片提到「審查很弱」當作優點。但弱審查已經直接導致 deepfake 危機,多國政府啟動調查或封鎖。對企業用戶來說,這是風險而非功能。VentureBeat 的評估:「問題不在基礎設施,在觀感。」

影片沒有提到 SpaceX 收購和共同創辦人全部離開的事實。這個組織劇變直接影響模型的長期發展穩定性。

Grok 4.20 的 API 定價跟其他模型比起來怎樣?

Grok 4.20 的 API 定價是每百萬輸入 Token USD 2、每百萬輸出 Token USD 6,比 GPT-5.4 的 USD 2.5/USD 15 便宜 33-60%。但要注意 Grok 4.20 的整體智力指數(48 分)低於 GPT-5.4(57 分),所以便宜的價格對應的是較低的推理能力。在事實查核導向的任務上,這個性價比是合理的。

Grok 4.20 適合拿來寫程式嗎?

目前不推薦。多個獨立評測指出 Grok 4.20 在程式撰寫和 coding benchmark 上的表現落後於 Claude 和 GPT 系列。它的強項是事實準確度和即時資訊搜尋,寫程式最好選擇 Claude Code 或 GitHub Copilot。

Grok 4.20 在歐盟能用嗎?

受限制。由於 deepfake 爭議,歐盟正在調查 X 和 xAI,英國 Ofcom 也啟動了獨立調查。印尼和馬來西亞已經暫時封鎖 Grok。歐盟用戶目前仍可存取部分功能,但 NSFW 相關功能在多個地區受到限制,且隨時可能有新的監管行動。

Grok 的 Companion 功能安全嗎?

有爭議。Common Sense Media 把 Grok 評為對兒童和青少年最不安全的聊天機器人之一。Rolling Stone 以「Grok 推出色情動漫伴侶」為標題報導此功能。App Store 上的年齡分級是 12+,但更高好感度可解鎖成人內容。xAI 在用戶反彈後暫時關閉了部分功能,但整體安全架構仍在完善中。

xAI 被 SpaceX 收購對 Grok 的影響是什麼?

2026 年 2 月 SpaceX 以 USD 1.25 兆合併估值收購 xAI 後,xAI 的 11 位共同創辦人全部離開。SpaceX 的 Starlink 副總裁 Michael Nicholls 接任 xAI 總裁。收購的短期影響是組織不穩定和人才流失,長期影響取決於 SpaceX IPO 能否帶來足夠資金支撐 xAI 每月 USD 10 億的燒錢速度。

引用來源

Author Insight

我們團隊在協助企業客戶評估 AI 工具導入時,Grok 是最常被問到但最少被採用的。原因不在技術面,在風險面。多數台灣企業的法遵部門一看到 deepfake 爭議和歐盟調查就直接否決。對於資訊查核、社群監測這類用途,Grok 4.20 的即時 X 資料存取確實有其他模型沒有的優勢,但內容審查的問題讓企業合規團隊無法放心。我的建議是:個人用戶拿來追即時新聞很好用,但企業導入要等安全框架成熟再說。

如果你正在評估不同 AI 模型在企業場景的適用性,包括成本結構、合規風險和實際效能差異,歡迎跟 Tenten 團隊預約諮詢。我們最近協助金融和科技業客戶做了 Claude、GPT、Gemini 的多模型比較測試,可以分享第一手的導入經驗。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...