史上最強開源 AI？Gemma 4 本地部署實戰：26B 模型變身私人管家

Q: Gemma 4 的 26B MoE 和 31B Dense 該選哪個？

26B MoE 推論速度接近 4B 模型，品質約為 31B Dense 的 97%。如果 VRAM 有限或需要即時互動，選 26B MoE。追求最高品質且硬體夠好，選 31B Dense。

Q: Gemma 4 可以完全取代 Claude 或 GPT-5 嗎？

短期內不行。在 Humanity's Last Exam 基準測試上，Gemma 4 31B 得分 19.5%，前沿私有模型仍有明顯優勢。Gemma 4 適合日常 80-90% 工作負載，深度推理場景仍需 Claude 或 GPT-5。

Q: 企業導入 Gemma 4 需要注意什麼？

三件事：量化方式影響品質（建議 Dynamic 4-bit 或更高）、256K 上下文長度在超長場景品質下降需實測、函式呼叫穩定度跟商用模型有差距需先跑 pilot。

Q: Gemma 4 支援繁體中文嗎？

支援，Gemma 4 涵蓋超過 140 種語言。但繁中能力跟 Qwen 3.5（201 語言、針對 CJK 優化）比仍有差距，建議實測比較。

Q: 怎麼用 MCP 伺服器接上 Gemma 4 做本地 Agent？

透過 llama.cpp 的 OpenAI 相容 API（localhost:8080/v1）接上 MCP 客戶端，搭配 OpenClaw 框架可建構桌面 Agent，從本地檔案和應用程式中擷取上下文。

Google Gemma 4 本地部署完整解析：26B 參數開源模型如何成為你的離線 AI 智能體

Google Gemma 4 在 2026 年 4 月 2 日正式發布，是 Google DeepMind 至今最強的開源模型家族。其中 26B MoE（混合專家）版本總參數量 260 億，但推論時只啟動 38 億參數，在 LMArena 文字排行榜拿下全球開源模型第 6 名（ELO 1441），AIME 2026 數學競賽得分 88.3%。整個家族採用 Apache 2.0 授權，沒有商用限制、沒有月活躍用戶上限。對需要本地部署、離線運行、資料不出廠的團隊來說，這是 2026 年 4 月最值得評估的開源選項。

先釐清幾個流傳的誇大說法

社群媒體上關於 Gemma 4 的貼文很多，有些說法需要修正。

「260 億參數，性能對標 6850 億參數級別模型」這個說法來自 Google 官方的「outcompetes models 20x its size」宣傳語。但 26B 的 20 倍是 520B，不是 685B。而且這個比較基於 LMArena 的 ELO 排名，不是所有基準測試都能對標。在 Hacker News 的討論串中，Redis 作者 antirez 直接指出：Gemma 4 31B 在多數基準測試上仍然落後 Qwen 3.5 27B Dense，用 ELO 分數當主要宣傳指標「非常誤導」。

「跑在普通筆電上就行」也需要看是哪個版本。26B MoE 量化後需要大約 16-20 GB 記憶體，適合有獨立顯卡（16GB+ VRAM）的桌機或 Apple Silicon Mac。真正能在普通筆電上跑的是 E4B（約 10 GB VRAM）和 E2B（約 4 GB）這兩個邊緣版本。

四個版本的定位和硬體需求

Gemma 4 一次出了四個版本，涵蓋從手機到工作站的部署場景：

版本	總參數	推論活躍參數	上下文長度	多模態支援	最低硬體需求（量化後）	適合場景
E2B	5.1B（有效 2.3B）	2.3B	128K	文字 + 圖片 + 音訊	約 1.5 GB 記憶體	手機、IoT、嵌入式
E4B	較大（有效 4B）	4B	128K	文字 + 圖片 + 音訊	約 10 GB 記憶體	一般筆電、消費級 GPU
26B MoE (A4B)	25.2B	3.8B	256K	文字 + 圖片 + 影片	約 16 GB 記憶體	RTX 4090/5090、Mac M3 Ultra
31B Dense	31B	31B	256K	文字 + 圖片 + 影片	約 20 GB（Q4 量化）	開發工作站、H100 GPU

E2B 和 E4B 使用了 Per-Layer Embeddings（PLE）技術，讓小模型具備超出實際參數量的表達能力。26B MoE 的 128 個小專家裡，每次推論只啟動 8 個加 1 個共享專家，所以速度接近 4B 模型，但品質接近 31B Dense 的 97%。

基準測試：跟 Qwen 3.5 和 Llama 4 比到底誰強

根據 Hacker News 用戶 scrlk 整理的跨模型對照表，以及多家評測機構的資料：

基準測試	Gemma 4 31B	Gemma 4 26B MoE	Qwen 3.5 27B	Llama 4 Scout (109B)
MMLU-Pro	85.2%	82.6%	86.1%	85.5%（Maverick）
GPQA Diamond	84.3%	82.3%	85.5%	—
AIME 2026	89.2%	88.3%	—	—
LiveCodeBench v6	80.0%	77.1%	80.7%	—
Codeforces ELO	2150	1718	1899	—

幾個值得注意的點。Gemma 4 在 AIME 2026 上的跳躍最戲劇化：前代 Gemma 3 27B 只有 20.8%，這代 31B 衝到 89.2%。Codeforces ELO 也從 110 跳到 2150。但在 MMLU-Pro 和 LiveCodeBench 上，Qwen 3.5 27B Dense 以微幅差距勝出。Gemma 4 的強項是 MoE 架構帶來的推論效率：26B MoE 用 3.8B 活躍參數就拿到接近 31B Dense 的品質，這在有 VRAM 限制的本地部署場景下特別有價值。

Apache 2.0 授權：這次真的沒限制了

Gemma 前三代用的是 Google 自訂授權，有商用限制和可接受使用政策。企業法務團隊在評估時常常因為授權條款模糊而轉向 Qwen 或 Mistral。

Gemma 4 改用 Apache 2.0，跟 Qwen 3.5、Mistral Small 4 站在同一個授權基礎上。沒有月活躍用戶上限、沒有可接受使用政策、可以自由商用和再分發。VentureBeat 的報導特別強調，在中國 AI 實驗室（特別是阿里巴巴的 Qwen 3.5 Omni 和 Qwen 3.6 Plus）開始限縮最新模型開放程度的同時，Google 反而往更開放的方向走。

對企業採購來說，授權的清晰度跟基準測試分數一樣重要。

原生函式呼叫：本地 AI Agent 的關鍵能力

Gemma 4 全家族都支援原生函式呼叫（function calling）、結構化 JSON 輸出、多步驟規劃和可設定的推理模式。這表示模型可以自主使用工具、呼叫 API、執行結構化工作流程。

配合 MCP（Model Context Protocol）伺服器，本地 Gemma 4 可以接上瀏覽器自動化、資料庫查詢、檔案操作等外部工具。NVIDIA 已經確認 Gemma 4 相容 OpenClaw 框架，可以在 RTX PC 上建構本地智能體，從個人檔案和應用程式中擷取上下文來自動執行任務。

Google Developers Blog 也發了一篇專門講邊緣部署 Agent 功能的文章，搭配 LiteRT-LM 可以在手機和 IoT 裝置上跑多步驟規劃。

本地部署實測：Ollama、llama.cpp、MLX 三條路線

Gemma 4 發布當天就有了 Ollama v0.20.0 支援。三條主要的本地部署路線：

Ollama（最簡單）

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# 拉取 26B MoE 版本
ollama run gemma4:26b
# 拉取適合筆電的 E4B 版本
ollama run gemma4:e4b

E4B 下載約 9.6 GB，26B MoE 量化後約 16 GB。Ollama 自動偵測 GPU 加速。

llama.cpp（進階控制）

Unsloth 提供了第一天就可用的量化版本（Dynamic 4-bit 和 Q8_0）。NVIDIA 實測 26B MoE 在 RTX 5090 和 Mac M3 Ultra 上用 Q4_K_M 量化的 token 生成速度，確認適合本地 Agent 使用。

MLX（Apple Silicon）

mlx-vlm 函式庫支援 TurboQuant，在 Apple Silicon 上記憶體用量減少約 4 倍，長上下文推論速度大幅提升。

混合部署策略：本地處理日常、雲端處理硬核

原始貼文提到的「90% 日常本地免費處理，10% 高難度任務交給 Claude Code」策略，在方向上合理，但比例因人而異。

多家分析機構建議的路由策略是分三層：

E4B 處理簡單任務：分類、簡單問答、文件摘要。速度快、記憶體需求低
26B MoE 處理中等複雜度任務：程式碼審查、資料分析、多步驟推理
Claude Code 或 GPT-5 處理最難的 5-10% 任務：需要頂級推理能力的複雜程式碼生成、長文分析

Lushbinary 的開發者指南估算，這種路由架構可以把推論成本降低 60-80%。但要注意的是，「成本降低」的前提是你原本就在大量使用 API。對個人開發者來說，每月 USD 20 的 Claude Pro/ChatGPT Plus 訂閱跟本地部署的電費和硬體折舊比起來，省下來的錢未必很多。混合部署的真正價值在資料隱私和離線可用性，不只是省錢。

跟 Qwen 3.5 比較：選哪個？

2026 年 4 月的開源模型市場，Gemma 4 最直接的競爭對手是 Alibaba 的 Qwen 3.5。

比較項目	Gemma 4（26B MoE + 31B）	Qwen 3.5（27B Dense + 35B MoE）
授權	Apache 2.0	Apache 2.0
數學推理（AIME 2026）	89.2%（31B）	對照版本不同，AIME 2025 為 48.7%
程式碼（LiveCodeBench v6）	80.0%	80.7%
多語言	140+ 語言	201 語言
音訊輸入	E2B 和 E4B 支援	部分版本支援
邊緣部署	E2B 可跑在手機上（1.5 GB）	0.8B 版本可用但功能較少
模型生態圈大小	超過 4 億次下載、10 萬個社群變體	全球部署量最大的開源模型家族

如果你的需求偏向邊緣部署和多模態（文字 + 圖片 + 音訊一個模型全包），Gemma 4 目前沒有同級對手。如果你優先考慮程式碼生成和多語言能力，Qwen 3.5 在基準測試上仍然有微幅優勢。

Gemma 4 的 26B MoE 和 31B Dense 該選哪個？

26B MoE 推論速度接近 4B 模型，品質約為 31B Dense 的 97%。如果你的 VRAM 有限或需要即時互動（像是 AI coding 助手），選 26B MoE。如果追求最高品質且硬體夠好（80 GB H100 或 24 GB+ 消費級 GPU），選 31B Dense。

Gemma 4 可以完全取代 Claude 或 GPT-5 嗎？

短期內不行。在 Humanity's Last Exam（HLE）基準測試上，Gemma 4 31B 得分 19.5%（無工具），Qwen 3.5 27B 得 24.3%。前沿私有模型在最難的推理任務上仍然有明顯優勢。Gemma 4 適合處理日常 80-90% 的工作負載，但遇到需要深度推理的場景，Claude 和 GPT-5 還是必要的。

企業導入 Gemma 4 需要注意什麼？

三件事。第一，量化方式會影響品質。Dynamic 4-bit 量化在大多數任務上品質損失極小，但如果你的場景對精確度要求很高，建議用 8-bit 或 BF16。第二，256K 的上下文長度在理論上很長，但實際品質在超長上下文時會下降，建議在你的場景裡實測。第三，函式呼叫雖然是原生支援，但跟 Claude Code 或 GPT-5 的工具使用穩定度比，開源模型還有差距，建議先跑 pilot 測試。

Gemma 4 支援繁體中文嗎？

支援。Gemma 4 全家族支援超過 140 種語言，詞彙表大小 262K。但中文能力跟 Qwen 3.5（專門為 CJK 語言優化、201 語言）比起來還是有差距，特別是在繁體中文的特定用語和語法處理上。如果你的應用以繁中為主，建議兩者都實測比較。

怎麼用 MCP 伺服器接上 Gemma 4 做本地 Agent？

透過 llama.cpp 的 OpenAI 相容 API（http://localhost:8080/v1），可以讓任何支援 OpenAI API 的 MCP 客戶端連上本地 Gemma 4。搭配 OpenClaw 框架可以建構桌面 Agent，從本地檔案和應用程式中擷取上下文。NVIDIA 和 Google 都在發布當天提供了 Agent 部署指南。

引用來源

關於作者

Erik (EKC) — 我們在 2025 年從 Cursor 遷移到 Claude Code，之後又逐步建立了混合本地 + 雲端的 AI 工作流。在實際協助客戶評估開源模型部署的過程中，我觀察到一個反覆出現的模式：大多數團隊在 pilot 階段對本地模型的表現很滿意，但進入 production 時才發現模型路由和品質監控的工程成本被低估了。Gemma 4 的 MoE 架構確實降低了推論門檻，但「本地免費」跟「production-ready」之間還有不少工程要做。

如果你正在評估本地 AI 部署或混合架構方案，我們的團隊最近協助金融、製造和電商客戶完成了多個 Claude Code + 開源模型的混合部署專案。歡迎跟 Tenten 團隊預約諮詢，討論適合你的技術架構。

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running