Google Gemma 4 本地部署完整解析:26B 參數開源模型如何成為你的離線 AI 智能體
Google Gemma 4 在 2026 年 4 月 2 日正式發布,是 Google DeepMind 至今最強的開源模型家族。其中 26B MoE(混合專家)版本總參數量 260 億,但推論時只啟動 38 億參數,在 LMArena 文字排行榜拿下全球開源模型第 6 名(ELO 1441),AIME 2026 數學競賽得分 88.3%。整個家族採用 Apache 2.0 授權,沒有商用限制、沒有月活躍用戶上限。對需要本地部署、離線運行、資料不出廠的團隊來說,這是 2026 年 4 月最值得評估的開源選項。
先釐清幾個流傳的誇大說法
社群媒體上關於 Gemma 4 的貼文很多,有些說法需要修正。
「260 億參數,性能對標 6850 億參數級別模型」這個說法來自 Google 官方的「outcompetes models 20x its size」宣傳語。但 26B 的 20 倍是 520B,不是 685B。而且這個比較基於 LMArena 的 ELO 排名,不是所有基準測試都能對標。在 Hacker News 的討論串中,Redis 作者 antirez 直接指出:Gemma 4 31B 在多數基準測試上仍然落後 Qwen 3.5 27B Dense,用 ELO 分數當主要宣傳指標「非常誤導」。
「跑在普通筆電上就行」也需要看是哪個版本。26B MoE 量化後需要大約 16-20 GB 記憶體,適合有獨立顯卡(16GB+ VRAM)的桌機或 Apple Silicon Mac。真正能在普通筆電上跑的是 E4B(約 10 GB VRAM)和 E2B(約 4 GB)這兩個邊緣版本。

四個版本的定位和硬體需求
Gemma 4 一次出了四個版本,涵蓋從手機到工作站的部署場景:
| 版本 | 總參數 | 推論活躍參數 | 上下文長度 | 多模態支援 | 最低硬體需求(量化後) | 適合場景 |
|---|---|---|---|---|---|---|
| E2B | 5.1B(有效 2.3B) | 2.3B | 128K | 文字 + 圖片 + 音訊 | 約 1.5 GB 記憶體 | 手機、IoT、嵌入式 |
| E4B | 較大(有效 4B) | 4B | 128K | 文字 + 圖片 + 音訊 | 約 10 GB 記憶體 | 一般筆電、消費級 GPU |
| 26B MoE (A4B) | 25.2B | 3.8B | 256K | 文字 + 圖片 + 影片 | 約 16 GB 記憶體 | RTX 4090/5090、Mac M3 Ultra |
| 31B Dense | 31B | 31B | 256K | 文字 + 圖片 + 影片 | 約 20 GB(Q4 量化) | 開發工作站、H100 GPU |
E2B 和 E4B 使用了 Per-Layer Embeddings(PLE)技術,讓小模型具備超出實際參數量的表達能力。26B MoE 的 128 個小專家裡,每次推論只啟動 8 個加 1 個共享專家,所以速度接近 4B 模型,但品質接近 31B Dense 的 97%。
基準測試:跟 Qwen 3.5 和 Llama 4 比到底誰強
根據 Hacker News 用戶 scrlk 整理的跨模型對照表,以及多家評測機構的資料:
| 基準測試 | Gemma 4 31B | Gemma 4 26B MoE | Qwen 3.5 27B | Llama 4 Scout (109B) |
|---|---|---|---|---|
| MMLU-Pro | 85.2% | 82.6% | 86.1% | 85.5%(Maverick) |
| GPQA Diamond | 84.3% | 82.3% | 85.5% | — |
| AIME 2026 | 89.2% | 88.3% | — | — |
| LiveCodeBench v6 | 80.0% | 77.1% | 80.7% | — |
| Codeforces ELO | 2150 | 1718 | 1899 | — |
幾個值得注意的點。Gemma 4 在 AIME 2026 上的跳躍最戲劇化:前代 Gemma 3 27B 只有 20.8%,這代 31B 衝到 89.2%。Codeforces ELO 也從 110 跳到 2150。但在 MMLU-Pro 和 LiveCodeBench 上,Qwen 3.5 27B Dense 以微幅差距勝出。Gemma 4 的強項是 MoE 架構帶來的推論效率:26B MoE 用 3.8B 活躍參數就拿到接近 31B Dense 的品質,這在有 VRAM 限制的本地部署場景下特別有價值。
Apache 2.0 授權:這次真的沒限制了
Gemma 前三代用的是 Google 自訂授權,有商用限制和可接受使用政策。企業法務團隊在評估時常常因為授權條款模糊而轉向 Qwen 或 Mistral。
Gemma 4 改用 Apache 2.0,跟 Qwen 3.5、Mistral Small 4 站在同一個授權基礎上。沒有月活躍用戶上限、沒有可接受使用政策、可以自由商用和再分發。VentureBeat 的報導特別強調,在中國 AI 實驗室(特別是阿里巴巴的 Qwen 3.5 Omni 和 Qwen 3.6 Plus)開始限縮最新模型開放程度的同時,Google 反而往更開放的方向走。
對企業採購來說,授權的清晰度跟基準測試分數一樣重要。
原生函式呼叫:本地 AI Agent 的關鍵能力
Gemma 4 全家族都支援原生函式呼叫(function calling)、結構化 JSON 輸出、多步驟規劃和可設定的推理模式。這表示模型可以自主使用工具、呼叫 API、執行結構化工作流程。
配合 MCP(Model Context Protocol)伺服器,本地 Gemma 4 可以接上瀏覽器自動化、資料庫查詢、檔案操作等外部工具。NVIDIA 已經確認 Gemma 4 相容 OpenClaw 框架,可以在 RTX PC 上建構本地智能體,從個人檔案和應用程式中擷取上下文來自動執行任務。
Google Developers Blog 也發了一篇專門講邊緣部署 Agent 功能的文章,搭配 LiteRT-LM 可以在手機和 IoT 裝置上跑多步驟規劃。
本地部署實測:Ollama、llama.cpp、MLX 三條路線
Gemma 4 發布當天就有了 Ollama v0.20.0 支援。三條主要的本地部署路線:
Ollama(最簡單)
# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# 拉取 26B MoE 版本
ollama run gemma4:26b
# 拉取適合筆電的 E4B 版本
ollama run gemma4:e4b
E4B 下載約 9.6 GB,26B MoE 量化後約 16 GB。Ollama 自動偵測 GPU 加速。
llama.cpp(進階控制)
Unsloth 提供了第一天就可用的量化版本(Dynamic 4-bit 和 Q8_0)。NVIDIA 實測 26B MoE 在 RTX 5090 和 Mac M3 Ultra 上用 Q4_K_M 量化的 token 生成速度,確認適合本地 Agent 使用。
MLX(Apple Silicon)
mlx-vlm 函式庫支援 TurboQuant,在 Apple Silicon 上記憶體用量減少約 4 倍,長上下文推論速度大幅提升。
混合部署策略:本地處理日常、雲端處理硬核
原始貼文提到的「90% 日常本地免費處理,10% 高難度任務交給 Claude Code」策略,在方向上合理,但比例因人而異。
多家分析機構建議的路由策略是分三層:
- E4B 處理簡單任務:分類、簡單問答、文件摘要。速度快、記憶體需求低
- 26B MoE 處理中等複雜度任務:程式碼審查、資料分析、多步驟推理
- Claude Code 或 GPT-5 處理最難的 5-10% 任務:需要頂級推理能力的複雜程式碼生成、長文分析
Lushbinary 的開發者指南估算,這種路由架構可以把推論成本降低 60-80%。但要注意的是,「成本降低」的前提是你原本就在大量使用 API。對個人開發者來說,每月 USD 20 的 Claude Pro/ChatGPT Plus 訂閱跟本地部署的電費和硬體折舊比起來,省下來的錢未必很多。混合部署的真正價值在資料隱私和離線可用性,不只是省錢。
跟 Qwen 3.5 比較:選哪個?
2026 年 4 月的開源模型市場,Gemma 4 最直接的競爭對手是 Alibaba 的 Qwen 3.5。
| 比較項目 | Gemma 4(26B MoE + 31B) | Qwen 3.5(27B Dense + 35B MoE) |
|---|---|---|
| 授權 | Apache 2.0 | Apache 2.0 |
| 數學推理(AIME 2026) | 89.2%(31B) | 對照版本不同,AIME 2025 為 48.7% |
| 程式碼(LiveCodeBench v6) | 80.0% | 80.7% |
| 多語言 | 140+ 語言 | 201 語言 |
| 音訊輸入 | E2B 和 E4B 支援 | 部分版本支援 |
| 邊緣部署 | E2B 可跑在手機上(1.5 GB) | 0.8B 版本可用但功能較少 |
| 模型生態圈大小 | 超過 4 億次下載、10 萬個社群變體 | 全球部署量最大的開源模型家族 |
如果你的需求偏向邊緣部署和多模態(文字 + 圖片 + 音訊一個模型全包),Gemma 4 目前沒有同級對手。如果你優先考慮程式碼生成和多語言能力,Qwen 3.5 在基準測試上仍然有微幅優勢。
Gemma 4 的 26B MoE 和 31B Dense 該選哪個?
26B MoE 推論速度接近 4B 模型,品質約為 31B Dense 的 97%。如果你的 VRAM 有限或需要即時互動(像是 AI coding 助手),選 26B MoE。如果追求最高品質且硬體夠好(80 GB H100 或 24 GB+ 消費級 GPU),選 31B Dense。
Gemma 4 可以完全取代 Claude 或 GPT-5 嗎?
短期內不行。在 Humanity's Last Exam(HLE)基準測試上,Gemma 4 31B 得分 19.5%(無工具),Qwen 3.5 27B 得 24.3%。前沿私有模型在最難的推理任務上仍然有明顯優勢。Gemma 4 適合處理日常 80-90% 的工作負載,但遇到需要深度推理的場景,Claude 和 GPT-5 還是必要的。
企業導入 Gemma 4 需要注意什麼?
三件事。第一,量化方式會影響品質。Dynamic 4-bit 量化在大多數任務上品質損失極小,但如果你的場景對精確度要求很高,建議用 8-bit 或 BF16。第二,256K 的上下文長度在理論上很長,但實際品質在超長上下文時會下降,建議在你的場景裡實測。第三,函式呼叫雖然是原生支援,但跟 Claude Code 或 GPT-5 的工具使用穩定度比,開源模型還有差距,建議先跑 pilot 測試。
Gemma 4 支援繁體中文嗎?
支援。Gemma 4 全家族支援超過 140 種語言,詞彙表大小 262K。但中文能力跟 Qwen 3.5(專門為 CJK 語言優化、201 語言)比起來還是有差距,特別是在繁體中文的特定用語和語法處理上。如果你的應用以繁中為主,建議兩者都實測比較。
怎麼用 MCP 伺服器接上 Gemma 4 做本地 Agent?
透過 llama.cpp 的 OpenAI 相容 API(http://localhost:8080/v1),可以讓任何支援 OpenAI API 的 MCP 客戶端連上本地 Gemma 4。搭配 OpenClaw 框架可以建構桌面 Agent,從本地檔案和應用程式中擷取上下文。NVIDIA 和 Google 都在發布當天提供了 Agent 部署指南。
引用來源
- Google DeepMind — Gemma 4: Byte for byte, the most capable open models
- VentureBeat — Google releases Gemma 4 under Apache 2.0
- NVIDIA — From RTX to Spark: NVIDIA Accelerates Gemma 4 for Local Agentic AI
- Hugging Face — Welcome Gemma 4
- NVIDIA Technical Blog — Bringing AI Closer to the Edge and On-Device with Gemma 4
關於作者
Erik (EKC) — 我們在 2025 年從 Cursor 遷移到 Claude Code,之後又逐步建立了混合本地 + 雲端的 AI 工作流。在實際協助客戶評估開源模型部署的過程中,我觀察到一個反覆出現的模式:大多數團隊在 pilot 階段對本地模型的表現很滿意,但進入 production 時才發現模型路由和品質監控的工程成本被低估了。Gemma 4 的 MoE 架構確實降低了推論門檻,但「本地免費」跟「production-ready」之間還有不少工程要做。
如果你正在評估本地 AI 部署或混合架構方案,我們的團隊最近協助金融、製造和電商客戶完成了多個 Claude Code + 開源模型的混合部署專案。歡迎跟 Tenten 團隊預約諮詢,討論適合你的技術架構。
