Gemma 4 需要多少 VRAM 才能在本地跑？

E2B 約 4 GB、E4B 約 6 GB、26B MoE 約 18 GB、31B Dense 約 20 GB（均為 Q4 量化）。24 GB GPU 如 RTX 3090 可順跑 26B MoE 完整 256K 上下文。

Mac 可以跑 Gemma 4 嗎？推薦什麼配置？

可以。Apple Silicon 統一記憶體天生適合本地 LLM。24 GB Mac Mini 用 Ollama 跑 26B MoE Q4 量化約佔 9.6 GB，留有充裕空間。建議至少 16 GB 統一記憶體。

Gemma 4 跟 OpenClaw 怎麼搭配？

安裝 Ollama 跑 Gemma 4，然後在 OpenClaw 的 openclaw.json 將 model 設為 ollama/gemma4:26b，baseUrl 指向 localhost:11434。Gemma 4 原生支援 function calling，OpenClaw 的 skill 系統可直接調用。

Gemma 4 26B MoE 的推論速度有多快？

在單張 RTX 3090 上，Q4 量化的 26B MoE 生成速度約 64-119 tokens/sec。31B Dense 約 30-34 tokens/sec。MoE 的速度優勢來自推論時只啟動 3.8B 參數。

Gemma 4 可以商用嗎？授權有什麼限制？

Gemma 4 採用 Apache 2.0 授權，允許自由商用、微調、重新分發，無月活躍用戶上限或使用場景限制。這是 Gemma 家族首次採用完全開放的標準授權。

Gemma 4 本地部署完整指南：PC 與 Mac 最佳硬體配置、推論速度實測與 OpenClaw Agent 整合

Gemma 4 在 2026 年 4 月 2 日正式發布，是 Google DeepMind 迄今為止最強的開源模型家族。 四款模型從手機到工作站全覆蓋，其中 26B MoE 變體在單張 RTX 3090 上就能跑出 64–119 tokens/sec 的生成速度，同時支援 256K token 上下文窗口。整個家族採用 Apache 2.0 授權，商用無限制。這篇文章拆解每款模型的硬體需求、量化選擇、PC 與 Mac 各自的最佳配置方案，以及如何搭配 OpenClaw agent 框架建立零成本的 agentic 工作流。

Gemma 4 家族四款模型：搞清楚你要跑哪一個

Gemma 4 從 Gemini 3 的研究基礎發展而來，分成四個尺寸。搞懂它們的差異是選硬體的前提。

模型	總參數量	推論活躍參數	架構	上下文窗口	最低 VRAM（Q4）	適合場景
E2B	5.1B	2.3B（有效）	Dense + PLE	128K	~4 GB	手機、Raspberry Pi、極輕量測試
E4B	~9B	4.5B（有效）	Dense + PLE	128K	~6 GB	筆電、入門桌機、多數人的起手式
26B A4B	26B	3.8B（MoE）	MoE（128 專家，每 token 啟動 9 個）	256K	~18 GB	24 GB GPU 甜蜜點、agentic 工作流
31B	31B	31B（全量）	Dense	256K	~20 GB	最高品質、微調基礎

E 系列的「E」代表 Effective parameters。E2B 和 E4B 採用 Per-Layer Embeddings（PLE）技術，讓小模型擁有遠超參數量暗示的表達深度。26B A4B 是 Gemma 家族第一款 MoE 模型，128 個小型專家中每個 token 只啟動 8+1 個共享專家，實際推論時只有 3.8B 參數在跑。

這個設計的實際意義：26B A4B 在 Arena AI 文字排行榜排名第六，打敗了多個參數量超過它 20 倍的模型。31B Dense 排名第三。

PC 配置指南：從 RTX 3090 到 RTX 5090

Reddit 上 r/openclaw 社群有用戶分享，在雙 RTX 3090 上跑 Gemma 4 MoE 模型達到約 120 tokens/sec。這個數字跟硬體評測站的實測區間吻合：根據 Avenchat 的硬體需求指南，26B MoE 在單張 RTX 3090（24 GB VRAM）上的生成速度落在 64–119 tokens/sec，31B Dense 則是 30–34 tokens/sec。

依預算選 GPU

GPU	VRAM	推薦模型	26B MoE 預估速度	備註
RTX 3060 12GB	12 GB	E4B（Q4）或 26B（激進量化）	受限	VRAM 偏緊，建議從 E4B 開始
RTX 3090 / 4090	24 GB	26B A4B（Q4，完整 256K 上下文）	64–119 t/s	性價比甜蜜點，雙卡可進一步加速
RTX 5090	32 GB	31B Dense（Q4，完整 256K）	~60+ t/s	額外 headroom，31B 更從容
雙 RTX 3090	48 GB	26B A4B（Q8 或 BF16）	~100–120+ t/s	減少量化損失，推論更順暢
AMD Ryzen AI Max+ Pro 395（128 GB 統一記憶體）	最高 96 GB（VGM）	31B BF16、甚至 70B–128B Q4	依模型而定	x86 統一記憶體架構，可跑 Llama 4 Scout 109B，迷你 PC 形態（Framework Desktop 約 USD 2,566 / NTD 82,000）

RTX 3090 到現在還是本地 LLM 推論最划算的選擇之一。二手市場價格約 USD 600–800（約 NTD 19,000–26,000），24 GB VRAM 足以讓 26B MoE 在 Q4 量化下跑完整 256K 上下文，而且 VRAM 還有餘裕。

一個容易忽略的細節：VRAM 需求不只看模型權重大小。上下文長度越長，KV cache 吃的記憶體越多。26B A4B 在 Q4 量化下，4K 上下文約需 18 GB，拉到 256K 約需 23 GB。得益於 MoE 架構和混合注意力機制，上下文擴展的 VRAM 增幅比上一代平緩許多，這是它適合 24 GB 卡的關鍵原因。

量化選擇

量化等級	記憶體節省（vs BF16）	品質損失	適合情境
Q4_K_M	~60%	~2–5%（多數任務感覺不到）	多數用戶的預設起點
Q8_0	~50%	<1%	VRAM 充裕時的升級選項
BF16	0%	0%	需要 80 GB H100 或雙高階 GPU

Unsloth 團隊提供的 Dynamic 4-bit（UD-Q4_K_XL）是目前推薦的量化格式，在關鍵層維持較高精度，非關鍵層壓縮更激進，比均勻 Q4 有更好的品質保留。

Mac 配置指南：Apple Silicon 的統一記憶體優勢

Apple Silicon 的統一記憶體架構天生適合本地 LLM 推論，CPU 和 GPU 共用同一塊記憶體，不需要在主記憶體和 VRAM 之間搬資料。Gemma 4 全系列支援 MLX 和 llama.cpp 的 Metal 加速。

2026 年 3 月底，Ollama 宣布在 Apple Silicon 上改用 MLX 作為底層引擎，推論速度大幅提升。在 M5 系列晶片上，Ollama 0.19 版本的預填充速度達到 1,851 tokens/sec，生成速度 134 tokens/sec（int4 量化，以 Qwen3.5-35B-A3B 測試）。

依機型選模型

Mac 機型	統一記憶體	推薦模型	實際體驗
MacBook Air M3/M4（8 GB）	8 GB	E2B 或 E4B（Q4）	夠用於日常問答，別期待深度推理
MacBook Pro M4 Pro（18–36 GB）	18–36 GB	E4B（Q8）或 26B A4B（Q4）	26B 在 24 GB 以上機型可順跑
Mac Mini M4（16–32 GB）	16–32 GB	26B A4B（Q4，約 9.6 GB）	24 GB 版本是 CP 值最高的選擇
Mac Studio M4 Max（128 GB）	128 GB	31B（Q8 或 BF16）+ 多模型並行	128 GB 統一記憶體跑 31B BF16 綽綽有餘，可同時載入多個模型做 sub-agent
Mac Studio M3 Ultra（192–512 GB）	最高 512 GB	70B+ 模型 BF16、多模型並行	819 GB/s 記憶體頻寬，本地推論站的天花板配置

根據 Avenchat 的實測，26B A4B 在 Mac Mini 24 GB 統一記憶體上用 Ollama Q4_K_M 量化（約 9.6 GB），運行順暢且留有充裕的記憶體空間。跑 26B 全尺寸會讓 24 GB 的 Mac 在併發請求下變得很卡，建議維持 Q4 並留記憶體餘裕。

Mac 用戶還有一個選項：透過 mlx-vlm 函式庫直接用 MLX 跑多模態推論，支援 TurboQuant 量化，記憶體需求可再降約 4 倍，適合在 Apple Silicon 上跑長上下文任務。

三種本地部署方式：Ollama、llama.cpp、vLLM

方式一：Ollama（最簡單，推薦新手）

安裝後一行指令就能跑：

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑預設的 E4B（多數人的起手式）
ollama run gemma4

# 或指定模型
ollama run gemma4:e2b    # 最輕量
ollama run gemma4:e4b    # 性價比最高
ollama run gemma4:26b    # MoE 甜蜜點
ollama run gemma4:31b    # 最高品質

Ollama 自動處理模型下載、量化、硬體偵測。啟動後會在 localhost:11434 暴露 OpenAI 相容 API，可以直接接入 OpenClaw 或其他 agent 框架。

方式二：llama.cpp（進階用戶，最佳 CPU 推論）

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON  # Mac 用 -DGGML_CUDA=OFF
cmake --build llama.cpp/build --config Release -j

# 跑 26B MoE
./llama.cpp/llama-cli \
  -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 --top-p 0.95 --top-k 64

Mac 用戶不需要額外設定，Metal 加速預設啟用。llama.cpp 也支援以 server 模式運行，暴露 API 供其他工具呼叫。

方式三：vLLM（生產環境，多併發）

適合需要同時服務多個請求的場景，例如在公司內部架設共用推論服務。支援 PagedAttention 高效記憶體管理和多 GPU 平行運算。

搭配 OpenClaw 建立 Agentic 工作流

OpenClaw（前身 Clawdbot / Moltbot）是 2026 年初竄升最快的開源 AI agent 框架之一，上線不到一週就拿到超過數萬 GitHub Stars。它的核心概念是「本地優先」：對話記憶、技能、設定都存成 Markdown 和 YAML 檔案在你的硬碟上，模型可以接雲端 API 也可以接本地 Ollama / LM Studio。

Gemma 4 跟 OpenClaw 的組合特別值得關注，原因有三：

第一，Gemma 4 的原生 function calling 能力大幅提升。26B MoE 在 τ2-bench（零售 agentic 工具使用測試）拿到 85.5%，31B Dense 拿到 86.4%。對比 Gemma 3 27B 的 6.6%，進步幅度很驚人。這代表 Gemma 4 能穩定地產出結構化 JSON 工具呼叫，OpenClaw 的 skill 系統才跑得動。

第二，MoE 架構的速度優勢讓 agentic loop 感覺近乎即時。Agent 的工作迴圈是「輸入 → 思考 → 決定用哪個工具 → 執行 → 把結果餵回模型 → 再思考」，每一步都需要模型推論。26B MoE 在 RTX 3090 上 64–119 tokens/sec 的速度，讓整個迴圈的延遲控制在用戶可接受的範圍內。

第三，Apache 2.0 授權移除了商用限制。過去 Gemma 系列用自訂授權，有使用限制和可被 Google 更改的條款，讓企業法務部門不太放心。現在跟 Qwen、Mistral 站在同一個授權條件上。

OpenClaw 配置範例

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/gemma4:26b"
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434",
        "apiKey": "ollama"
      }
    }
  }
}

OpenClaw 也支援混合架構：用雲端的 Claude 或 GPT-4 當主要協調者（orchestrator），把具體執行任務委派給本地 Gemma 4 sub-agent。這樣可以用最少的 API 費用獲得最大的產出。一個 DEV Community 上的開發者實測，M3 Pro 36 GB 的 MacBook Pro 上同時跑 2–3 個本地 sub-agent，電費大概 USD 0.004/小時。

跟其他本地模型比較：Gemma 4 vs Qwen 3.5 vs Llama 4

維度	Gemma 4 26B MoE	Qwen 3.5（32B 級）	Llama 4 Scout
授權	Apache 2.0	Apache 2.0	Community License（有限制）
推論活躍參數	3.8B	全量 32B	MoE，活躍 ~17B
上下文窗口	256K	128K	10M（理論值）
多模態	文字 + 影像 + 影片	文字 + 影像	文字 + 影像
Function Calling	原生支援	原生支援	有限
24 GB GPU 適配	完整 256K 上下文	Q4 可跑，上下文受限	需要更大 VRAM
Arena AI 排名	#6（文字）	競爭激烈	表現不一
τ2-bench 工具使用	85.5%	未公開	未公開

Gemma 4 的 26B MoE 在 24 GB 卡上的使用體驗明顯優於其他同級模型，因為活躍參數只有 3.8B，記憶體頻寬壓力小，上下文擴展也更平緩。如果你的應用場景需要長上下文加上穩定的工具呼叫，它目前是消費級硬體上最實用的選擇。

但如果你的場景以中文為主，Qwen 系列在中文任務上的表現通常更好。英文場景下 Gemma 4 和 Qwen 3.5 的差距不大，選擇主要取決於授權偏好和硬體適配。

要不要啟用 Thinking Mode？

Gemma 4 內建推理模式，類似 Claude 的 extended thinking 或 DeepSeek R1 的 chain-of-thought。在系統提示開頭加入 <|think|> 就能啟用，模型會先輸出內部推理過程，再給出最終答案。

實際使用建議：需要數學、程式碼、多步推理的任務開啟它；一般對話和簡單問答關掉，因為推理過程會消耗額外 token，拉長回應時間。如果跑 agentic 工作流，工具呼叫的部分不建議開 thinking mode，會增加不必要的延遲。

微調：消費級硬體也能做

Gemma 4 支援 QLoRA 微調。31B Dense 用 QLoRA 最低只需 16 GB VRAM，透過 Unsloth 或 TRL 操作。完整微調（full fine-tuning）需要至少 80 GB VRAM。

對多數應用場景來說，直接用 instruction-tuned 版本加上好的 system prompt 就夠了。微調值得投入的場景：企業內部特定領域的知識、特殊格式要求、或需要大幅改變模型行為的情況。

部署注意事項

幾個容易踩的坑：

Gemma 4 才發布三天（截至 2026 年 4 月 5 日），各框架的支援還在快速迭代中。Hacker News 上有開發者指出，部分 tokenizer 實現和量化可能存在問題，工具呼叫行為也可能不穩定。碰到異常結果時，先確認你用的是最新版本的 Ollama / llama.cpp / LM Studio。

OpenClaw 的文件也提醒：本地模型跳過了雲端服務商的安全過濾機制，需要把 agent 的權限範圍控制好，compaction（壓縮歷史對話）也要開著，限制 prompt injection 的影響範圍。在 agentic 場景裡，MoE 模型有迴圈（looping）的風險，如果發現 agent 反覆呼叫同一個工具，需要設定 timeout 和最大迭代次數。

常見問題

我的電腦有 8 GB 記憶體，能跑 Gemma 4 嗎？

可以。E2B 和 E4B 在 Q4 量化下分別需要約 4 GB 和 6 GB 記憶體，8 GB 機器跑 E2B 沒問題，E4B 會偏緊但也能用。別嘗試 26B 或 31B，記憶體完全不夠。

Gemma 4 的 26B MoE 跟 31B Dense 怎麼選？

如果你有 24 GB GPU 或 24 GB 以上 Apple Silicon：選 26B MoE。速度快 2–3 倍，品質只差約 3%，而且支援完整 256K 上下文不吃力。31B 適合有 32 GB 以上 VRAM 且追求最高品質的用戶，或者需要微調的場景。

跑 agentic 工作流用哪個模型最穩？

26B MoE 是目前社群共識的本地 agentic 首選。τ2-bench 85.5% 的工具使用準確率已經接近實用門檻。但如果任務特別重視工具呼叫的穩定性，OpenClaw 社群建議 Qwen3-Coder:32B 的失敗率更低。

Mac 跟 PC 哪個比較適合跑本地 LLM？

各有優勢。Mac 的統一記憶體架構在記憶體利用率上更好，不需要在 RAM 和 VRAM 之間搬資料，而且 Ollama 的 MLX 優化讓速度再提升一截。PC 的優勢在 GPU 的原始運算力更強，尤其是高階 NVIDIA 顯卡的 CUDA 生態成熟。AMD Ryzen AI Max+ Pro 395 則是 x86 陣營的統一記憶體方案，128 GB 配置最高可分配 96 GB 給 GPU，能跑 70B 以上的模型，Framework Desktop 售價約 USD 2,566（約 NTD 82,000），比同等記憶體容量的 Mac Studio 便宜不少。預算有限選二手 RTX 3090（約 NTD 19,000–26,000），追求統一記憶體大容量選 AMD Ryzen AI Max+ 或 Mac Studio。

Gemma 4 可以商用嗎？

可以。Apache 2.0 授權允許自由商用、微調、重新分發、修改，沒有月活躍用戶上限或使用場景限制。這是 Gemma 家族第一次採用這麼開放的授權，之前的版本用自訂授權，商用上有灰色地帶。

引用來源

Insight

我們團隊在內部部署 OpenClaw，最初用 Claude API 當 orchestrator，後來逐步把執行層的 sub-agent 遷移到本地模型。Gemma 4 發布後，我們第一時間在 Mac Studio M3 Ultra 和雙 RTX 3090 工作站上做了測試。26B MoE 在 agentic 場景下的 function calling 穩定度確實跟社群反映的一致，比 Gemma 3 有質的飛躍。

但我想提醒一件事：本地 LLM 跑 agent 不是裝好就完事了。模型選得再好，如果 system prompt 寫得鬆散、工具定義不清楚、沒有設 timeout 和錯誤處理，agent 一樣會出問題。我們在替客戶規劃 AI agent 架構時，花最多時間的反而不是模型選型，而是工具介面設計和安全邊界設定。

如果你正在評估本地 AI 部署方案，或想了解 OpenClaw + Gemma 4 在企業場景的可行性，歡迎跟 Tenten 團隊預約諮詢。

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running