Gemma 4 在 2026 年 4 月 2 日正式發布,是 Google DeepMind 迄今為止最強的開源模型家族。 四款模型從手機到工作站全覆蓋,其中 26B MoE 變體在單張 RTX 3090 上就能跑出 64–119 tokens/sec 的生成速度,同時支援 256K token 上下文窗口。整個家族採用 Apache 2.0 授權,商用無限制。這篇文章拆解每款模型的硬體需求、量化選擇、PC 與 Mac 各自的最佳配置方案,以及如何搭配 OpenClaw agent 框架建立零成本的 agentic 工作流。

Gemma 4 家族四款模型:搞清楚你要跑哪一個

Gemma 4 從 Gemini 3 的研究基礎發展而來,分成四個尺寸。搞懂它們的差異是選硬體的前提。

模型 總參數量 推論活躍參數 架構 上下文窗口 最低 VRAM(Q4) 適合場景
E2B 5.1B 2.3B(有效) Dense + PLE 128K ~4 GB 手機、Raspberry Pi、極輕量測試
E4B ~9B 4.5B(有效) Dense + PLE 128K ~6 GB 筆電、入門桌機、多數人的起手式
26B A4B 26B 3.8B(MoE) MoE(128 專家,每 token 啟動 9 個) 256K ~18 GB 24 GB GPU 甜蜜點、agentic 工作流
31B 31B 31B(全量) Dense 256K ~20 GB 最高品質、微調基礎

E 系列的「E」代表 Effective parameters。E2B 和 E4B 採用 Per-Layer Embeddings(PLE)技術,讓小模型擁有遠超參數量暗示的表達深度。26B A4B 是 Gemma 家族第一款 MoE 模型,128 個小型專家中每個 token 只啟動 8+1 個共享專家,實際推論時只有 3.8B 參數在跑。

這個設計的實際意義:26B A4B 在 Arena AI 文字排行榜 排名第六,打敗了多個參數量超過它 20 倍的模型。31B Dense 排名第三。

PC 配置指南:從 RTX 3090 到 RTX 5090

Reddit 上 r/openclaw 社群有用戶分享,在雙 RTX 3090 上跑 Gemma 4 MoE 模型達到約 120 tokens/sec。這個數字跟硬體評測站的實測區間吻合:根據 Avenchat 的硬體需求指南,26B MoE 在單張 RTX 3090(24 GB VRAM)上的生成速度落在 64–119 tokens/sec,31B Dense 則是 30–34 tokens/sec。

依預算選 GPU
GPU VRAM 推薦模型 26B MoE 預估速度 備註
RTX 3060 12GB 12 GB E4B(Q4)或 26B(激進量化) 受限 VRAM 偏緊,建議從 E4B 開始
RTX 3090 / 4090 24 GB 26B A4B(Q4,完整 256K 上下文) 64–119 t/s 性價比甜蜜點,雙卡可進一步加速
RTX 5090 32 GB 31B Dense(Q4,完整 256K) ~60+ t/s 額外 headroom,31B 更從容
雙 RTX 3090 48 GB 26B A4B(Q8 或 BF16) ~100–120+ t/s 減少量化損失,推論更順暢
AMD Ryzen AI Max+ Pro 395(128 GB 統一記憶體) 最高 96 GB(VGM) 31B BF16、甚至 70B–128B Q4 依模型而定 x86 統一記憶體架構,可跑 Llama 4 Scout 109B,迷你 PC 形態(Framework Desktop 約 USD 2,566 / NTD 82,000)

RTX 3090 到現在還是本地 LLM 推論最划算的選擇之一。二手市場價格約 USD 600–800(約 NTD 19,000–26,000),24 GB VRAM 足以讓 26B MoE 在 Q4 量化下跑完整 256K 上下文,而且 VRAM 還有餘裕。

一個容易忽略的細節:VRAM 需求不只看模型權重大小。上下文長度越長,KV cache 吃的記憶體越多。26B A4B 在 Q4 量化下,4K 上下文約需 18 GB,拉到 256K 約需 23 GB。得益於 MoE 架構和混合注意力機制,上下文擴展的 VRAM 增幅比上一代平緩許多,這是它適合 24 GB 卡的關鍵原因。

量化選擇
量化等級 記憶體節省(vs BF16) 品質損失 適合情境
Q4_K_M ~60% ~2–5%(多數任務感覺不到) 多數用戶的預設起點
Q8_0 ~50% <1% VRAM 充裕時的升級選項
BF16 0% 0% 需要 80 GB H100 或雙高階 GPU

Unsloth 團隊提供的 Dynamic 4-bit(UD-Q4_K_XL)是目前推薦的量化格式,在關鍵層維持較高精度,非關鍵層壓縮更激進,比均勻 Q4 有更好的品質保留。

Mac 配置指南:Apple Silicon 的統一記憶體優勢

Apple Silicon 的統一記憶體架構天生適合本地 LLM 推論,CPU 和 GPU 共用同一塊記憶體,不需要在主記憶體和 VRAM 之間搬資料。Gemma 4 全系列支援 MLX 和 llama.cpp 的 Metal 加速。

2026 年 3 月底,Ollama 宣布在 Apple Silicon 上改用 MLX 作為底層引擎,推論速度大幅提升。在 M5 系列晶片上,Ollama 0.19 版本的預填充速度達到 1,851 tokens/sec,生成速度 134 tokens/sec(int4 量化,以 Qwen3.5-35B-A3B 測試)。

依機型選模型
Mac 機型 統一記憶體 推薦模型 實際體驗
MacBook Air M3/M4(8 GB) 8 GB E2B 或 E4B(Q4) 夠用於日常問答,別期待深度推理
MacBook Pro M4 Pro(18–36 GB) 18–36 GB E4B(Q8)或 26B A4B(Q4) 26B 在 24 GB 以上機型可順跑
Mac Mini M4(16–32 GB) 16–32 GB 26B A4B(Q4,約 9.6 GB) 24 GB 版本是 CP 值最高的選擇
Mac Studio M4 Max(128 GB) 128 GB 31B(Q8 或 BF16)+ 多模型並行 128 GB 統一記憶體跑 31B BF16 綽綽有餘,可同時載入多個模型做 sub-agent
Mac Studio M3 Ultra(192–512 GB) 最高 512 GB 70B+ 模型 BF16、多模型並行 819 GB/s 記憶體頻寬,本地推論站的天花板配置

根據 Avenchat 的實測,26B A4B 在 Mac Mini 24 GB 統一記憶體上用 Ollama Q4_K_M 量化(約 9.6 GB),運行順暢且留有充裕的記憶體空間。跑 26B 全尺寸會讓 24 GB 的 Mac 在併發請求下變得很卡,建議維持 Q4 並留記憶體餘裕。

Mac 用戶還有一個選項:透過 mlx-vlm 函式庫直接用 MLX 跑多模態推論,支援 TurboQuant 量化,記憶體需求可再降約 4 倍,適合在 Apple Silicon 上跑長上下文任務。

三種本地部署方式:Ollama、llama.cpp、vLLM

方式一:Ollama(最簡單,推薦新手)

安裝後一行指令就能跑:

# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 跑預設的 E4B(多數人的起手式)
ollama run gemma4

# 或指定模型
ollama run gemma4:e2b    # 最輕量
ollama run gemma4:e4b    # 性價比最高
ollama run gemma4:26b    # MoE 甜蜜點
ollama run gemma4:31b    # 最高品質

Ollama 自動處理模型下載、量化、硬體偵測。啟動後會在 localhost:11434 暴露 OpenAI 相容 API,可以直接接入 OpenClaw 或其他 agent 框架。

方式二:llama.cpp(進階用戶,最佳 CPU 推論)
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
  -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON  # Mac 用 -DGGML_CUDA=OFF
cmake --build llama.cpp/build --config Release -j

# 跑 26B MoE
./llama.cpp/llama-cli \
  -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 --top-p 0.95 --top-k 64

Mac 用戶不需要額外設定,Metal 加速預設啟用。llama.cpp 也支援以 server 模式運行,暴露 API 供其他工具呼叫。

方式三:vLLM(生產環境,多併發)

適合需要同時服務多個請求的場景,例如在公司內部架設共用推論服務。支援 PagedAttention 高效記憶體管理和多 GPU 平行運算。

搭配 OpenClaw 建立 Agentic 工作流

OpenClaw(前身 Clawdbot / Moltbot)是 2026 年初竄升最快的開源 AI agent 框架之一,上線不到一週就拿到超過數萬 GitHub Stars。它的核心概念是「本地優先」:對話記憶、技能、設定都存成 Markdown 和 YAML 檔案在你的硬碟上,模型可以接雲端 API 也可以接本地 Ollama / LM Studio。

Gemma 4 跟 OpenClaw 的組合特別值得關注,原因有三:

第一,Gemma 4 的原生 function calling 能力大幅提升。26B MoE 在 τ2-bench(零售 agentic 工具使用測試)拿到 85.5%,31B Dense 拿到 86.4%。對比 Gemma 3 27B 的 6.6%,進步幅度很驚人。這代表 Gemma 4 能穩定地產出結構化 JSON 工具呼叫,OpenClaw 的 skill 系統才跑得動。

第二,MoE 架構的速度優勢讓 agentic loop 感覺近乎即時。Agent 的工作迴圈是「輸入 → 思考 → 決定用哪個工具 → 執行 → 把結果餵回模型 → 再思考」,每一步都需要模型推論。26B MoE 在 RTX 3090 上 64–119 tokens/sec 的速度,讓整個迴圈的延遲控制在用戶可接受的範圍內。

第三,Apache 2.0 授權移除了商用限制。過去 Gemma 系列用自訂授權,有使用限制和可被 Google 更改的條款,讓企業法務部門不太放心。現在跟 Qwen、Mistral 站在同一個授權條件上。

OpenClaw 配置範例
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/gemma4:26b"
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434",
        "apiKey": "ollama"
      }
    }
  }
}

OpenClaw 也支援混合架構:用雲端的 Claude 或 GPT-4 當主要協調者(orchestrator),把具體執行任務委派給本地 Gemma 4 sub-agent。這樣可以用最少的 API 費用獲得最大的產出。一個 DEV Community 上的開發者實測,M3 Pro 36 GB 的 MacBook Pro 上同時跑 2–3 個本地 sub-agent,電費大概 USD 0.004/小時。

跟其他本地模型比較:Gemma 4 vs Qwen 3.5 vs Llama 4

維度 Gemma 4 26B MoE Qwen 3.5(32B 級) Llama 4 Scout
授權 Apache 2.0 Apache 2.0 Community License(有限制)
推論活躍參數 3.8B 全量 32B MoE,活躍 ~17B
上下文窗口 256K 128K 10M(理論值)
多模態 文字 + 影像 + 影片 文字 + 影像 文字 + 影像
Function Calling 原生支援 原生支援 有限
24 GB GPU 適配 完整 256K 上下文 Q4 可跑,上下文受限 需要更大 VRAM
Arena AI 排名 #6(文字) 競爭激烈 表現不一
τ2-bench 工具使用 85.5% 未公開 未公開

Gemma 4 的 26B MoE 在 24 GB 卡上的使用體驗明顯優於其他同級模型,因為活躍參數只有 3.8B,記憶體頻寬壓力小,上下文擴展也更平緩。如果你的應用場景需要長上下文加上穩定的工具呼叫,它目前是消費級硬體上最實用的選擇。

但如果你的場景以中文為主,Qwen 系列在中文任務上的表現通常更好。英文場景下 Gemma 4 和 Qwen 3.5 的差距不大,選擇主要取決於授權偏好和硬體適配。

要不要啟用 Thinking Mode?

Gemma 4 內建推理模式,類似 Claude 的 extended thinking 或 DeepSeek R1 的 chain-of-thought。在系統提示開頭加入 <|think|> 就能啟用,模型會先輸出內部推理過程,再給出最終答案。

實際使用建議:需要數學、程式碼、多步推理的任務開啟它;一般對話和簡單問答關掉,因為推理過程會消耗額外 token,拉長回應時間。如果跑 agentic 工作流,工具呼叫的部分不建議開 thinking mode,會增加不必要的延遲。

微調:消費級硬體也能做

Gemma 4 支援 QLoRA 微調。31B Dense 用 QLoRA 最低只需 16 GB VRAM,透過 Unsloth 或 TRL 操作。完整微調(full fine-tuning)需要至少 80 GB VRAM。

對多數應用場景來說,直接用 instruction-tuned 版本加上好的 system prompt 就夠了。微調值得投入的場景:企業內部特定領域的知識、特殊格式要求、或需要大幅改變模型行為的情況。

部署注意事項

幾個容易踩的坑:

Gemma 4 才發布三天(截至 2026 年 4 月 5 日),各框架的支援還在快速迭代中。Hacker News 上有開發者指出,部分 tokenizer 實現和量化可能存在問題,工具呼叫行為也可能不穩定。碰到異常結果時,先確認你用的是最新版本的 Ollama / llama.cpp / LM Studio。

OpenClaw 的文件也提醒:本地模型跳過了雲端服務商的安全過濾機制,需要把 agent 的權限範圍控制好,compaction(壓縮歷史對話)也要開著,限制 prompt injection 的影響範圍。在 agentic 場景裡,MoE 模型有迴圈(looping)的風險,如果發現 agent 反覆呼叫同一個工具,需要設定 timeout 和最大迭代次數。

常見問題

我的電腦有 8 GB 記憶體,能跑 Gemma 4 嗎?

可以。E2B 和 E4B 在 Q4 量化下分別需要約 4 GB 和 6 GB 記憶體,8 GB 機器跑 E2B 沒問題,E4B 會偏緊但也能用。別嘗試 26B 或 31B,記憶體完全不夠。

Gemma 4 的 26B MoE 跟 31B Dense 怎麼選?

如果你有 24 GB GPU 或 24 GB 以上 Apple Silicon:選 26B MoE。速度快 2–3 倍,品質只差約 3%,而且支援完整 256K 上下文不吃力。31B 適合有 32 GB 以上 VRAM 且追求最高品質的用戶,或者需要微調的場景。

跑 agentic 工作流用哪個模型最穩?

26B MoE 是目前社群共識的本地 agentic 首選。τ2-bench 85.5% 的工具使用準確率已經接近實用門檻。但如果任務特別重視工具呼叫的穩定性,OpenClaw 社群建議 Qwen3-Coder:32B 的失敗率更低。

Mac 跟 PC 哪個比較適合跑本地 LLM?

各有優勢。Mac 的統一記憶體架構在記憶體利用率上更好,不需要在 RAM 和 VRAM 之間搬資料,而且 Ollama 的 MLX 優化讓速度再提升一截。PC 的優勢在 GPU 的原始運算力更強,尤其是高階 NVIDIA 顯卡的 CUDA 生態成熟。AMD Ryzen AI Max+ Pro 395 則是 x86 陣營的統一記憶體方案,128 GB 配置最高可分配 96 GB 給 GPU,能跑 70B 以上的模型,Framework Desktop 售價約 USD 2,566(約 NTD 82,000),比同等記憶體容量的 Mac Studio 便宜不少。預算有限選二手 RTX 3090(約 NTD 19,000–26,000),追求統一記憶體大容量選 AMD Ryzen AI Max+ 或 Mac Studio。

Gemma 4 可以商用嗎?

可以。Apache 2.0 授權允許自由商用、微調、重新分發、修改,沒有月活躍用戶上限或使用場景限制。這是 Gemma 家族第一次採用這麼開放的授權,之前的版本用自訂授權,商用上有灰色地帶。

引用來源

Insight

我們團隊在內部部署 OpenClaw,最初用 Claude API 當 orchestrator,後來逐步把執行層的 sub-agent 遷移到本地模型。Gemma 4 發布後,我們第一時間在 Mac Studio M3 Ultra 和雙 RTX 3090 工作站上做了測試。26B MoE 在 agentic 場景下的 function calling 穩定度確實跟社群反映的一致,比 Gemma 3 有質的飛躍。

但我想提醒一件事:本地 LLM 跑 agent 不是裝好就完事了。模型選得再好,如果 system prompt 寫得鬆散、工具定義不清楚、沒有設 timeout 和錯誤處理,agent 一樣會出問題。我們在替客戶規劃 AI agent 架構時,花最多時間的反而不是模型選型,而是工具介面設計和安全邊界設定。

如果你正在評估本地 AI 部署方案,或想了解 OpenClaw + Gemma 4 在企業場景的可行性,歡迎跟 Tenten 團隊預約諮詢

Share this post
Erik (EKC)

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running

Loading...