Meta 於 2025 年 4 月 5 日正式發布了其最新一代的大型語言模型系列 Llama 4,這不再是傳聞或內部爆料,而是真實可下載的開源 AI 模型。這個全新世代的 Llama 模型套件不僅引起技術圈的關注,也被視為開源 AI 發展史上的重大里程碑。文章將帶你深入了解這次 Llama 4 帶來的變革,特別是它最令人驚嘆的特色:高達 1000 萬字元的上下文長度(10 million token context window)。
- The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
- Llama 4 - a meta-llama Collection (Huggingface)

Llama 4 系列模型一次看懂:Scout、Maverick、Behemoth
Meta 此次發布了四個不同規模和功能的 Llama 4 模型,其中兩個現已可用,另外兩個即將推出:
1. Llama 4 Scout:輕量高速的多模態選手
- 參數設定:170 億個活躍參數,16 專家架構(Mixture of Experts)
- 總參數量:1090 億
- 上下文長度:高達 1000 萬 tokens
- 特點:能在單顆 Nvidia H100 GPU 上運行,並且提供遠超同級模型的效能表現,堪稱是目前「最強小型模型」。
2. Llama 4 Maverick:中階全能,效能與效率兼具
- 參數設定:同樣為 170 億個活躍參數,但配置了 128 位專家
- 總參數量:高達 4000 億
- 上下文長度:100 萬 tokens
- 特點:本地多模態能力,整體效能打敗 GPT-4 Turbo、Gemini 2.0 Flash 等主流模型,並在推理成本上極具競爭力。
- 適合創意寫作、翻譯和長文本摘要
3. Llama 4 Behemoth:巔峰之作,未來的大型開源模型標準
- 總參數量:2 兆,全球目前最大模型之一
- 用途:雖然尚未完成訓練,但其設計目的更多是作為蒸餾(distillation)教師模型,幫助產出小型專用模型。
- 目前仍在訓練中,預計擁有 288 億活躍參數和接近 2 萬億總參數
- 設計為 Meta 迄今最強大的 AI 模型,作為訓練其他模型的"教師模型"
- 在 STEM 相關基準測試中表現卓越
- Mark Zuckerberg 稱其為"世界上性能最高的基礎模型"
4.Llama 4 Reasoning (推理版本)
- Zuckerberg 表示將在"下個月"公布更多信息
- 可能專注於增強推理能力



Mark Zuckerberg 將 LLama 4 描述為專為執行大規模任務而打造的「主力」。他說,它“在所有基準測試中都擊敗了 GPT-4o 和 Gemini Flash 2”,同時“比 DeepSeek-V3 更小、更有效率”
原生多模態架構
- 能夠處理文本、圖像和視頻,採用早期融合方式將文本和視覺 token 整合到統一模型骨幹中
- 使用大量未標記的文本、圖像和視頻數據進行預訓練
多語言能力增強
- 在 200 種語言上進行預訓練,其中 100 多種語言各有超過 10 億 token
- 比 Llama 3 使用的多語言 token 多 10 倍
高效訓練方法
- 使用 FP8 精度進行高效模型訓練,同時不犧牲質量
- 在訓練 Behemoth 模型時,使用 FP8 和 32K GPU,達到每 GPU 390 TFLOPs
- 總訓練數據混合超過 30 萬億 token,是 Llama 3 預訓練混合的兩倍多
為何「上下文長度」成為關鍵突破?
上下文長度(context length)指的是模型在一次推理中可以「記住」多少內容。Llama 4 Scout 令人震撼地支援 10 百萬 tokens 的上下文長度,遠遠超過市面上主流模型如 GPT-4 Turbo 或 Gemini Pro,這為處理大型程式碼、長篇文件、複雜任務帶來全新可能性。
這項技術突破意味著:
- 不再需要斷章取義處理大型內容
- 更精準的語意追蹤與邏輯分析
- 適合開發高階 AI 助理與長時間對話應用

Meta 在發布中強調了開放的策略重要性。該公司表示:「我們相信開放推動創新並讓每個人受益。」Llama 4 Scout 和 Maverick 均以開放條款發布,預計很快將透過雲端供應商和合作夥伴提供更廣泛的存取。
模型取得方式與授權問題
儘管 Llama 4 被定位為開源模型,但其授權條款依然備受爭議。如果你的平台有超過 7 億月活用戶,你將無法使用此模型。用戶需填寫 Meta 提供的表單,才能獲得下載連結,而且每個連結有 48 小時內最多下載五次的限制,這樣的「限制開源」也引發了不少反彈聲浪。
模型版本與用途差異
使用者下載後會獲得兩種模型版本:
- Pretrained Weights(預訓練模型):僅具備文字預測能力
- Instruct Weights(指令模型):可進行聊天、指令跟隨等互動操作
此外,也有 FP8(低精度)版本,方便在較低規格的硬體上執行。
效能評比與成本分析
根據 Meta 提供的資料:
- Llama 4 Maverick 在 LM Arena 測試中獲得 1417 分,逼近排行榜前三。
- 在 DocVQA、LiveCodeBench、ChartQA 等測試中超越 GPT-4 Turbo、Gemini Flash。
- 相較於 GPT-4 Turbo 每百萬 token 成本約 4.38 美元,Llama 4 Maverick 可壓低至 0.3–0.5 美元,展現絕佳的 效能/成本比。
技術亮點:Mixture of Experts 架構
Llama 4 採用了 Mixture of Experts(MoE) 技術,每個 token 只會激活部分專家,這大幅降低運算成本,同時維持模型效能。這種架構並非「主題式」專家(如醫學或生物學),而是透過演算法動態選擇合適的子模型處理輸入,有效提升運算效率。

開發背景與競爭因素
Llama 4 的開發受到多種因素推動:
競爭壓力
- 中國 AI 實驗室 DeepSeek 的開源模型表現與或超過 Meta 先前的旗艦 Llama 模型
- 報導指出,這加速了 Llama 的開發,Meta 設立專門團隊分析 DeepSeek 如何降低 R1 和 V3 等模型的運營成本
多次延遲發布
- 根據《The Information》和路透社的報導,Llama 4 在發布前至少延遲了兩次
- 延遲原因包括模型在開發過程中未能達到 Meta 的預期性能標準,特別是在推理和數學任務方面
投資者壓力
- Meta 計劃在 2025 年投入高達 650 億美元擴展其 AI 基礎設施
- 這一舉措旨在回應投資者對大型科技投資的實質回報要求
可用性與部署
平台與分發
- Scout 和 Maverick 現已可從 llama.com 和 Hugging Face 下載
- 已整合到 Meta AI 中,可通過 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 網站使用
- 也可在 AWS、Databricks 等平台上使用
成本效益
- Llama 4 Maverick 的估計成本為每百萬 token 0.19-0.25 美元(使用 3:1 輸入/輸出比)
- 這顯著低於專有模型如 GPT-4o(估計每百萬 token 4.50 美元)
許可證與限制
- 雖為開源軟件,但具有特定要求和限制
- 歐盟的個人和企業被禁止使用或分發這些模型,可能是由於監管要求
- 月活躍用戶超過 7 億的企業需要從 Meta 獲得特殊許可
應用場景
Llama 4 模型適用於多種應用場景:
| 應用領域 | 使用案例 | 優勢 |
|---|---|---|
| 客戶服務 | 智能助手處理客戶查詢 | 提升客戶體驗,降低等待時間 |
| 教育與輔導 | 個性化學習支持 | 幫助學生解決問題並理解複雜概念 |
| 創意寫作 | 生成故事、文章 | 提供創意靈感與內容創作支持 |
| 專業用例 | 法律、金融和研究領域輔助 | 協助數據分析、報告生成和決策支持 |
| 多模態應用 | 圖像識別、視覺問答 | 整合不同形式的信息進行處理 |
| 長文本處理 | 處理長上下文對話 | 適合摘要和分析長篇文章 |
未來計劃
LlamaCon 開發者大會
- 定於 2025 年 4 月 29 日舉行
- Meta 將在會上分享更多關於 Llama 4 和開源 AI 發展的信息
- 預計會宣布專用的 Meta 聊天機器人應用
持續發展
- Mark Zuckerberg 表示:"這只是 Llama 4 系列的開始"
- Meta 正在研究和原型設計更多模型和產品
- 未來的重點是使 Llama 能夠採取通用行動、自然地與人類對話,並解決之前未見過的挑戰性問題

Llama 4 與其他頂尖 AI 模型比較
以下是目前主要 AI 模型的技術規格與功能比較,結合開源與閉源生態的最新進展:
| 特性 | Llama 4 Maverick | GPT-4o | Grok 3 | DeepSeek-V3 | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| 架構 | 128 專家混合架構 (MoE) | 未公開 (推測為密集架構) | 未公開 | 37B/671B 參數 MoE 架構 | 增強型基礎模型+強化學習優化 |
| 激活參數量 | 17B 活躍參數 (總 400B) | 推測 40-60B (官方未確認) | 未公開 | 37B 活躍參數 (總 671B) | 未公開 |
| 上下文窗口 | 1000 萬 token | 128K token | 未公開 | 128K token | 200 萬 token (即將升級) |
| 多模態能力 | 原生多模態 (文本/圖像/視頻早期融合) | 端到端多模態 (文本/視覺/音頻) | 未公開 | 文本專用 | 原生多模態 (文本/圖像/音頻/視頻) |
| 推理延遲 | 未公開 | 平均 320ms | 未公開 | 60 TPS | 未公開 |
| 數學能力 | MMLU 76.1% | MATH 84.3% | AIME 1400 | AIME 2024 超越閉源模型 | MMMU 81.7% |
| 代碼能力 | LiveCodeBench 49.4% | 改進代碼生成與調試 | 未公開 | SWE-Bench 接近 GPT-3.5 | 支持複雜代碼生成與轉換 |
| 許可模式 | 開源 (歐盟受限) | 閉源 | 閉源 (X Premium+訂閱) | 開源 | 閉源 (Google AI Studio) |
| 成本效益 | $0.19-0.25/百萬 token | $4.5/百萬 token | 未公開 | 開源免費 | 未公開定價 |
| 硬件需求 | NVIDIA H100 DGX 系統 | 雲端 API | 雲端 API | 消費級 GPU 可運行 | 雲端 API |
| 獨特功能 | 10M token 長文本分析 | 情感化音頻交互 | 實時網絡數據訪問 | 三倍於前代的生成速度 | 65K token 輸出容量 |
關鍵差異分析
技術路線對比
- Llama 4 採用激進的 MoE 架構與早期多模態融合,在長上下文處理領域建立新標竿
- Gemini 2.5 Pro 通過擴展上下文窗口至 200 萬 token,強化複雜任務處理能力
- DeepSeek-V3 證明開源模型可通過算法優化在特定領域(如數學)超越閉源模型
應用場景優勢
- 企業級部署:Llama 4 的開源特性與成本優勢適合私有化部署
- 實時交互:GPT-4o 的 320ms 延遲為對話場景設定了新標準
- 開發工具鏈:Gemini 2.5 Pro 與 Google 生態的深度整合提升開發者效率
行業影響
Meta 通過 Llama 4 的 10M token 上下文窗口重新定義了長文本處理的標準,這項技術突破預計將推動法律文檔分析、基因組學研究等領域的變革。與此同時,DeepSeek-V3 在有限參數量下達到的商業化可用性能,預示著開源模型在垂直領域的滲透將加速。
總結:Llama 4 開啟全新的開源 AI 新時代
Meta 的 Llama 4 發布標誌著開源 AI 領域的重要進步,特別是在多模態能力、上下文處理和專家混合架構方面。通過結合效率、開放性和卓越性能,Llama 4 系列為開發者和企業提供了與 OpenAI、Anthropic、DeepSeek 和 Google 等公司的高端模型競爭的開源替代方案,展現了 Meta 推動開源社群的強大企圖。
雖然授權限制仍有爭議,但 Llama 4 的實力不容忽視。如果你是 AI 開發者、研究者或對多模態生成模型有興趣的技術玩家,現在正是時候深入了解這款革命性工具。
- Meta 推出全新 Llama 4 模型,但最強大的 AI 模型尚未問世 — Meta debuts new Llama 4 models, but most powerful AI model is still to come
- Meta 的 Llama 4 跨越極限:從 15k 頁分析到 2T 參數預覽 --- Meta's Llama 4 spans extremes: From 15k-page analysis to a 2T-parameter preview
- Meta 發布首批兩款多模式 Llama 4 模型,計劃推出兩兆參數模型 --- Meta Releases First Two Multimodal Llama 4 Models, Plans Two Trillion Parameter Model
- Llama 4 Maverick - API - OpenRouter
- OpenRouter,請考慮未來免費提供 Llama 4 的 API🥺🥺 : r/LocalLLaMA --- Please, OpenRouter, consider making Llama 4's API free in the future🥺🥺 : r/LocalLLaMA
- Meta 的 Llama 4 模型現已在 AWS 上提供 --- Meta's Llama 4 models now available on AWS
- Meta 發布 Llama 4,新一代旗艦 AI 模型 | TechCrunch — Meta releases Llama 4, a new crop of flagship AI models | TechCrunch

想要將 Llama 4 及其他先進 AI 模型的力量融入您的業務嗎?Tenten AI 團隊專精於整合最新 AI 技術,為您打造創新的數位解決方案。無論您需要多模態 AI 應用開發、客製化大型語言模型部署或是 AI 驅動的業務流程優化,我們都能幫助您領先競爭對手。現在就預約免費諮詢會議,讓我們一起探索 AI 為您企業帶來的無限可能。
