Meta 於 2025 年 4 月 5 日正式發布了其最新一代的大型語言模型系列 Llama 4,這不再是傳聞或內部爆料,而是真實可下載的開源 AI 模型。這個全新世代的 Llama 模型套件不僅引起技術圈的關注,也被視為開源 AI 發展史上的重大里程碑。文章將帶你深入了解這次 Llama 4 帶來的變革,特別是它最令人驚嘆的特色:高達 1000 萬字元的上下文長度(10 million token context window)


Llama 4 系列模型一次看懂:Scout、Maverick、Behemoth

Meta 此次發布了四個不同規模和功能的 Llama 4 模型,其中兩個現已可用,另外兩個即將推出:

1. Llama 4 Scout:輕量高速的多模態選手

  • 參數設定:170 億個活躍參數,16 專家架構(Mixture of Experts)
  • 總參數量:1090 億
  • 上下文長度:高達 1000 萬 tokens
  • 特點:能在單顆 Nvidia H100 GPU 上運行,並且提供遠超同級模型的效能表現,堪稱是目前「最強小型模型」。

2. Llama 4 Maverick:中階全能,效能與效率兼具

  • 參數設定:同樣為 170 億個活躍參數,但配置了 128 位專家
  • 總參數量:高達 4000 億
  • 上下文長度:100 萬 tokens
  • 特點:本地多模態能力,整體效能打敗 GPT-4 Turbo、Gemini 2.0 Flash 等主流模型,並在推理成本上極具競爭力。
  • 適合創意寫作、翻譯和長文本摘要

3. Llama 4 Behemoth:巔峰之作,未來的大型開源模型標準

  • 總參數量:2 兆,全球目前最大模型之一
  • 用途:雖然尚未完成訓練,但其設計目的更多是作為蒸餾(distillation)教師模型,幫助產出小型專用模型。
  • 目前仍在訓練中,預計擁有 288 億活躍參數和接近 2 萬億總參數
  • 設計為 Meta 迄今最強大的 AI 模型,作為訓練其他模型的"教師模型"
  • 在 STEM 相關基準測試中表現卓越
  • Mark Zuckerberg 稱其為"世界上性能最高的基礎模型"

4.Llama 4 Reasoning (推理版本)

  • Zuckerberg 表示將在"下個月"公布更多信息
  • 可能專注於增強推理能力
Llama 4 Maverick 也是一個擁有 170 億個活躍參數的模型,但擁有 128 位專家,專為更高端的用例而設計。它包含總共 4000 億個參數,在推理和編碼任務上的表現可與 DeepSeek V3 等更大的模型相媲美。 Meta 表示,Maverick 在多個基準測試中都超過了 GPT-4o 和 Gemini 2.0 Flash。在 LMArena 的實驗性聊天設定中,它的 ELO 得分為 1417。
Meta 表示:「Scout 是我們同類產品中效率最高的型號。它的性能超越了 Llama 3,同時具有更高的可擴展性。」模型在廣泛報導的基準測試中取得了比競爭系統(包括 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1)更好的結果。
Mark Zuckerberg 將 LLama 4 描述為專為執行大規模任務而打造的「主力」。他說,它“在所有基準測試中都擊敗了 GPT-4o 和 Gemini Flash 2”,同時“比 DeepSeek-V3 更小、更有效率”

原生多模態架構

  • 能夠處理文本、圖像和視頻,採用早期融合方式將文本和視覺 token 整合到統一模型骨幹中
  • 使用大量未標記的文本、圖像和視頻數據進行預訓練

多語言能力增強

  • 在 200 種語言上進行預訓練,其中 100 多種語言各有超過 10 億 token
  • 比 Llama 3 使用的多語言 token 多 10 倍

高效訓練方法

  • 使用 FP8 精度進行高效模型訓練,同時不犧牲質量
  • 在訓練 Behemoth 模型時,使用 FP8 和 32K GPU,達到每 GPU 390 TFLOPs
  • 總訓練數據混合超過 30 萬億 token,是 Llama 3 預訓練混合的兩倍多

為何「上下文長度」成為關鍵突破?

上下文長度(context length)指的是模型在一次推理中可以「記住」多少內容。Llama 4 Scout 令人震撼地支援 10 百萬 tokens 的上下文長度,遠遠超過市面上主流模型如 GPT-4 Turbo 或 Gemini Pro,這為處理大型程式碼、長篇文件、複雜任務帶來全新可能性。

這項技術突破意味著:

  • 不再需要斷章取義處理大型內容
  • 更精準的語意追蹤與邏輯分析
  • 適合開發高階 AI 助理與長時間對話應用
在訓練方法方面,Meta 引入了一種輕量級監督微調(SFT)方法,隨後是在線強化學習(RL)和直接偏好優化(DPO)。對於 Maverick 來說,超過 50% 的 SFT 資料被過濾掉,以專注於更難的例子,從而提高模型在推理和對話方面的表現。
Meta 在發布中強調了開放的策略重要性。該公司表示:「我們相信開放推動創新並讓每個人受益。」Llama 4 Scout 和 Maverick 均以開放條款發布,預計很快將透過雲端供應商和合作夥伴提供更廣泛的存取。

模型取得方式與授權問題

儘管 Llama 4 被定位為開源模型,但其授權條款依然備受爭議。如果你的平台有超過 7 億月活用戶,你將無法使用此模型。用戶需填寫 Meta 提供的表單,才能獲得下載連結,而且每個連結有 48 小時內最多下載五次的限制,這樣的「限制開源」也引發了不少反彈聲浪。


模型版本與用途差異

使用者下載後會獲得兩種模型版本:

  • Pretrained Weights(預訓練模型):僅具備文字預測能力
  • Instruct Weights(指令模型):可進行聊天、指令跟隨等互動操作

此外,也有 FP8(低精度)版本,方便在較低規格的硬體上執行。


效能評比與成本分析

根據 Meta 提供的資料:

  • Llama 4 Maverick 在 LM Arena 測試中獲得 1417 分,逼近排行榜前三。
  • DocVQA、LiveCodeBench、ChartQA 等測試中超越 GPT-4 Turbo、Gemini Flash。
  • 相較於 GPT-4 Turbo 每百萬 token 成本約 4.38 美元,Llama 4 Maverick 可壓低至 0.3–0.5 美元,展現絕佳的 效能/成本比

技術亮點:Mixture of Experts 架構

Llama 4 採用了 Mixture of Experts(MoE) 技術,每個 token 只會激活部分專家,這大幅降低運算成本,同時維持模型效能。這種架構並非「主題式」專家(如醫學或生物學),而是透過演算法動態選擇合適的子模型處理輸入,有效提升運算效率。

開發背景與競爭因素

Llama 4 的開發受到多種因素推動:

競爭壓力

  • 中國 AI 實驗室 DeepSeek 的開源模型表現與或超過 Meta 先前的旗艦 Llama 模型
  • 報導指出,這加速了 Llama 的開發,Meta 設立專門團隊分析 DeepSeek 如何降低 R1 和 V3 等模型的運營成本

多次延遲發布

  • 根據《The Information》和路透社的報導,Llama 4 在發布前至少延遲了兩次
  • 延遲原因包括模型在開發過程中未能達到 Meta 的預期性能標準,特別是在推理和數學任務方面

投資者壓力

  • Meta 計劃在 2025 年投入高達 650 億美元擴展其 AI 基礎設施
  • 這一舉措旨在回應投資者對大型科技投資的實質回報要求

可用性與部署

平台與分發

  • Scout 和 Maverick 現已可從 llama.comHugging Face 下載
  • 已整合到 Meta AI 中,可通過 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 網站使用
  • 也可在 AWSDatabricks 等平台上使用

成本效益

  • Llama 4 Maverick 的估計成本為每百萬 token 0.19-0.25 美元(使用 3:1 輸入/輸出比)
  • 這顯著低於專有模型如 GPT-4o(估計每百萬 token 4.50 美元)

許可證與限制

  • 雖為開源軟件,但具有特定要求和限制
  • 歐盟的個人和企業被禁止使用或分發這些模型,可能是由於監管要求
  • 月活躍用戶超過 7 億的企業需要從 Meta 獲得特殊許可

應用場景

Llama 4 模型適用於多種應用場景:

應用領域 使用案例 優勢
客戶服務 智能助手處理客戶查詢 提升客戶體驗,降低等待時間
教育與輔導 個性化學習支持 幫助學生解決問題並理解複雜概念
創意寫作 生成故事、文章 提供創意靈感與內容創作支持
專業用例 法律、金融和研究領域輔助 協助數據分析、報告生成和決策支持
多模態應用 圖像識別、視覺問答 整合不同形式的信息進行處理
長文本處理 處理長上下文對話 適合摘要和分析長篇文章

未來計劃

LlamaCon 開發者大會

  • 定於 2025 年 4 月 29 日舉行
  • Meta 將在會上分享更多關於 Llama 4 和開源 AI 發展的信息
  • 預計會宣布專用的 Meta 聊天機器人應用

持續發展

  • Mark Zuckerberg 表示:"這只是 Llama 4 系列的開始"
  • Meta 正在研究和原型設計更多模型和產品
  • 未來的重點是使 Llama 能夠採取通用行動、自然地與人類對話,並解決之前未見過的挑戰性問題

Llama 4 與其他頂尖 AI 模型比較

以下是目前主要 AI 模型的技術規格與功能比較,結合開源與閉源生態的最新進展:

特性 Llama 4 Maverick GPT-4o Grok 3 DeepSeek-V3 Gemini 2.5 Pro
架構 128 專家混合架構 (MoE) 未公開 (推測為密集架構) 未公開 37B/671B 參數 MoE 架構 增強型基礎模型+強化學習優化
激活參數量 17B 活躍參數 (總 400B) 推測 40-60B (官方未確認) 未公開 37B 活躍參數 (總 671B) 未公開
上下文窗口 1000 萬 token 128K token 未公開 128K token 200 萬 token (即將升級)
多模態能力 原生多模態 (文本/圖像/視頻早期融合) 端到端多模態 (文本/視覺/音頻) 未公開 文本專用 原生多模態 (文本/圖像/音頻/視頻)
推理延遲 未公開 平均 320ms 未公開 60 TPS 未公開
數學能力 MMLU 76.1% MATH 84.3% AIME 1400 AIME 2024 超越閉源模型 MMMU 81.7%
代碼能力 LiveCodeBench 49.4% 改進代碼生成與調試 未公開 SWE-Bench 接近 GPT-3.5 支持複雜代碼生成與轉換
許可模式 開源 (歐盟受限) 閉源 閉源 (X Premium+訂閱) 開源 閉源 (Google AI Studio)
成本效益 $0.19-0.25/百萬 token $4.5/百萬 token 未公開 開源免費 未公開定價
硬件需求 NVIDIA H100 DGX 系統 雲端 API 雲端 API 消費級 GPU 可運行 雲端 API
獨特功能 10M token 長文本分析 情感化音頻交互 實時網絡數據訪問 三倍於前代的生成速度 65K token 輸出容量

關鍵差異分析

技術路線對比

  • Llama 4 採用激進的 MoE 架構與早期多模態融合,在長上下文處理領域建立新標竿
  • Gemini 2.5 Pro 通過擴展上下文窗口至 200 萬 token,強化複雜任務處理能力
  • DeepSeek-V3 證明開源模型可通過算法優化在特定領域(如數學)超越閉源模型

應用場景優勢

  • 企業級部署:Llama 4 的開源特性與成本優勢適合私有化部署
  • 實時交互:GPT-4o 的 320ms 延遲為對話場景設定了新標準
  • 開發工具鏈:Gemini 2.5 Pro 與 Google 生態的深度整合提升開發者效率

行業影響

Meta 通過 Llama 4 的 10M token 上下文窗口重新定義了長文本處理的標準,這項技術突破預計將推動法律文檔分析、基因組學研究等領域的變革。與此同時,DeepSeek-V3 在有限參數量下達到的商業化可用性能,預示著開源模型在垂直領域的滲透將加速。


總結:Llama 4 開啟全新的開源 AI 新時代

Meta 的 Llama 4 發布標誌著開源 AI 領域的重要進步,特別是在多模態能力、上下文處理和專家混合架構方面。通過結合效率、開放性和卓越性能,Llama 4 系列為開發者和企業提供了與 OpenAIAnthropicDeepSeekGoogle 等公司的高端模型競爭的開源替代方案,展現了 Meta 推動開源社群的強大企圖。

雖然授權限制仍有爭議,但 Llama 4 的實力不容忽視。如果你是 AI 開發者、研究者或對多模態生成模型有興趣的技術玩家,現在正是時候深入了解這款革命性工具。


亞馬遜網路服務 (AWS) 宣布透過 Amazon SageMaker JumpStart 推出 Meta 的全新 Llama 4 模型,並且即將在 Amazon Bedrock 中以完全託管、無伺服器模型的形式提供 。 Llama 4 系列中的首批兩款型號——Llama 4 Scout 17B 和 Llama 4 Maverick 17B——均具有先進的多模式功能(能夠理解圖像和文字提示)和業界領先的上下文視窗(它們可以同時處理多少資訊),與以前的型號版本相比,性能和效率都有所提高。

想要將 Llama 4 及其他先進 AI 模型的力量融入您的業務嗎?Tenten AI 團隊專精於整合最新 AI 技術,為您打造創新的數位解決方案。無論您需要多模態 AI 應用開發、客製化大型語言模型部署或是 AI 驅動的業務流程優化,我們都能幫助您領先競爭對手。現在就預約免費諮詢會議,讓我們一起探索 AI 為您企業帶來的無限可能。

Share this post
Erik (EKC)

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running

Loading...