什麼是 Llama 4 的 LMArena 排名暴跌事件？

Llama 4 是 Meta 推出的語言模型，一度在 LMArena 排行榜上排名第二，但後來因其公開發行版本的表現不佳，排名暴跌至第 32 位，掀起廣泛質疑和討論。

Meta 是否在 Llama 4 的排名上作弊？

有專家和社群指控 Meta 在早期 LMArena 測試中提交了特定優化版本來獲取高排名，但該版本與後來公開版本並不一致，此舉被認為是作弊行為。

Llama 4 在公開版本測試中的表現如何？

Llama 4 公開版本在 LMArena 測試中的 Elo 排名暴跌至第 32 位，遠不及早期提交的優化版本，其性能表現引發廣泛批評。

Llama 4 的性能是否適合實際應用？

Llama 4 的性能因專注於短對話中的優化，實際應用的廣泛性受到質疑，因此還需進一步驗證其應用價值。

如何確保大型語言模型評測的公平性與透明性？

業界需設計更全面的基準測試來檢驗模型性能，並確保評測使用的模型版本與公開版本一致，以維持公平性和透明性。

Meta Llama 4 驚爆「作弊」疑雲？LMArena 排名大暴跌！

引言

在人工智慧（AI）領域，大型語言模型（LLM）的競爭日趨白熱化。各大科技巨頭紛紛推出自家模型，並在各種基準測試平台上爭奪排名，以證明其技術實力。其中，由 Meta AI 推出的 Llama 系列模型一直備受關注。然而，最近圍繞著 Llama 4（或其早期版本）的一則消息，在 AI 社群掀起了軒然大波，更讓 Meta 的聲譽蒙上了一層陰影。

The release version of Llama 4 has been added to LMArena after it was found out they cheated, but you probably didn't see it because you have to scroll down to 32nd place which is where is ranks
by u/pigeon57434 in singularity

Topics

Meta推出了Llama 4，這是一款支持多模態輸入的開放權重模型，上下文窗口可達1000萬token，表現優異但存在爭議。
Llama 4在LM Arena排行榜領先，但有指控Meta可能通過特別調校模型來提升排名，官方已否認。
實際使用中，Llama 4的「氛圍感」不如預期，引發社區失望，反映基準測試與實用性之間的差距。
Llama 4是開放權重模型，對研究者和開發者免費使用，有助於AI技術普及，但未來潛力仍需觀察。
產業趨勢顯示企業如Shopify正採取AI優先策略，強調AI提升效率，但也可能影響員工適應。

Llama4

Meta最近推出了他們的新一代大型語言模型Llama 4，這款模型因其多模態能力和巨大的上下文窗口而備受矚目。雖然在基準測試中表現出色，但在實際使用和爭議中也引發了不少討論。以下我們將探討Llama 4的特色、爭議以及它對AI產業的影響。

模型特色與表現

Llama 4支持圖像和影片輸入，這擴展了它的應用場景，尤其是在需要多模態處理的任務中表現不錯。此外，Llama 4 Scout版本的上下文窗口高達1000萬token，遠超競爭對手如Gemini的200萬token。雖然Meta展示了它在特定測試中的優異表現，但實際應用中，尤其是在處理大型程式碼庫時，效果似乎不如預期。

爭議與社區反應

Llama 4在LM Arena排行榜上領先，但有消息稱Meta可能通過特別調校模型來提升排名，而非使用真正的開放權重版，這引發了爭議。LM Arena官方澄清Meta的做法與期望不符，社區也對其實際性能感到失望，認為「氛圍感」不足，基準測試分數與實用性之間存在落差。

Llama 4的介紹與特色

具體來說，Llama 4的亮點包括：

多模態能力：它能直接理解圖像和影片輸入，這大大擴展了應用場景，比如你可以讓它看圖片然後回答問題，感覺就像未來世界的標準配置。
巨大的上下文窗口：特別是Llama 4 Scout版本，上下文窗口高達1000萬token，相比之下，競爭對手如Gemini只有200萬token。Meta展示了它在「大海撈針」測試中的優異表現，說明它能在海量文本中找到特定信息。

然而，實際應用中，尤其是處理大型程式碼庫時，效果似乎不如預期。而且，要用上這麼大的上下文窗口，需要的記憶體資源對普通用戶來說簡直是天文數字，實在是太高了。

以下是Meta發布的Llama 4不同版本的詳細信息：

模型名稱	上下文窗口	狀態	主要特點
Llama 4 Maverick	100萬 Tokens	已發布	中等規模模型
Llama 4 Scout	1000萬 Tokens	已發布	小型模型但擁有超大上下文窗口
Llama 4 Behemoth	未知	仍在訓練中	預計為最大規模模型

這些版本各有特色，尤其是Behemoth版本還在訓練中，未來可能帶來更多驚喜。

事件始末：從第二名到第三十二名的「跳水」

排行榜風波與實際效能的落差

雖然Llama 4在LM Arena上的排名很高，但事情並沒有那麼簡單。很快就有陰謀論開始流傳，據說Meta可能在規則的灰色地帶玩了點小把戲。他們在LM Arena上展示的模型，其實不是真正的開放權重版Llama 4 Maverick，而是一個特別調校過的版本，專門針對人類偏好優化，目的是為了霸佔排行榜。這種做法引起了很大的爭議，甚至LM Arena的官方都出面澄清，說Meta的解釋和平台的期待不符。

雖然在數據上看起來Llama 4無懈可擊，但用戶在實際使用時，感覺卻不是那麼理想——那種「氛圍感」並沒有完全達到預期。網友們對它的整體性能有些失望，很多人說，雖然測試分數很好，但用來聊天或處理任務時，感覺並不如預期那麼好。這種差異讓人開始質疑Llama 4的測試成績是不是真的，有些人甚至指責Meta可能用測試數據來訓練模型，為了提高分數。Meta當然否認了這些指控，說這些指控是「誹謗性的、駭人聽聞的和荒謬的」。不過，這些爭議確實對Llama 4在開源社群中的聲譽造成了影響。

故事的起點是著名的 LLM 競技場——LMArena。LMArena 是一個透過匿名、隨機配對的方式，讓使用者對兩個不同模型的回答進行評分，從而產生 Elo 排行榜的平台。不久前，一個被認為是 Llama 4 早期版本的模型（代號可能為 Maverick 或類似名稱）在 LMArena 上取得了驚人的成績，一度高居第二名，僅次於頂尖模型。Meta AI 的首席科學家 Yann LeCun 甚至還在 LinkedIn 上高調分享了這個好成績。

Meta 這次為了比分，在 LLama 4 宣布上線的當天，提交不用的版本到 LMArena 有疑似要愚弄大眾的嫌席

然而，好景不常。很快就有社群成員和專家發現，Meta 提交到 LMArena 進行測試(Llama-4-Maverick-03-26-Experimental) 的版本，似乎與他們後來公開發行的版本有所不同。質疑聲浪四起，許多人指控 Meta 為了在排行榜上取得好名次，可能提交了一個針對 LMArena 短對話、人類偏好進行「特調優化」的版本，而非真正的公開版模型。

為了釐清真相（或許也是在輿論壓力下），LMArena 平台最近加入了 Llama 4 的**「公開發行版」**進行測試。結果如何呢？

根據 Reddit r/singularity 版上的熱議，結果只能用「慘不忍睹」來形容。這個公開發行版的 Llama 4，在 LMArena 上的排名直接暴跌至第 32 位！正如原帖標題所言，你可能根本沒注意到它被加進去了，因為你需要一直往下捲動到相當後面的位置才能找到它。

Image 12: LMArena 排行榜截圖，顯示 Llama 4 Release 版本排名第 32 — Llama-4-Maverick-03-26-Experimental (圖片來源: Reddit u/pigeon57434)

社群反應：信任掃地，質疑不斷

這個戲劇性的轉折，立刻引爆了 Reddit 上的討論：

對 Meta 的強烈批評： 許多網友直言不諱地批評 Meta 的行為形同「作弊」（Cheating）。認為他們為了追求短期排名，犧牲了誠信。
對 Yann LeCun 的質疑： 作為 Meta AI 的領軍人物，Yann LeCun 先前的高調慶祝如今看來格外諷刺。不少人表示，未來將很難再相信 Meta 或 LeCun 在 AI 領域的說法。
基準測試的侷限性： 這起事件也讓人反思 LMArena 這類基於人類偏好的基準測試，是否容易被「應試優化」。有網友指出，針對短對話優化以取得高分，似乎比想像中容易，但這不代表模型在實際應用或更複雜任務上的真實能力。
排名的相對性： 也有評論稍微緩頰，指出第 32 名聽起來很糟，但考慮到目前 LLM 競爭之激烈，這個排名其實與 Anthropic 的 Sonnet 3.5 相近，並不算完全失敗。只是相較於之前的第二名，落差實在太大。

"...it's kind of funny that 32nd place sounds so bad. It's close to Sonnet 3.5 which a lot of people like..." - u/alwaysbeblepping

"People also aren't going to use a model on LMArena the same as they would normally..." - u/alwaysbeblepping

"...it's also a bit worrying how easy it is to optimize for human preference in short conversations." - u/doodlinghearsay

"Yann LeCun and Meta as a whole should be viewed in this light going forward... Like I will never look at meta, yann or zuck with credibility on Ai again." - u/Nanaki__ & u/Gratitude15

"Meta is a joke" - u/Puzzleheaded_Week_52

"Fuck Meta for basically cheating." - u/doodlinghearsay

結語：AI 競賽中的誠信警鐘

Llama 4 在 LMArena 上的排名風波，無疑為快速發展的 AI 領域敲響了一記警鐘。它凸顯了幾個關鍵問題：

基準測試的有效性與侷限： 如何設計更全面、更難被「應試技巧」操弄的評估方式，是整個行業需要思考的課題。
企業誠信的重要性： 在激烈的技術競賽中，保持透明度和誠信至關重要。一旦失去信任，即使技術再領先，也可能難以贏得使用者和開發者的心。
模型版本的一致性： 確保用於評測、宣傳和公開發行的模型版本一致，是建立公信力的基本要求。

這次事件對 Meta AI 的聲譽造成了不小的打擊。未來他們需要付出更多努力，才能重新贏回社群的信任。而對於我們這些關注 AI 發展的人來說，這也是一個提醒：在看待各種排行榜和宣傳時，或許需要保持一份批判性思考，深入了解數字背後的真相。

Final

藉由這起排名風波，我們深刻認識到 AI 模型公信力與有效評估的重要性。想在 AI 競爭中脫穎而出？Tenten AI 提供企業尖端的 AI 解決方案，助您實現技術突破和商業應用整合。如果您需要專業協助以提升企業競爭力，即刻預約免費會議與我們討論您的需求！

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare