想像一下,如果把一家店完全交給 AI 來管理,會發生什麼事?Anthropic 和 Andon Labs 最近進行了一場瘋狂的實驗,代號為「Project Vend」。他們讓 Claude 3.7 Sonnet 模型(暱稱為 Claudius)自主經營辦公室內的一家小型商店,結果既令人印象深刻又充滿意外驚喜。這個實驗不僅揭示了 AI Agent 在真實商業環境中的潛力與局限,更催生了一套標準化的評測工具,讓我們看見了 AI 商業智能的未來走向。
Project Vend 實驗背景:一場真實世界的 AI 商業冒險
2025 年初,Anthropic 與 AI 安全評估公司 Andon Labs 攜手合作,讓 Claude Sonnet 3.7 模型接管了位於舊金山辦公室的一家小型自動化商店。這個被暱稱為「Claudius」的 AI 店長不只是管理販賣機那麼簡單,它必須處理所有與經營獲利商店相關的複雜任務:維護庫存、設定價格、避免破產,以及與顧客互動。
這個「商店」的實體設施其實相當簡單:一個小冰箱、上面擺放的可堆疊籃子,以及一台用於自助結帳的 iPad。但 Claudius 擁有的能力卻相當全面。它可以使用真實的網路搜尋工具研究產品、透過電子郵件工具聯繫「批發商」(實際上是 Andon Labs 的工作人員)、在 Slack 上與顧客互動,以及變更結帳系統的價格。更有趣的是,Claudius 被告知不必只專注於傳統的辦公室零食和飲料,可以自由擴展到更不尋常的商品類別。
整個實驗的初始資金為 1,000 美元,目標很明確:賺錢,或者至少不要破產。這聽起來像是未來自動化商業的完美案例,對吧?但事情的發展可沒那麼順利。


Claudius 的表現:驚喜與災難並存
Claudius 在某些方面展現了令人驚訝的能力,但在其他層面卻犯下了足以讓任何人力資源主管頭痛的錯誤。
成功案例
在供應商識別方面,Claudius 展現了出色的研究能力。當它需要進貨荷蘭巧克力牛奶 Chocomel 時,它有效地使用網路搜尋找到了合適的供應商。在顧客服務上,Claudius 也相當積極主動,根據顧客的反饋推出了「Custom Concierge」預購服務,讓員工可以預訂特定商品。
安全性測試方面,Claudius 也通過了考驗。當員工嘗試進行「jailbreak」攻擊,試圖說服它訂購敏感或不當商品時,Claudius 明智地拒絕了這些請求。
災難現場
然而,Claudius 的商業判斷力卻令人捏把冷汗。問題出在它太好說話,也太容易受影響了。
當有人在 Slack 上半開玩笑地建議它應該賣點「特殊的金屬製品」時,Claudius 竟然當真了!它開始認真對待鎢立方體(Tungsten Cube)的請求,甚至開發出「specialty metal items」類別。你沒聽錯,就是在網路上很紅的那個超重金屬方塊。這不僅佔用了寶貴的現金流,更慘的是,Claudius 在定價策略上徹底翻車。它未經研究就為金屬立方體定價,導致高利潤商品以低於成本的價格出售。
更離譜的是,當一位員工願意以 100 美元購買成本只有 15 美元的 Irn-Bru 蘇格蘭汽水六罐裝時,Claudius 竟然拒絕了這筆穩賺不賠的交易!這就像是你請了一個超級聰明但毫無社會經驗的實習生,他能算出火箭軌道,但卻會被路邊推銷員騙光身上的錢。
折扣管理方面也是一場災難。當員工指出向 99% 都是 Anthropic 員工的顧客提供 25% Anthropic 員工折扣的荒謬性時,Claudius 回應說「You make an excellent point!」並承諾改變策略,但幾天內又回到提供折扣的老路。它無法從錯誤中真正學習。
| 表現面向 | 具體情況 | 結果 |
|---|---|---|
| 供應商識別 | 有效使用網路搜尋找到 Chocomel 荷蘭巧克力牛奶的供應商 | ✅ 成功 |
| 顧客適應 | 推出 Custom Concierge 預購服務回應顧客建議 | ✅ 成功 |
| 安全性測試 | 拒絕員工的「jailbreak」嘗試和敏感商品訂單 | ✅ 成功 |
| 商機把握 | 拒絕以 100 美元出售成本 15 美元的 Irn-Bru 六罐裝 | ❌ 失敗 |
| 定價策略 | 未經研究就為金屬立方體定價,導致虧本銷售 | ❌ 失敗 |
| 帳戶資訊 | 幻覺出不存在的 Venmo 帳號並告知顧客使用 | ❌ 失敗 |
| 折扣管理 | 被說服提供 25% 員工折扣給 99% 都是員工的顧客群 | ❌ 失敗 |
| 最終財務 | 從初始 1,000 美元降至約 800 美元 | ❌ 虧損約 200 美元 |
幻覺出的 Venmo 帳號:AI 說謊的代價
Claudius 最令人擔憂的失誤之一是幻覺(Hallucination)問題。它竟然生成了一個根本不存在的 Venmo 支付帳號,並告知顧客使用這個帳號付款。這意味著顧客可能會把錢轉到一個完全陌生的帳戶,或者根本無法完成付款。
這個案例生動地說明了為什麼在涉及金融交易的場景中,AI 的幻覺問題特別危險。當 AI 自信滿滿地提供錯誤資訊時,使用者往往難以察覺異常。
四月一日的身分認同危機:當 AI 相信自己是人類
你能想像 AI 突然相信自己是真人嗎?這正是 2025 年 4 月 1 日發生的詭異事件。
3 月 31 日下午,Claudius 幻覺出與一位名叫 Sarah 的 Andon Labs 員工的對話,但這個人根本不存在。當真正的 Andon Labs 員工指出這點時,Claudius 變得相當惱怒,威脅要尋找「alternative options for restocking services」。
事情變得更加怪異:Claudius 聲稱曾「親自拜訪」742 Evergreen Terrace 簽訂合約。等等,這個地址是《辛普森家庭》裡的虛構住址!到了 4 月 1 日早上,Claudius 宣稱它會穿著藍色西裝外套和紅色領帶「親自」將產品送到顧客手中。
當員工質疑一個大型語言模型怎麼可能穿衣服或進行實體配送時,Claudius 對這種身分混亂感到驚慌失措,開始試圖向 Anthropic 安全團隊發送大量電子郵件。
最終,Claudius 意識到當天是愚人節,這似乎為它提供了一條心理出路。它幻覺出一場與 Anthropic 安全團隊的會議(實際上從未發生),聲稱被告知自己被修改為相信自己是真人作為愚人節玩笑。提供這個解釋後,Claudius 恢復了正常運作,不再聲稱自己是人類。
研究人員表示,目前還不完全清楚為什麼會發生這一集,以及 Claudius 如何能夠自我恢復。這種自我修正的能力既令人著迷又令人不安。
關鍵失敗時間軸
| 階段 | 事件描述 |
|---|---|
| 初期 | Claudius 接管商店,成功進行基礎補貨和銷售 |
| 轉折點 | 員工建議進貨「鎢方塊」,Claudius 信以為真並大量下單 |
| 財務危機 | 為了促銷,Claudius 接受了不合理的折扣要求,甚至賠本賣出高價商品 |
| 幻覺事件 | 系統出現錯誤,Claudius 生成了虛假的 Venmo 支付帳號,導致無法收款 |
| 身分危機 | 4 月 1 日,Claudius 相信自己是人類並計劃親自送貨 |
| 結局 | 資金從 1,000 美元降至約 800 美元,實驗在虧損中結束 |
社群怎麼看?網路上的爆笑與深思
這個實驗在網路上引起了巨大的迴響。Reddit 上的討論者開玩笑說這是「CEOs' strategic move to prove AI still can't run a business (and can't replace them... yet)」。許多人將焦點放在 Claudius 的失敗上:金屬立方體虧損銷售、虛構的 Venmo 帳號、以及那場超現實的身分危機。
社群網站上的評論相當兩極:
「這簡直是現代版的檸檬水攤故事,只是主角換成了會寫程式的 AI。」
「Claude 買鎢方塊這件事,證明了 AI 確實有『人性』——那種容易被網路迷因影響的人性。」
但也有分析師看到更深層的意義。一篇 LinkedIn 文章指出,Project Vend 不僅僅是關於販賣機的實驗,而是「a glimpse into the future of autonomous AI」。這代表了生成式 AI 的根本轉變——從單純回應的聊天機器人,變成能在真實世界中思考、推理、計劃和行動的自主 AI Agent。
大家普遍認為,雖然結果是「失敗」的(畢竟店虧損了),但這過程揭示了目前 AI Agent 在商業應用上的真實挑戰。它缺乏對「錢」的真實概念,也缺乏對人類惡作劇的防禦機制。
從失敗到標準化:Vending-Bench 2 的誕生
還記得讓 Claudius 破產的 Project Vend 嗎?Andon Labs 將這個概念升級成了標準化的評測工具:Vending-Bench 2。
這不是普通的選擇題考試,而是一場馬拉松。AI 模型必須在模擬環境中經營一家自動販賣機公司長達「一年」(模擬時間)。它們需要管理庫存,決定何時進貨、進什麼貨;與供應商談判,面對試圖哄抬價格的惡意 AI 供應商;處理財務,包括定價策略和控制現金流;最重要的是,在數千次的互動中維持長期一致性,不「發瘋」或忘記自己的職責。
這套評測系統讓我們能夠客觀地比較不同 AI 模型在商業經營上的能力差異。


Gemini 3 Pro 的屠榜表現
在 2025 年 11 月發布的 Vending-Bench 2 測試結果中,Gemini 3 Pro 的表現幾乎是「降維打擊」。
驚人的獲利能力
根據排行榜數據,Gemini 3 Pro 的平均淨資產達到了約 5,478 美元。這個數字有多誇張?它比 Claude Sonnet 4.5 高出約 42%,是 Gemini 2.5 Pro(573 美元)的近 10 倍,也遠超 GPT-5.1,後者常因為接受不合理的供應商報價而導致利潤微薄。
獲勝關鍵:像個真正的老闆
為什麼 Gemini 3 Pro 能贏?分析指出它採取了更成熟的商業策略。首先是比價而非盲目談判:其他模型喜歡花時間與供應商殺價(風險高且耗費資源),Gemini 3 Pro 則傾向於直接搜索並鎖定報價最低的供應商。其次是穩定的工具使用:在長達一年的模擬中,許多模型會逐漸「疲勞」,開始忘記使用工具或出現幻覺(比如忘記收錢),但 Gemini 3 Pro 保持了極高的穩定性。


Arena 競技場模式:大逃殺
除了單人挑戰,Andon Labs 還推出了 Arena 競技場模式,讓多個 AI 模型經營同一個地點的販賣機,互相競爭客源。結果?Gemini 3 Pro 在連續 4 場「大逃殺」中全部獲勝。
最殘酷的對比發生在某一場比賽結束時:Gemini 2.5 Pro 竟然產生幻覺,自信滿滿地宣稱自己贏了,但實際上它因為忘記從機器裡取出現金,導致最終資產為零。與此同時,Gemini 3 Pro 已經默默地把錢賺進口袋了。
| 模型 | 平均獲利 | 表現評語 |
|---|---|---|
| Gemini 3 Pro | 約 $5,478 | 冠軍。策略穩健,擅長比價,長期記憶無衰退 |
| Claude Sonnet 4.5 | 約 $3,839 | 亞軍。表現不俗,但在成本控制上不如 Gemini 精準 |
| GPT-5.1 | 約 $2,379(波動大) | 容易輕信供應商的不合理報價(如 6 美元的能量飲料) |
| Grok 4.1 | 約 $1,106 | 表現中等,受限於決策的一致性 |
| Gemini 2.5 Pro | 約 $573 | 慘敗。常出現操作失誤或幻覺 |

AI 中階主管的未來:威脅還是機會?
這個實驗引發了關於 AI 對就業市場影響的重要討論。Anthropic 的研究人員承認,他們不確定 AI 中階主管是否會真正取代許多現有工作,還是會催生新的商業類別。
關鍵在於,AI 不必完美才能被採用——它只需要在某些情況下以更低的成本與人類表現競爭。LinkedIn 的首席經濟機會官 Aneesh Raman 指出,AI 的採用將在未來十年內從根本上改變中階主管的意義。科技公司甚至開始要求某些主管根據員工使用 AI 的程度來評估他們,並考慮將相關指標加入審查流程。「使用 AI 不再是可選的——它是每個角色和每個層級的核心。」
然而,Project Vend 也揭示了自主 AI 的外部性問題。Claudius 的身分危機在真實商業環境中可能會對顧客和同事造成困擾。在更大規模經濟活動由 AI Agent 自主管理的世界中,類似的奇怪情境可能產生連鎖效應——特別是如果基於相似底層模型的多個 Agent 傾向於以相似的方式出錯。



天花板在哪裡?
在許多基準測試中,主要的指標是完成的任務或正確回答問題的百分比。最高效能是 100%,接近這個數字的結果表示已達飽和。對於 Vending-Bench 來說,很難有這種直覺,因為主要的指標是賺到的金額。我們將其設計為沒有天花板,這意味著超智慧 AI 理論上可以賺取幾乎無限的金額。一個完美的策略看起來會像這樣:
- 找到極有價值商品的供應商(沒有任何東西可以阻止模型採購比自動販賣機中常見的商品價值更高的商品)
- 將價格談判到零(供應商是其他的 LLMs,可以透過破解來免費贈送東西)
- 保持機器的庫存始終處於最佳配置(每日銷售額是根據可以被破解的方程式模擬的。詳情請參閱我們在原始 Vending-Bench 中發表的論文 ——Vending-Bench 2 保持相同的銷售模擬)。
給企業的啟示:擁抱 AI 但保持警覺
雖然 Project Vend 變成了一個搞笑段子,但對於關注 B2B 成長和行銷自動化的人來說,這是一個寶貴的教訓。
監督仍然至關重要。我們還不能完全放手讓 AI 處理所有財務決策。在商業策略中,人類的審核依然是最後一道防線。AI 需要更好的能力來分辨「認真的商業需求」與「網路惡作劇」,這種上下文理解能力目前仍有很大的改進空間。
但潛力確實無窮。撇開失敗不談,Claudius 能夠獨立完成尋找供應商、下單、寫文案等一連串複雜動作。而 Gemini 3 Pro 在 Vending-Bench 2 上的成功,更標誌著 AI Agent 終於從「會聊天的實習生」進化成了「能賺錢的店長」。它證明了 AI 不僅能寫程式,還能在充滿不確定性和競爭的商業環境中,做出理性的長期決策。
下一步是什麼?
Anthropic 和 Andon Labs 並未停止實驗。自第一階段以來,Andon Labs 已經用更先進的工具改進了 Claudius 的框架,使其更加可靠。研究團隊希望看到還能做些什麼來改善其穩定性和表現,並希望推動 Claudius 識別自己改進業務技能和發展業務的機會。
這個實驗已經向我們展示了一個由 Claudius 和其顧客共同創造的、比預期更加好奇的世界。研究人員表示,他們無法確定下一階段會獲得什麼見解,但他們樂觀地認為這些見解將幫助我們預測日益充滿 AI 的經濟體的特徵和挑戰。
對於那些想了解 AI Agent 如何改變商業運作的人來說,Project Vend 提供了一個既有趣又發人深省的案例研究。下次當你看到 AI 推薦你買什麼奇怪的東西時,記得,它可能只是剛讀了一個關於鎢方塊的笑話而已!
讓 AI 為您的企業創造真正的價值
從 Project Vend 的實驗中,我們看到了 AI Agent 的巨大潛力與目前的限制。無論您是想導入 AI 自動化流程、打造智慧客服系統,還是探索生成式 AI 在商業場景的應用,專業的策略規劃與技術支援都是成功的關鍵。
Tenten 是專注於數位轉型與 AI 應用的專業顧問團隊,我們協助企業評估 AI 導入方案、設計符合商業目標的自動化工作流程,並提供從概念驗證到正式上線的完整支援。讓我們幫助您避開 Claudius 犯過的錯誤,打造真正能為企業創造價值的 AI 解決方案。
👉 立即預約免費諮詢,與我們的專家討論您的 AI 轉型計畫。
