顛覆 AI 賽局的神經科學家：阿里·默克斯揭示「更好數據」的商業價值

過去兩年，「大模型」三個字幾乎成了 AI 產業的信仰：參數量從百億衝到萬億，訓練預算從數千萬美元膨脹到數十億美元。然而，當「暴力美學」的邊際效益遞減，人們開始懷疑：我們是否撞上了「數據牆」？Datology AI 創辦人阿里·默克斯（Ari Morcos）給出的答案乾脆俐落——Data Curation 才是下一個主戰場。模型吃進什麼，就會變成什麼；與其無止盡堆算力，不如讓模型「吃得更好、學得更聰明」。

神經科學博士的轉彎：為何鎖定「數據」而非「模型」

阿里並非典型的電腦科學家。他的博士論文是「訓練小鼠算數」，再記錄上萬顆神經元的活動，試圖解碼「智能」的生物基礎。這段經驗養成他「先實驗、後改進」的思維：把系統徹底搞懂，再動手優化。2011 年深度學習崛起，他帶著同樣的經驗主義跳進 AI，想替深度網路建立可解釋的科學框架。殘酷現實卻是——「知道為什麼有效」不等於「能把系統做得更好」。2020 年，他研究「歸納偏置」撞牆：數據量一旦超過百萬級，精心設計的偏置反而拖累性能；Transformer 這種「少偏置」架構卻在超大數據上大放異彩。那一刻，他決定轉向：「與其把 GPU 賺得更快，不如研究數據。」

數據為何長期被低估？文化、激勵與時代慣性三重障礙

文化偏見：數據清洗被視為「二等工作」，既髒又累，缺乏頂會論文的光環。
研究激勵錯位：經典范式把「數據集」當常數，創新只能往模型與算法用力。
時代背景翻轉：2019 年前是「有標籤數據稀缺」的監督時代；自監督崛起後，無標註數據暴增百萬倍，核心矛盾從「稀缺」變成「過載」——冗餘、低品質、有害資訊橫行，傳統「獨立同分布」假設失效，Data Curation 需求瞬間被推到聚光燈下。

Data Curation 五大環節：過濾、重均衡、序列化、合成、批次

環節	關鍵問題	實踐工具示例
過濾	剔除低品質、低資訊增益樣本	自動化冗餘檢測、語義去重
重均衡	長尾分布導致模型只記住頭部類別	上採樣少樣本、下採樣過度代表類別
序列化	課程學習再進化：先易後難提升收斂速度	難度預測模型+動態排序
合成數據	填補原始分布空白、提升密度	轉述式重寫（Paraphrase & Restart）
批次組織	同一批次內分布影響梯度方向	線上聚類+相似度抽樣

自動化是唯一出路：人類專家打不過全局關係演算法

斯坦福 DCLM 專案找來 30 位頂尖博士生，花兩年手工打造「高品質網頁過濾規則」。最終盲測顯示，專家挑錯樣本的準確率與隨機亂猜無異。原因在於：單一文件值不值得留下，並非由它本身決定，而是它與「整池子資料」的相對關係。人腦無法裝下 25 兆 Token 做全局權衡，算法可以——這也是 Datology 堅持「零人工干預」自動化管線的理由。

合成數據的兩條路：「從無到有」vs「轉述重啟」

范式	風險	案例場景
從無到有	模型塌陷、多樣性遞減	讓大模型憑空生成「新知識」再餵回自身
轉述重啟	相對安全、可持續放大原始信號	用弱模型把維基百科改寫成問答對，再訓練強模型

Datology 的 BeyondWeb 實驗證明：採用「轉述重啟」策略，8B 模型訓練速度提升 7.7 倍；3B 模型在精選數據上的表現，直接超越其他 8B 對手，打破「學生無法超越老師」的蒸餾天花板。

更快、更好、更小：Datology 的三字訣商業價值

Faster：把 10 天訓練壓到 1 夜，迭代次數指數級上升。
Better：同樣預算下，精選數據充當「算力倍增器」，讓 1000 萬美元達到過去 1 億美元效果。
Smaller：參數減半、精度不變，推理成本腰斬；一年 5000 萬美元的推理預算，模型體積少一倍就等於現省 2500 萬。

真實案例：從 25 兆 Token 到 7 兆 Token 的槓桿效應

Datology 與 RC 技術模型合作，從 25 T 原始池自動精選 7 T 高品質子集，不僅最終模型更強，達到同等收斂效果的步數也明顯縮短。證明即使出發點已是開源高品質語料，Data Curation 仍能再挖出可觀增量。

結語：AI 的盡頭未必是更大模型，而是更好數據

當產業仍在「模型參數」與「算力軍備」上內捲，阿里·默克斯選擇回歸本質——把數據從髒活累活升格為一門可自動化、可規模化的科學。Datology 的終極願景，就是讓「數據精選」從頂級實驗室的口耳相傳，變成任何團隊都能一鍵呼叫的基礎設施。下一場 AI 革命，或許不再由萬億參數點燃，而是由更高品質、更精緻、更聰明的 Data Curation 拉開序幕。

延伸閱讀

作者觀點 | Ewan

「在矽谷見慣了『GPU 疊到天花板』的豪賭後，Datology 的故事讓我重新相信『精準』的力量。當所有人瘋狂追求『更大』時，回頭把『數據品質』做到極致，反而能用 3B 參數打出 8B 效果——這不只是技術勝利，更是思維的降維打擊。下一個十年，誰能掌握自動化 Data Curation，誰就能在算力軍備競賽中優雅超車。」

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

顛覆 AI 賽局的神經科學家：阿里·默克斯揭示「更好數據」的商業價值

神經科學博士的轉彎：為何鎖定「數據」而非「模型」

數據為何長期被低估？文化、激勵與時代慣性三重障礙

Data Curation 五大環節：過濾、重均衡、序列化、合成、批次

自動化是唯一出路：人類專家打不過全局關係演算法

合成數據的兩條路：「從無到有」vs「轉述重啟」

更快、更好、更小：Datology 的三字訣商業價值

真實案例：從 25 兆 Token 到 7 兆 Token 的槓桿效應

結語：AI 的盡頭未必是更大模型，而是更好數據

延伸閱讀

作者觀點 | Ewan

Token 資本：Nadella 的企業 AI 主權論，真正考驗的是你能不能換掉模型

前線部署行銷是什麼？一套把行銷能力變成公司資產的 90 天模式

Forward Deployed Marketing Agency：AI 時代代理商的真正分水嶺

Claude Fable 5 + Higgsfield MCP：用一段提示詞做出 3D 滾動網站，真正該學的是工作流程

震撼發布！Claude Fable 5 讓頂級 AI 走向大眾

CPO 量產時程吵翻天：SemiAnalysis 唱衰、輝達反擊，光通訊股一天蒸發多少？