過去兩年,「大模型」三個字幾乎成了 AI 產業的信仰:參數量從百億衝到萬億,訓練預算從數千萬美元膨脹到數十億美元。然而,當「暴力美學」的邊際效益遞減,人們開始懷疑:我們是否撞上了「數據牆」?Datology AI 創辦人阿里·默克斯(Ari Morcos)給出的答案乾脆俐落——Data Curation 才是下一個主戰場。模型吃進什麼,就會變成什麼;與其無止盡堆算力,不如讓模型「吃得更好、學得更聰明」。

神經科學博士的轉彎:為何鎖定「數據」而非「模型」

阿里並非典型的電腦科學家。他的博士論文是「訓練小鼠算數」,再記錄上萬顆神經元的活動,試圖解碼「智能」的生物基礎。這段經驗養成他「先實驗、後改進」的思維:把系統徹底搞懂,再動手優化。2011 年深度學習崛起,他帶著同樣的經驗主義跳進 AI,想替深度網路建立可解釋的科學框架。殘酷現實卻是——「知道為什麼有效」不等於「能把系統做得更好」。2020 年,他研究「歸納偏置」撞牆:數據量一旦超過百萬級,精心設計的偏置反而拖累性能;Transformer 這種「少偏置」架構卻在超大數據上大放異彩。那一刻,他決定轉向:「與其把 GPU 賺得更快,不如研究數據。」

數據為何長期被低估?文化、激勵與時代慣性三重障礙

  1. 文化偏見:數據清洗被視為「二等工作」,既髒又累,缺乏頂會論文的光環。
  2. 研究激勵錯位:經典范式把「數據集」當常數,創新只能往模型與算法用力。
  3. 時代背景翻轉:2019 年前是「有標籤數據稀缺」的監督時代;自監督崛起後,無標註數據暴增百萬倍,核心矛盾從「稀缺」變成「過載」——冗餘、低品質、有害資訊橫行,傳統「獨立同分布」假設失效,Data Curation 需求瞬間被推到聚光燈下

Data Curation 五大環節:過濾、重均衡、序列化、合成、批次

環節 關鍵問題 實踐工具示例
過濾 剔除低品質、低資訊增益樣本 自動化冗餘檢測、語義去重
重均衡 長尾分布導致模型只記住頭部類別 上採樣少樣本、下採樣過度代表類別
序列化 課程學習再進化:先易後難提升收斂速度 難度預測模型+動態排序
合成數據 填補原始分布空白、提升密度 轉述式重寫(Paraphrase & Restart)
批次組織 同一批次內分布影響梯度方向 線上聚類+相似度抽樣

自動化是唯一出路:人類專家打不過全局關係演算法

斯坦福 DCLM 專案找來 30 位頂尖博士生,花兩年手工打造「高品質網頁過濾規則」。最終盲測顯示,專家挑錯樣本的準確率與隨機亂猜無異。原因在於:單一文件值不值得留下,並非由它本身決定,而是它與「整池子資料」的相對關係。人腦無法裝下 25 兆 Token 做全局權衡,算法可以——這也是 Datology 堅持「零人工干預」自動化管線的理由。

合成數據的兩條路:「從無到有」vs「轉述重啟」

范式 風險 案例場景
從無到有 模型塌陷、多樣性遞減 讓大模型憑空生成「新知識」再餵回自身
轉述重啟 相對安全、可持續放大原始信號 用弱模型把維基百科改寫成問答對,再訓練強模型

Datology 的 BeyondWeb 實驗證明:採用「轉述重啟」策略,8B 模型訓練速度提升 7.7 倍;3B 模型在精選數據上的表現,直接超越其他 8B 對手,打破「學生無法超越老師」的蒸餾天花板。

更快、更好、更小:Datology 的三字訣商業價值

  1. Faster:把 10 天訓練壓到 1 夜,迭代次數指數級上升。
  2. Better:同樣預算下,精選數據充當「算力倍增器」,讓 1000 萬美元達到過去 1 億美元效果。
  3. Smaller:參數減半、精度不變,推理成本腰斬;一年 5000 萬美元的推理預算,模型體積少一倍就等於現省 2500 萬

真實案例:從 25 兆 Token 到 7 兆 Token 的槓桿效應

Datology 與 RC 技術模型合作,從 25 T 原始池自動精選 7 T 高品質子集,不僅最終模型更強,達到同等收斂效果的步數也明顯縮短。證明即使出發點已是開源高品質語料,Data Curation 仍能再挖出可觀增量

結語:AI 的盡頭未必是更大模型,而是更好數據

當產業仍在「模型參數」與「算力軍備」上內捲,阿里·默克斯選擇回歸本質——把數據從髒活累活升格為一門可自動化、可規模化的科學。Datology 的終極願景,就是讓「數據精選」從頂級實驗室的口耳相傳,變成任何團隊都能一鍵呼叫的基礎設施。下一場 AI 革命,或許不再由萬億參數點燃,而是由更高品質、更精緻、更聰明的 Data Curation 拉開序幕。


延伸閱讀

AlphaFold 諾貝爾獎後 - DeepMind CEO Demis Hassabis 揭示 AGI 發展藍圖
深入探討 DeepMind 執行長 Demis Hassabis 如何從 AlphaFold 的科學突破,領導團隊朝向通用人工智能 (AGI) 的未來發展,揭示其對科學與社會的深遠影響
顛覆 AI 賽局的神經科學家:阿里·默克斯揭示「更好數據」的商業價值
阿里·默克斯結合神經科學洞察與 Data Curation 技術,打造高信噪比數據,協助企業在 AI 軍備競賽中搶佔先機,實現商業轉型與長效增長

作者觀點 | Ewan

「在矽谷見慣了『GPU 疊到天花板』的豪賭後,Datology 的故事讓我重新相信『精準』的力量。當所有人瘋狂追求『更大』時,回頭把『數據品質』做到極致,反而能用 3B 參數打出 8B 效果——這不只是技術勝利,更是思維的降維打擊。下一個十年,誰能掌握自動化 Data Curation,誰就能在算力軍備競賽中優雅超車。」

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...