開源 AI 語音模型在 2026 年 Q1 出現結構性突破,VoxCPM2 在 Minimax-MLS 基準的英文語音相似度拿下 85.4%,ElevenLabs 同項測試只有 61.3%。 這個差距不是微調等級的進步,而是架構層面的世代跳躍。更關鍵的數字是成本:ElevenLabs 在 2026 年 2 月剛完成 5 億美元 D 輪融資、估值 110 億美元(約 NTD 3,520 億元),年化經常性收入(ARR)突破 3.3 億美元,但開源方案的本地部署成本已經趨近零。這篇文章拆解 2026 年八個最值得關注的開源語音模型——從技術架構、跑分數據、授權條款到商業適用場景——幫你判斷哪一個方案能真正取代你目前的付費語音服務。
開源 TTS 市場在 2026 年的結構性變化
過去兩年,開源 TTS 的進展集中在「音質追上商業方案」這件事上。2026 年的轉折點在於,幾個開源模型不只追上了,在特定維度已經超越 ElevenLabs。
三個數據點標記了這個轉折:
Fish Audio S2 Pro 在 2026 年 3 月 9 日開源後,Audio Turing Test 的後驗均值達到 0.515,超過 ByteDance 的 Seed-TTS(0.417)24%、MiniMax-Speech(0.387)33%。EmergentTTS-Eval 的整體勝率 81.88%,是包含 Google 和 OpenAI 閉源系統在內的最高分。
VoxCPM2 在 2026 年 4 月由清華大學 NLP 團隊支持的 OpenBMB 發布,20 億參數、30 種語言、48kHz 原生輸出,Apache 2.0 授權。在 Minimax-MLS 基準上,英文語音相似度 85.4% 對 ElevenLabs 的 61.3%,差距超過 24 個百分點。
微軟的 VibeVoice 在 2025 年 8 月首次開源 1.5B 版本,能在單次生成中產出最長 90 分鐘、最多 4 位說話者的對話音頻,這在開源界是前所未有的長度上限。
這些不是實驗室裡的 demo。Fish Audio S2 Pro 在單張 NVIDIA H200 GPU 上的首音延遲(TTFA)約 100 毫秒,即時因子(RTF)0.195,已經達到生產環境的效能門檻。
八大開源模型深度比較
以下比較基於 2026 年 4 月的最新版本和公開跑分數據。需要注意的是,部分模型的基準測試是自行發布的,尚未經過完全獨立的第三方驗證。
| 模型 | 參數量 | 語言數 | 授權 | 首音延遲 | 語音克隆 | 最佳場景 |
|---|---|---|---|---|---|---|
| VoxCPM2 (OpenBMB) | 20 億 | 30 | Apache 2.0 | RTF ~0.13(Nano-vLLM 加速) | 文字描述生成 + 可控克隆 + 極致克隆 | 專業音頻製作、高保真克隆 |
| Fish Audio S2 Pro | 44 億(4B+400M Dual-AR) | 80+ | Fish Audio Research License(商用需付費) | ~100ms(H200) | 10-30 秒參考音頻、跨語種 | 大規模多語種配音、情感控制 |
| VibeVoice (Microsoft) | 15 億 / 70 億 | 中英為主 | MIT(但官方不建議商用) | ~200ms(Realtime 版本) | 支援但公開 demo 有限制 | 長篇 Podcast、有聲書 |
| CosyVoice 2 (Alibaba) | 未公開 | 亞洲語言 + 英語深度優化 | Apache 2.0 | 串流延遲 ~150ms | 跨語種克隆、情感解耦控制 | 即時數位人、語音助理 |
| F5-TTS | 未公開 | 多語言含中英混讀 | MIT | RTF 極低(7× 即時,Fast 版 33×) | 零樣本直接模仿 | 即時生成、低延遲場景 |
| Kokoro | 8,200 萬 | 英文為主,擴展中 | Apache 2.0 | < 0.3 秒 | 風格融合,無參考音頻克隆 | 邊緣設備、CPU 部署 |
| ChatTTS | 未公開 | 中英 | CC BY-NC 4.0(商用需授權) | 中等 | 音色定制,零樣本較弱 | LLM 對話、NPC 語音 |
| Google Project Voice | N/A(基於 Gemini API) | 多語言(依 Google 生態) | Apache 2.0 | N/A | 不適用 | 無障礙輔助溝通(AAC) |
這張表格有幾個地方需要特別說明。
Fish Audio S2 Pro 的授權不是原始素材裡標示的 CC BY-NC-SA,而是 Fish Audio Research License。研究和非商業用途免費,商業部署需要向 Fish Audio 購買授權或使用其 API(每百萬字元約 USD 15,相比 ElevenLabs 的約 USD 165)。這個價差接近 11 倍。
VibeVoice 雖然掛的是 MIT 授權,但官方文件明確寫著「不建議在商業或真實世界應用中使用,本模型僅供研究與開發」。2025 年 9 月微軟還曾因為語音克隆被濫用而一度下架原始 repo,後來加上了可聽見的 AI 聲明水印和不可見浮水印才重新上線。把 MIT 授權和「可以直接商用」劃等號,風險自負。
Google Project Voice 嚴格來說不是 TTS 大模型,而是基於 Gemini API 的無障礙溝通工具,它用 AI 預測使用者想表達的詞句並轉換為語音,設計對象是因為 ALS、腦性麻痺、中風等原因導致發聲困難的人。把它列在 TTS 比較表裡會產生誤導,但它的社會價值值得獨立介紹。
VoxCPM2:Tokenizer-Free 架構的突破與局限
VoxCPM2 最受關注的技術突破是捨棄了離散語音 Token 的轉換機制。傳統的 TTS 管線是文字 → Token → 音頻,VoxCPM2 的四階段管線(LocEnc → TSLM → RALM → LocDiT)全程在 AudioVAE V2 的連續潛在空間裡運作,直接輸出 48kHz 音頻,不需要額外的超解析度上採樣。
OpenBMB 宣稱這個設計保留了 Token 化過程中會丟失的高頻聲音細節。在 Minimax-MLS 基準的英文語音相似度(SIM)上,VoxCPM2 拿到 85.4%,ElevenLabs 是 61.3%。但正如 Medium 上一篇詳細分析指出的:SIM 只是一半的故事。在 WER(字詞錯誤率,越低越好)上,VoxCPM2 的表現則是好壞參半——英文和中文的清晰度不錯,但部分小語種的發音準確率落後。
另一個需要考量的因素是,VoxCPM2 的基準數據目前都是自行發布的。Aihola 的報導也提到,獨立第三方驗證尚未出現。對於生產環境的採用決策,這代表你需要自行跑測試,而不是照著官方跑分直接決定。
硬體需求方面,官方 repo 表示最低需要 8GB VRAM,在 RTX 4090 上的 RTF 約 0.17(VoxCPM 1.0 的數據),Nano-vLLM 加速後可以到約 0.13。Apache 2.0 授權意味著可以直接商用,沒有額外的授權費。訓練資料超過 200 萬小時的多語種語音資料,支援 SFT 和 LoRA 微調,最少只需要 5-10 分鐘的音頻就能微調。
Fish Audio S2 Pro:跑分冠軍的實際部署考量
Fish Audio S2 Pro 在 2026 年 3 月 9 日開源,是目前公開跑分最高的 TTS 模型。幾個關鍵數字:
Seed-TTS Eval 的 WER 是所有受測模型(含閉源)中最低的:中文 0.54%、英文 0.99%。做為對照,Qwen3-TTS 是 0.77/1.24,MiniMax Speech-02 是 0.99/1.90,Seed-TTS 是 1.12/2.25。
Audio Turing Test 的後驗均值 0.515,超過 Seed-TTS(0.417)24%、MiniMax-Speech(0.387)33%。
Fish Audio 在 2026 年 3 月 26 日到 4 月 5 日還做了一個有意思的盲測實驗:在他們的線上平台裡,每次使用者生成語音時,有 10% 的機率會被靜默地路由到競爭對手的 API。使用者不知道哪一版是哪家的,必須聽完兩版各至少 2 次才能下載。收集了 71,000+ 組配對、5,098 組跨供應商比較後,Fish Audio S2 Pro 的 Bradley-Terry 分數 3.07,是第二名的 1.7 倍。
S2 Pro 的架構是 Dual-AR(雙自迴歸):4B 參數的 Slow AR 負責時間軸上的語義預測,400M 參數的 Fast AR 在每個時間步生成剩餘 9 個殘差碼本的精細聲學細節。因為結構上跟標準 LLM 同構,可以直接用 SGLang 的所有推理加速功能。
最吸引開發者的功能是自由形式的行內情感控制:在文字的任意位置插入 [whisper]、[angry]、[laughing nervously] 這類自然語言標籤,支援超過 15,000 種標籤,不限於固定預設清單。
不過,商用授權的部分要仔細看。Fish Audio Research License 允許研究和非商業用途免費使用,但商業部署需要購買授權。如果你計畫的是自建部署,需要跟 Fish Audio 談商業授權;如果用他們的 API,每百萬字元約 USD 15。
VibeVoice:長篇 Podcast 生成的獨特定位
微軟的 VibeVoice 走了一條跟其他模型完全不同的路:不追求語音克隆的極致相似度,而是專攻長篇多人對話的穩定性。
核心創新是 7.5 Hz 超低幀率的連續語音 Tokenizer。大部分語音模型在 50-100 Hz 運作,VibeVoice 的 7-13 倍幀率壓縮意味著同樣的上下文長度可以處理更長的音頻序列。實際效果:單次生成最長 90 分鐘、最多 4 位說話者的對話音頻,說話者之間的音色一致性在整段長音頻中都能維持。
這個能力直接對應了 Podcast 生成市場的需求。NotebookLM 帶起的 AI Podcast 風潮讓長篇對話音頻有了明確的商業場景,但之前的開源方案在超過幾分鐘後就會出現音色漂移或發音崩潰。
限制同樣明確:語言支援只有英文和中文,其他語言的輸出品質不穩定。不支援重疊對話(只有輪流說話的模式)。基底模型是 Qwen2.5,繼承了它的偏差和限制。
VibeVoice 的生態系統值得關注。社群 fork 版本(vibevoice-community/VibeVoice)加入了 VibeVoice-Streaming-0.5B 的支援,VibePod 可以直接從文件、網頁或主題生成 Podcast。ASR 版本支援超過 50 種語言、60 分鐘長音頻的一次性轉錄。
其他值得關注的開源方案
CosyVoice 2(Alibaba Tongyi Lab) 的定位是即時語音互動。150 毫秒級的串流延遲,加上情感和音色的獨立解耦控制,讓它特別適合即時 AI 語音助理和數位人驅動的場景。CosyVoice 2 在 Seed-TTS 評估集的 hard test set 上達到了最低的字元錯誤率,MOS 評分從 1.0 版的 5.4 提升到 5.53(對照的商用大型語音模型是 5.52)。Apache 2.0 授權、亞洲語言深度優化,對台灣市場的適用性很高。
F5-TTS 基於流匹配(Flow Matching)和 DiT 架構,不需要音素對齊預處理,推理速度是這批模型裡最快的之一。正常版 7 倍即時速度,Fast 版 33 倍。MIT 授權、支援中英無縫混讀,適合對延遲極度敏感的即時應用。缺點是語音克隆的保真度跟 VoxCPM2 或 Fish Audio S2 有明顯差距。
Kokoro(82M) 的價值在極致輕量。8,200 萬參數在純 CPU 環境下就能流暢運行,sub-0.3 秒的生成速度,訓練成本只花了 USD 1,000。Apache 2.0 授權。適合邊緣設備部署和成本敏感的場景,但沒有語音克隆功能,語言支援以英文為主。
ChatTTS 專為 LLM 對話場景設計,自帶呼吸聲、笑聲和停頓,擬真感強。但 CC BY-NC 4.0 授權限制了商業使用,零樣本克隆能力也明顯弱於前幾個模型。
原始比較表缺漏的重要模型
2026 年的開源 TTS 領域還有幾個不在原始比較表裡、但值得關注的模型:
Chatterbox(Resemble AI) 是 MIT 授權的語音克隆模型,在盲測中以 63.75% 的偏好率擊敗 ElevenLabs。它引入了情感誇張度控制(emotion exaggeration control),可以調整生成語音的情感強度,這在開源 TTS 模型中是首創。內建 [laugh]、[cough]、[chuckle] 等副語言標籤。
Dia(Nari Labs) 是 1.6B 參數的對話 TTS 模型,專注於雙人對話的自然輪替和韻律。跟 VibeVoice 的多人 Podcast 定位有重疊,但更輕量。
Qwen3-TTS 在 Seed-TTS Eval 上的 WER 表現很好(0.77/1.24),語言覆蓋和音質都有競爭力,但截至 2026 年 4 月還沒有公開的模型權重。
ElevenLabs 的護城河還剩什麼
面對這波開源衝擊,ElevenLabs 的防線不在技術跑分上。2026 年 2 月的 D 輪融資(USD 5 億、估值 USD 110 億,由 Sequoia Capital 領投)和 ARR 突破 USD 3.3 億(約 NTD 106 億元)的數字,說明市場仍然願意為以下幾件事付費:
託管基礎設施和可用性保證。HIPAA/BAA 合規(醫療保健應用)。企業 SSO 和團隊協作。41% 的 Fortune 500 公司使用 ElevenLabs,企業客戶包括 Cisco、NVIDIA、Adobe、Epic Games。企業收入年增超過 200%,自助消費端和大型企業客戶的收入占比接近 50:50。
對於獨立創作者來說,開源方案已經能省下每月 USD 5-99 的訂閱費。但對於需要合規、SLA 和企業支援的場景,自建部署的隱性成本(GPU 硬體約 USD 1,600 一張 RTX 4090、ML 工程人力、合規工作)可能反而超過 ElevenLabs 的訂閱費。
選擇的邏輯不是「開源好還是商業好」,而是你的使用場景落在哪個象限:高品質要求 × 低規模 → 開源自建;高品質要求 × 高規模 × 合規需求 → 商業 API 或混合方案。
選型決策框架
根據前面的分析,按使用場景整理:
需要最高語音克隆保真度,且可以自建部署的團隊 → VoxCPM2。Apache 2.0 免費商用,48kHz 輸出,文字描述生成音色是獨特功能。但注意跑分是自行發布的,建議自行驗證。
需要大規模多語種配音、情感控制 → Fish Audio S2 Pro。80+ 語言、15,000+ 種情感標籤、跑分最高。商用需付費授權或使用 API。
需要生成長篇多人 Podcast/有聲書 → VibeVoice。90 分鐘 4 人對話是獨家能力。但僅限研究用途,商用需自行評估風險。
需要即時語音互動、低延遲串流 → CosyVoice 2。150ms 串流延遲、Apache 2.0 授權、亞洲語言優化。
需要在邊緣設備或 CPU 上運行 → Kokoro。82M 參數、Apache 2.0、sub-0.3 秒。犧牲的是語音克隆和語言覆蓋。
需要最快的生成速度 → F5-TTS。33 倍即時速度(Fast 版)、MIT 授權、中英混讀。
開發 LLM 對話應用 → ChatTTS。自然的副語言效果,但商用受限。
為發聲困難人士開發輔助工具 → Google Project Voice。基於 Gemini API 的 AAC 工具,設計邏輯完全不同於 TTS 大模型。
常見問題
開源 TTS 模型真的能取代 ElevenLabs 嗎?
在跑分上,Fish Audio S2 Pro 和 VoxCPM2 在多項基準測試中已經達到或超越 ElevenLabs 的表現。但「取代」取決於你的需求:如果你是獨立創作者或新創團隊,自建部署能省下大量成本;如果你是需要 HIPAA 合規、企業 SLA 和客戶支援的組織,ElevenLabs 的服務層仍然有不可替代的價值。兩者的價格差距約 11 倍(Fish Audio API 每百萬字元 USD 15 vs ElevenLabs 約 USD 165),這個差距會隨著開源方案成熟而繼續擴大。
VoxCPM2 的 Tokenizer-Free 架構跟傳統 TTS 有什麼不同?
傳統 TTS 把語音轉成離散 Token 再生成音頻,這個轉換過程會丟失高頻聲學細節。VoxCPM2 全程在連續潛在空間裡運作,直接輸出 48kHz 音頻。OpenBMB 宣稱這保留了更多聲音細節,Minimax-MLS 基準的相似度跑分支持這個說法。但需要注意:基準數據是自行發布的,獨立驗證尚未完成。
想做 AI Podcast,VibeVoice 和 Fish Audio S2 該選哪個?
VibeVoice 的獨特優勢是單次生成 90 分鐘、4 位說話者的能力,不需要分段生成再拼接,適合整集 Podcast 的一次性產出。Fish Audio S2 Pro 的音質和情感控制更強,但長篇生成需要分段處理。如果你優先考慮「一次跑完整集」的工作流,選 VibeVoice;如果優先考慮「每段音頻的品質都要最高」,選 Fish Audio S2 Pro 分段生成再後製。
這些模型在消費級 GPU 上跑得動嗎?
VoxCPM2 官方表示最低 8GB VRAM。Fish Audio S2 Pro 在 RTX 3060(12GB)上約 1:15 的即時因子(1 分鐘音頻需要約 15 秒),RTX 4090 上約 1:7。Kokoro 在純 CPU 上就能流暢運行。CosyVoice 2 和 F5-TTS 在消費級 GPU 上也能運行,但效能會明顯低於資料中心 GPU。VibeVoice 的 ASR 版本需要 24GB+ VRAM(A100/H100 等級),TTS 版本在 7-8GB VRAM 的消費級 GPU 上可以運行。
授權條款怎麼選?想商用的話哪些模型可以直接用?
Apache 2.0(可直接商用):VoxCPM2、CosyVoice 2、Kokoro、Google Project Voice。MIT(可商用但注意附加條件):F5-TTS 可以直接用;VibeVoice 雖然是 MIT,但官方明確表示不建議商用。需要額外授權:Fish Audio S2 Pro(Fish Audio Research License,商用需付費)、ChatTTS(CC BY-NC 4.0,商用需授權)。
引用來源
- ElevenLabs Series D 融資公告
- CNBC — Nvidia-backed AI voice startup ElevenLabs hits $11 billion valuation
- TechCrunch — ElevenLabs CEO says the voice AI startup crossed $330M ARR
- OpenBMB VoxCPM2 GitHub Repository
- Fish Audio S2 Technical Report (arXiv 2603.08823)
- Fish Audio — Blind TTS Provider Comparison 2026
- Microsoft VibeVoice GitHub Repository
- BentoML — The Best Open-Source Text-to-Speech Models in 2026
Author Insight
我們團隊在替客戶建置 AI Agent 和自動化工作流的過程中,語音模組一直是最容易被低估的成本項目。過去一年,我們在客戶專案裡測試了 ElevenLabs、Fish Audio、CosyVoice 和 Kokoro 的不同組合。實際經驗是:對於內容產出量大的團隊(每月超過 100 分鐘配音),從 ElevenLabs 切換到 Fish Audio S2 API 的成本節省非常明顯。但對於需要在台灣部署、且有中文方言需求的客戶,CosyVoice 2 的亞洲語言優化反而比跑分冠軍的 Fish Audio S2 更實用。技術選型永遠是「場景決定方案」,而不是「跑分決定方案」。
如果你正在評估語音 AI 的導入方案,不確定開源自建和商業 API 哪個更適合你的場景,歡迎跟 Tenten 團隊預約諮詢,我們可以根據你的用量、合規需求和技術資源做具體的成本效益分析。
