2026 開源 AI 語音模型完整評測：VoxCPM2、Fish Audio S2、VibeVoice 如何取代 ElevenLabs

開源 AI 語音模型在 2026 年 Q1 出現結構性突破，VoxCPM2 在 Minimax-MLS 基準的英文語音相似度拿下 85.4%，ElevenLabs 同項測試只有 61.3%。 這個差距不是微調等級的進步，而是架構層面的世代跳躍。更關鍵的數字是成本：ElevenLabs 在 2026 年 2 月剛完成 5 億美元 D 輪融資、估值 110 億美元（約 NTD 3,520 億元），年化經常性收入（ARR）突破 3.3 億美元，但開源方案的本地部署成本已經趨近零。這篇文章拆解 2026 年八個最值得關注的開源語音模型——從技術架構、跑分數據、授權條款到商業適用場景——幫你判斷哪一個方案能真正取代你目前的付費語音服務。

開源 TTS 市場在 2026 年的結構性變化

過去兩年，開源 TTS 的進展集中在「音質追上商業方案」這件事上。2026 年的轉折點在於，幾個開源模型不只追上了，在特定維度已經超越 ElevenLabs。

三個數據點標記了這個轉折：

Fish Audio S2 Pro 在 2026 年 3 月 9 日開源後，Audio Turing Test 的後驗均值達到 0.515，超過 ByteDance 的 Seed-TTS（0.417）24%、MiniMax-Speech（0.387）33%。EmergentTTS-Eval 的整體勝率 81.88%，是包含 Google 和 OpenAI 閉源系統在內的最高分。

VoxCPM2 在 2026 年 4 月由清華大學 NLP 團隊支持的 OpenBMB 發布，20 億參數、30 種語言、48kHz 原生輸出，Apache 2.0 授權。在 Minimax-MLS 基準上，英文語音相似度 85.4% 對 ElevenLabs 的 61.3%，差距超過 24 個百分點。

微軟的 VibeVoice 在 2025 年 8 月首次開源 1.5B 版本，能在單次生成中產出最長 90 分鐘、最多 4 位說話者的對話音頻，這在開源界是前所未有的長度上限。

這些不是實驗室裡的 demo。Fish Audio S2 Pro 在單張 NVIDIA H200 GPU 上的首音延遲（TTFA）約 100 毫秒，即時因子（RTF）0.195，已經達到生產環境的效能門檻。

八大開源模型深度比較

以下比較基於 2026 年 4 月的最新版本和公開跑分數據。需要注意的是，部分模型的基準測試是自行發布的，尚未經過完全獨立的第三方驗證。

模型	參數量	語言數	授權	首音延遲	語音克隆	最佳場景
VoxCPM2 (OpenBMB)	20 億	30	Apache 2.0	RTF ~0.13（Nano-vLLM 加速）	文字描述生成 + 可控克隆 + 極致克隆	專業音頻製作、高保真克隆
Fish Audio S2 Pro	44 億（4B+400M Dual-AR）	80+	Fish Audio Research License（商用需付費）	~100ms（H200）	10-30 秒參考音頻、跨語種	大規模多語種配音、情感控制
VibeVoice (Microsoft)	15 億 / 70 億	中英為主	MIT（但官方不建議商用）	~200ms（Realtime 版本）	支援但公開 demo 有限制	長篇 Podcast、有聲書
CosyVoice 2 (Alibaba)	未公開	亞洲語言 + 英語深度優化	Apache 2.0	串流延遲 ~150ms	跨語種克隆、情感解耦控制	即時數位人、語音助理
F5-TTS	未公開	多語言含中英混讀	MIT	RTF 極低（7× 即時，Fast 版 33×）	零樣本直接模仿	即時生成、低延遲場景
Kokoro	8,200 萬	英文為主，擴展中	Apache 2.0	< 0.3 秒	風格融合，無參考音頻克隆	邊緣設備、CPU 部署
ChatTTS	未公開	中英	CC BY-NC 4.0（商用需授權）	中等	音色定制，零樣本較弱	LLM 對話、NPC 語音
Google Project Voice	N/A（基於 Gemini API）	多語言（依 Google 生態）	Apache 2.0	N/A	不適用	無障礙輔助溝通（AAC）

這張表格有幾個地方需要特別說明。

Fish Audio S2 Pro 的授權不是原始素材裡標示的 CC BY-NC-SA，而是 Fish Audio Research License。研究和非商業用途免費，商業部署需要向 Fish Audio 購買授權或使用其 API（每百萬字元約 USD 15，相比 ElevenLabs 的約 USD 165）。這個價差接近 11 倍。

VibeVoice 雖然掛的是 MIT 授權，但官方文件明確寫著「不建議在商業或真實世界應用中使用，本模型僅供研究與開發」。2025 年 9 月微軟還曾因為語音克隆被濫用而一度下架原始 repo，後來加上了可聽見的 AI 聲明水印和不可見浮水印才重新上線。把 MIT 授權和「可以直接商用」劃等號，風險自負。

Google Project Voice 嚴格來說不是 TTS 大模型，而是基於 Gemini API 的無障礙溝通工具，它用 AI 預測使用者想表達的詞句並轉換為語音，設計對象是因為 ALS、腦性麻痺、中風等原因導致發聲困難的人。把它列在 TTS 比較表裡會產生誤導，但它的社會價值值得獨立介紹。

VoxCPM2：Tokenizer-Free 架構的突破與局限

VoxCPM2 最受關注的技術突破是捨棄了離散語音 Token 的轉換機制。傳統的 TTS 管線是文字 → Token → 音頻，VoxCPM2 的四階段管線（LocEnc → TSLM → RALM → LocDiT）全程在 AudioVAE V2 的連續潛在空間裡運作，直接輸出 48kHz 音頻，不需要額外的超解析度上採樣。

OpenBMB 宣稱這個設計保留了 Token 化過程中會丟失的高頻聲音細節。在 Minimax-MLS 基準的英文語音相似度（SIM）上，VoxCPM2 拿到 85.4%，ElevenLabs 是 61.3%。但正如 Medium 上一篇詳細分析指出的：SIM 只是一半的故事。在 WER（字詞錯誤率，越低越好）上，VoxCPM2 的表現則是好壞參半——英文和中文的清晰度不錯，但部分小語種的發音準確率落後。

另一個需要考量的因素是，VoxCPM2 的基準數據目前都是自行發布的。Aihola 的報導也提到，獨立第三方驗證尚未出現。對於生產環境的採用決策，這代表你需要自行跑測試，而不是照著官方跑分直接決定。

硬體需求方面，官方 repo 表示最低需要 8GB VRAM，在 RTX 4090 上的 RTF 約 0.17（VoxCPM 1.0 的數據），Nano-vLLM 加速後可以到約 0.13。Apache 2.0 授權意味著可以直接商用，沒有額外的授權費。訓練資料超過 200 萬小時的多語種語音資料，支援 SFT 和 LoRA 微調，最少只需要 5-10 分鐘的音頻就能微調。

Fish Audio S2 Pro：跑分冠軍的實際部署考量

Fish Audio S2 Pro 在 2026 年 3 月 9 日開源，是目前公開跑分最高的 TTS 模型。幾個關鍵數字：

Seed-TTS Eval 的 WER 是所有受測模型（含閉源）中最低的：中文 0.54%、英文 0.99%。做為對照，Qwen3-TTS 是 0.77/1.24，MiniMax Speech-02 是 0.99/1.90，Seed-TTS 是 1.12/2.25。

Audio Turing Test 的後驗均值 0.515，超過 Seed-TTS（0.417）24%、MiniMax-Speech（0.387）33%。

Fish Audio 在 2026 年 3 月 26 日到 4 月 5 日還做了一個有意思的盲測實驗：在他們的線上平台裡，每次使用者生成語音時，有 10% 的機率會被靜默地路由到競爭對手的 API。使用者不知道哪一版是哪家的，必須聽完兩版各至少 2 次才能下載。收集了 71,000+ 組配對、5,098 組跨供應商比較後，Fish Audio S2 Pro 的 Bradley-Terry 分數 3.07，是第二名的 1.7 倍。

S2 Pro 的架構是 Dual-AR（雙自迴歸）：4B 參數的 Slow AR 負責時間軸上的語義預測，400M 參數的 Fast AR 在每個時間步生成剩餘 9 個殘差碼本的精細聲學細節。因為結構上跟標準 LLM 同構，可以直接用 SGLang 的所有推理加速功能。

最吸引開發者的功能是自由形式的行內情感控制：在文字的任意位置插入 [whisper]、[angry]、[laughing nervously] 這類自然語言標籤，支援超過 15,000 種標籤，不限於固定預設清單。

不過，商用授權的部分要仔細看。Fish Audio Research License 允許研究和非商業用途免費使用，但商業部署需要購買授權。如果你計畫的是自建部署，需要跟 Fish Audio 談商業授權；如果用他們的 API，每百萬字元約 USD 15。

VibeVoice：長篇 Podcast 生成的獨特定位

微軟的 VibeVoice 走了一條跟其他模型完全不同的路：不追求語音克隆的極致相似度，而是專攻長篇多人對話的穩定性。

核心創新是 7.5 Hz 超低幀率的連續語音 Tokenizer。大部分語音模型在 50-100 Hz 運作，VibeVoice 的 7-13 倍幀率壓縮意味著同樣的上下文長度可以處理更長的音頻序列。實際效果：單次生成最長 90 分鐘、最多 4 位說話者的對話音頻，說話者之間的音色一致性在整段長音頻中都能維持。

這個能力直接對應了 Podcast 生成市場的需求。NotebookLM 帶起的 AI Podcast 風潮讓長篇對話音頻有了明確的商業場景，但之前的開源方案在超過幾分鐘後就會出現音色漂移或發音崩潰。

限制同樣明確：語言支援只有英文和中文，其他語言的輸出品質不穩定。不支援重疊對話（只有輪流說話的模式）。基底模型是 Qwen2.5，繼承了它的偏差和限制。

VibeVoice 的生態系統值得關注。社群 fork 版本（vibevoice-community/VibeVoice）加入了 VibeVoice-Streaming-0.5B 的支援，VibePod 可以直接從文件、網頁或主題生成 Podcast。ASR 版本支援超過 50 種語言、60 分鐘長音頻的一次性轉錄。

其他值得關注的開源方案

CosyVoice 2（Alibaba Tongyi Lab） 的定位是即時語音互動。150 毫秒級的串流延遲，加上情感和音色的獨立解耦控制，讓它特別適合即時 AI 語音助理和數位人驅動的場景。CosyVoice 2 在 Seed-TTS 評估集的 hard test set 上達到了最低的字元錯誤率，MOS 評分從 1.0 版的 5.4 提升到 5.53（對照的商用大型語音模型是 5.52）。Apache 2.0 授權、亞洲語言深度優化，對台灣市場的適用性很高。

F5-TTS 基於流匹配（Flow Matching）和 DiT 架構，不需要音素對齊預處理，推理速度是這批模型裡最快的之一。正常版 7 倍即時速度，Fast 版 33 倍。MIT 授權、支援中英無縫混讀，適合對延遲極度敏感的即時應用。缺點是語音克隆的保真度跟 VoxCPM2 或 Fish Audio S2 有明顯差距。

Kokoro（82M） 的價值在極致輕量。8,200 萬參數在純 CPU 環境下就能流暢運行，sub-0.3 秒的生成速度，訓練成本只花了 USD 1,000。Apache 2.0 授權。適合邊緣設備部署和成本敏感的場景，但沒有語音克隆功能，語言支援以英文為主。

ChatTTS 專為 LLM 對話場景設計，自帶呼吸聲、笑聲和停頓，擬真感強。但 CC BY-NC 4.0 授權限制了商業使用，零樣本克隆能力也明顯弱於前幾個模型。

原始比較表缺漏的重要模型

2026 年的開源 TTS 領域還有幾個不在原始比較表裡、但值得關注的模型：

Chatterbox（Resemble AI） 是 MIT 授權的語音克隆模型，在盲測中以 63.75% 的偏好率擊敗 ElevenLabs。它引入了情感誇張度控制（emotion exaggeration control），可以調整生成語音的情感強度，這在開源 TTS 模型中是首創。內建 [laugh]、[cough]、[chuckle] 等副語言標籤。

Dia（Nari Labs） 是 1.6B 參數的對話 TTS 模型，專注於雙人對話的自然輪替和韻律。跟 VibeVoice 的多人 Podcast 定位有重疊，但更輕量。

Qwen3-TTS 在 Seed-TTS Eval 上的 WER 表現很好（0.77/1.24），語言覆蓋和音質都有競爭力，但截至 2026 年 4 月還沒有公開的模型權重。

ElevenLabs 的護城河還剩什麼

面對這波開源衝擊，ElevenLabs 的防線不在技術跑分上。2026 年 2 月的 D 輪融資（USD 5 億、估值 USD 110 億，由 Sequoia Capital 領投）和 ARR 突破 USD 3.3 億（約 NTD 106 億元）的數字，說明市場仍然願意為以下幾件事付費：

託管基礎設施和可用性保證。HIPAA/BAA 合規（醫療保健應用）。企業 SSO 和團隊協作。41% 的 Fortune 500 公司使用 ElevenLabs，企業客戶包括 Cisco、NVIDIA、Adobe、Epic Games。企業收入年增超過 200%，自助消費端和大型企業客戶的收入占比接近 50:50。

對於獨立創作者來說，開源方案已經能省下每月 USD 5-99 的訂閱費。但對於需要合規、SLA 和企業支援的場景，自建部署的隱性成本（GPU 硬體約 USD 1,600 一張 RTX 4090、ML 工程人力、合規工作）可能反而超過 ElevenLabs 的訂閱費。

選擇的邏輯不是「開源好還是商業好」，而是你的使用場景落在哪個象限：高品質要求 × 低規模 → 開源自建；高品質要求 × 高規模 × 合規需求 → 商業 API 或混合方案。

選型決策框架

根據前面的分析，按使用場景整理：

需要最高語音克隆保真度，且可以自建部署的團隊 → VoxCPM2。Apache 2.0 免費商用，48kHz 輸出，文字描述生成音色是獨特功能。但注意跑分是自行發布的，建議自行驗證。

需要大規模多語種配音、情感控制 → Fish Audio S2 Pro。80+ 語言、15,000+ 種情感標籤、跑分最高。商用需付費授權或使用 API。

需要生成長篇多人 Podcast/有聲書 → VibeVoice。90 分鐘 4 人對話是獨家能力。但僅限研究用途，商用需自行評估風險。

需要即時語音互動、低延遲串流 → CosyVoice 2。150ms 串流延遲、Apache 2.0 授權、亞洲語言優化。

需要在邊緣設備或 CPU 上運行 → Kokoro。82M 參數、Apache 2.0、sub-0.3 秒。犧牲的是語音克隆和語言覆蓋。

需要最快的生成速度 → F5-TTS。33 倍即時速度（Fast 版）、MIT 授權、中英混讀。

開發 LLM 對話應用 → ChatTTS。自然的副語言效果，但商用受限。

為發聲困難人士開發輔助工具 → Google Project Voice。基於 Gemini API 的 AAC 工具，設計邏輯完全不同於 TTS 大模型。

常見問題

開源 TTS 模型真的能取代 ElevenLabs 嗎？

在跑分上，Fish Audio S2 Pro 和 VoxCPM2 在多項基準測試中已經達到或超越 ElevenLabs 的表現。但「取代」取決於你的需求：如果你是獨立創作者或新創團隊，自建部署能省下大量成本；如果你是需要 HIPAA 合規、企業 SLA 和客戶支援的組織，ElevenLabs 的服務層仍然有不可替代的價值。兩者的價格差距約 11 倍（Fish Audio API 每百萬字元 USD 15 vs ElevenLabs 約 USD 165），這個差距會隨著開源方案成熟而繼續擴大。

VoxCPM2 的 Tokenizer-Free 架構跟傳統 TTS 有什麼不同？

傳統 TTS 把語音轉成離散 Token 再生成音頻，這個轉換過程會丟失高頻聲學細節。VoxCPM2 全程在連續潛在空間裡運作，直接輸出 48kHz 音頻。OpenBMB 宣稱這保留了更多聲音細節，Minimax-MLS 基準的相似度跑分支持這個說法。但需要注意：基準數據是自行發布的，獨立驗證尚未完成。

想做 AI Podcast，VibeVoice 和 Fish Audio S2 該選哪個？

VibeVoice 的獨特優勢是單次生成 90 分鐘、4 位說話者的能力，不需要分段生成再拼接，適合整集 Podcast 的一次性產出。Fish Audio S2 Pro 的音質和情感控制更強，但長篇生成需要分段處理。如果你優先考慮「一次跑完整集」的工作流，選 VibeVoice；如果優先考慮「每段音頻的品質都要最高」，選 Fish Audio S2 Pro 分段生成再後製。

這些模型在消費級 GPU 上跑得動嗎？

VoxCPM2 官方表示最低 8GB VRAM。Fish Audio S2 Pro 在 RTX 3060（12GB）上約 1:15 的即時因子（1 分鐘音頻需要約 15 秒），RTX 4090 上約 1:7。Kokoro 在純 CPU 上就能流暢運行。CosyVoice 2 和 F5-TTS 在消費級 GPU 上也能運行，但效能會明顯低於資料中心 GPU。VibeVoice 的 ASR 版本需要 24GB+ VRAM（A100/H100 等級），TTS 版本在 7-8GB VRAM 的消費級 GPU 上可以運行。

授權條款怎麼選？想商用的話哪些模型可以直接用？

Apache 2.0（可直接商用）：VoxCPM2、CosyVoice 2、Kokoro、Google Project Voice。MIT（可商用但注意附加條件）：F5-TTS 可以直接用；VibeVoice 雖然是 MIT，但官方明確表示不建議商用。需要額外授權：Fish Audio S2 Pro（Fish Audio Research License，商用需付費）、ChatTTS（CC BY-NC 4.0，商用需授權）。

引用來源

Author Insight

我們團隊在替客戶建置 AI Agent 和自動化工作流的過程中，語音模組一直是最容易被低估的成本項目。過去一年，我們在客戶專案裡測試了 ElevenLabs、Fish Audio、CosyVoice 和 Kokoro 的不同組合。實際經驗是：對於內容產出量大的團隊（每月超過 100 分鐘配音），從 ElevenLabs 切換到 Fish Audio S2 API 的成本節省非常明顯。但對於需要在台灣部署、且有中文方言需求的客戶，CosyVoice 2 的亞洲語言優化反而比跑分冠軍的 Fish Audio S2 更實用。技術選型永遠是「場景決定方案」，而不是「跑分決定方案」。

如果你正在評估語音 AI 的導入方案，不確定開源自建和商業 API 哪個更適合你的場景，歡迎跟 Tenten 團隊預約諮詢，我們可以根據你的用量、合規需求和技術資源做具體的成本效益分析。

Supports the account team by managing daily client communications and coordinating project tasks.