DeepSeek V4 尚未正式發布,但相關洩露資訊的密度已達到前所未有的程度。《Financial Times》於 2 月 27 日首先確認 V4 將在「下週」推出,Reuters 隨後披露 DeepSeek 刻意將 Nvidia 與 AMD 排除在預發布優化之外。截至 3 月 4 日,兩會開幕首日,V4 仍未正式亮相,但業界普遍預期發布時機就在本週內。
本文整理目前所有可查來源的技術規格洩露與市場背景,並明確標示哪些已獲主流媒體確認、哪些仍屬社群推測。
為何這次洩露的可信度高於以往
過去 AI 模型的預發布傳言多來自匿名 X 帳號,這次的情況有所不同。FT、Reuters、TechNode 均引述了具名「知情人士」(sources familiar with the matter),且洩露內容彼此呼應:多模態能力、華為 Ascend 優先、1M token 上下文。這三點已可視為事實基礎,而非猜測。
相對應地,SWE-bench 83.7% 的截圖已被 Epoch AI 團隊明確否認造假;部分規格數字(如總參數量的精確值)仍處於「可信洩露但未獲獨立驗證」的狀態。
架構規格:與 V3.2 的關鍵差異
根據目前可信度較高的洩露來源(FT、awesomeagents.ai、arXiv 論文),DeepSeek V3.2 到 V4 的技術躍升集中在三個面向:
| 規格項目 | DeepSeek V3.2 | DeepSeek V4(洩露) |
|---|---|---|
| 總參數量 | 671B–685B MoE | 約 1 兆(1T)MoE |
| 推論時活躍參數 | 約 37B | 約 32B |
| 上下文視窗 | 128K(2026年2月起升至1M) | 1M token(原生) |
| 模態支援 | 純文字 | 文字、圖片、影片、音訊 |
| 硬體優化目標 | Nvidia H800/H20 | 華為 Ascend + 寒武紀(Nvidia 次要) |
| 推論輸入定價(估算) | $0.28/M tokens | 約 $0.14/M tokens |
參數總量翻倍但推論時活躍參數反而下降,這是 MoE 架構持續優化的體現:更大的專家池、更精準的路由,讓推論效率不因規模膨脹而退化。
三項新架構組件
DeepSeek 在 2026 年 1 月至 2 月發表了數篇論文,被社群解讀為 V4 架構的技術鋪墊。
Engram Conditional Memory(arXiv: 2601.07372,2026/1/13)
這項記憶體架構的核心邏輯是將靜態知識從 GPU 運算分離出去,改用 DRAM 的 O(1) 哈希查找。論文宣稱在 Needle-in-a-Haystack 測試中達到 97% 準確率,對比標準架構的 84.2%。實際意義在於:1M token 的上下文不再只是數字,而有對應的效能支撐機制。
Manifold-Constrained Hyper-Connections(mHC)
解決兆參數規模訓練的穩定性問題。大型 MoE 模型在訓練後期容易出現梯度震盪,mHC 透過流形約束提供額外的穩定性保障,讓 V4 的訓練過程可行。
DSA Lightning Indexer
建構在 V3.2 的 DeepSeek Sparse Attention 基礎上,針對百萬 token 長上下文的前處理進行優化,宣稱減少約 50% 的計算量。
硬體轉向的地緣政治含義
這是 V4 最具爭議的部分,也是目前已獲 FT 和 Reuters 雙重確認的事實。
DeepSeek 在預發布階段刻意不讓 Nvidia 和 AMD 接觸 V4 模型,優先與華為 Ascend 和寒武紀合作進行推論優化。訓練階段仍使用 Nvidia H800(受出口限制的版本),但推論層的優先排序明確轉向中國本土晶片。
這與過去的慣例截然不同。新模型通常會先與主要晶片商合作確保相容性,Nvidia H20 在中國市場的銷售情況本已受到政治敏感性影響,V4 的策略進一步強化了「平行生態系」的走向。
對 Nvidia GPU 用戶的實際影響:V4 在開源後初期,於 Nvidia 硬體上的推論效能可能低於預期,優化需要額外時間。
V4 Lite(代號 sealion-lite)
至少一家推論服務商在 NDA 保密協議下測試了 V4 Lite,規格洩露如下:
| 項目 | V4 Lite(洩露) |
|---|---|
| 參數量 | 約 2,000 億(200B) |
| 上下文 | 1M token(原生) |
| 多模態 | 是 |
| Engram Memory | 否(36kr 報導未整合) |
| 與 V3.2 比較 | 非思考模式超越 V3.2 思考模式 |
3 月 3 日報導,DeepSeek 靜默推送了標記為「0302」的 V4 Lite 更新版本,社群測試者回報在邏輯、程式碼生成與美觀度上出現明顯質量提升。這通常是正式發布前的最後調校訊號。
洩露基準測試:哪些可信、哪些存疑
| 基準測試 | V4 洩露值 | V3.2 已知值 | 可信度 |
|---|---|---|---|
| HumanEval | 約 90% | — | 中(多來源引述) |
| SWE-bench Verified | >80% | 73.1% | 中(83.7% 截圖已確認造假) |
| Needle-in-a-Haystack | 97%(Engram 架構) | — | 高(arXiv 論文支撐) |
| MMLU-Pro、GPQA | 待定 | 分別為 85.0、82.4 | — |
值得注意的是:SWE-bench 的 83.7% 圖表已被社群確認為偽造,流傳較廣的 80%+ 數字來自不同渠道,仍屬未獲獨立驗證的內部評測。在第三方評測出爐前,這些數字應作為方向性參考,而非確定結論。
DeepSeek 的延遲規律
此次 V4 的發布時間比原先預期的 2 月中旬延後了約 2-3 週。回顧DeepSeek R1 的發布歷史,延遲屬於常態:R1 延後 4-8 週,V3.1 延後數月,V3.2 也有數週延誤。這個規律意味著,在官方確認之前,所有發布時間預測都應保留一定的不確定性緩衝。
與競爭模型的定價比較
若定價洩露屬實,V4 的成本優勢幅度相當顯著:
| 模型 | 輸入(每 1M tokens) | 輸出(每 1M tokens) |
|---|---|---|
| DeepSeek V4(估算) | 約 $0.14 | 約 $0.28 |
| DeepSeek V3.2 | $0.28 | $0.42 |
| Kimi K2.5 | $0.60 | $3.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
$0.14 的輸入定價若成真,意味著與 Claude Opus 4.6 相比,在相同規模的使用量下成本差距超過 35 倍。對於台灣企業而言,這直接影響 AI 應用的 ROI 計算,尤其是高頻呼叫場景。以一個月輸入 1 億 token 的規模估算,使用 V4 的月費約 NTD 450 元,使用 Claude Opus 4.6 則約 NTD 16,000 元。
目前仍未釐清的問題
V4 是否具備圖片、影片生成能力,還是僅能理解而無法生成?目前 FT 的報導使用「generate pictures and video」,但技術細節尚未公開。開源權重的發布時間,以及 Nvidia 優化版本的時程,同樣是未知數。
開放原始碼策略的持續性
根據 awesomeagents.ai 整理的資訊,V4 預計沿用 MIT 或 Apache 2.0 授權。如果確認,這將是 DeepSeek 在 開源AI領域持續深耕的第三個旗艦開源模型,對 全球 AI 競爭格局的影響將再次放大。開源策略讓開發者可以在本地部署模型,避免將敏感資料傳送至外部伺服器,這在醫療、金融等受監管行業尤具吸引力。
引用來源
- Financial Times (2026/2/27): DeepSeek plans V4 multimodal model release this week
- Reuters (2026/2/25): DeepSeek denied Nvidia and AMD access to V4
- TechNode (2026/3/2): DeepSeek plans V4 multimodal model release this week
- arXiv:2601.07372 (2026/1/13): Engram Conditional Memory
- McKinsey Global Institute (2025): State of AI Report
- awesomeagents.ai: DeepSeek V4 technical summary
作者觀點
DeepSeek V4 的架構選擇反映了一個有趣的技術邏輯:在推論層採用國產晶片優先策略,同時在訓練層仍仰賴 Nvidia H800。這種「訓練與推論分離」的做法,短期內在 Nvidia 硬體上的推論效能可能打折,但長期而言是在為脫離美國晶片依賴建立可行路徑。對企業決策者而言,在第三方基準測試出爐前,保持觀望是合理策略;但若定價洩露屬實,高頻 API 場景的成本試算值得現在就開始進行。
Ewan Mak,Tenten 數位策略顧問
若您正在評估 DeepSeek V4 或其他前沿 AI 模型如何整合進您的企業工作流程,歡迎與 Tenten 團隊預約諮詢,探討最適合您場景的 AI 應用策略。
