DeepSeek V4 尚未正式發布,但相關洩露資訊的密度已達到前所未有的程度。《Financial Times》於 2 月 27 日首先確認 V4 將在「下週」推出,Reuters 隨後披露 DeepSeek 刻意將 Nvidia 與 AMD 排除在預發布優化之外。截至 3 月 4 日,兩會開幕首日,V4 仍未正式亮相,但業界普遍預期發布時機就在本週內。

本文整理目前所有可查來源的技術規格洩露與市場背景,並明確標示哪些已獲主流媒體確認、哪些仍屬社群推測。


為何這次洩露的可信度高於以往

過去 AI 模型的預發布傳言多來自匿名 X 帳號,這次的情況有所不同。FT、Reuters、TechNode 均引述了具名「知情人士」(sources familiar with the matter),且洩露內容彼此呼應:多模態能力、華為 Ascend 優先、1M token 上下文。這三點已可視為事實基礎,而非猜測。

相對應地,SWE-bench 83.7% 的截圖已被 Epoch AI 團隊明確否認造假;部分規格數字(如總參數量的精確值)仍處於「可信洩露但未獲獨立驗證」的狀態。


架構規格:與 V3.2 的關鍵差異

根據目前可信度較高的洩露來源(FT、awesomeagents.ai、arXiv 論文),DeepSeek V3.2 到 V4 的技術躍升集中在三個面向:

規格項目 DeepSeek V3.2 DeepSeek V4(洩露)
總參數量 671B–685B MoE 約 1 兆(1T)MoE
推論時活躍參數 約 37B 約 32B
上下文視窗 128K(2026年2月起升至1M) 1M token(原生)
模態支援 純文字 文字、圖片、影片、音訊
硬體優化目標 Nvidia H800/H20 華為 Ascend + 寒武紀(Nvidia 次要)
推論輸入定價(估算) $0.28/M tokens 約 $0.14/M tokens

參數總量翻倍但推論時活躍參數反而下降,這是 MoE 架構持續優化的體現:更大的專家池、更精準的路由,讓推論效率不因規模膨脹而退化。


三項新架構組件

DeepSeek 在 2026 年 1 月至 2 月發表了數篇論文,被社群解讀為 V4 架構的技術鋪墊。

Engram Conditional Memory(arXiv: 2601.07372,2026/1/13)

這項記憶體架構的核心邏輯是將靜態知識從 GPU 運算分離出去,改用 DRAM 的 O(1) 哈希查找。論文宣稱在 Needle-in-a-Haystack 測試中達到 97% 準確率,對比標準架構的 84.2%。實際意義在於:1M token 的上下文不再只是數字,而有對應的效能支撐機制。

Manifold-Constrained Hyper-Connections(mHC)

解決兆參數規模訓練的穩定性問題。大型 MoE 模型在訓練後期容易出現梯度震盪,mHC 透過流形約束提供額外的穩定性保障,讓 V4 的訓練過程可行。

DSA Lightning Indexer

建構在 V3.2 的 DeepSeek Sparse Attention 基礎上,針對百萬 token 長上下文的前處理進行優化,宣稱減少約 50% 的計算量。


硬體轉向的地緣政治含義

這是 V4 最具爭議的部分,也是目前已獲 FT 和 Reuters 雙重確認的事實。

DeepSeek 在預發布階段刻意不讓 Nvidia 和 AMD 接觸 V4 模型,優先與華為 Ascend 和寒武紀合作進行推論優化。訓練階段仍使用 Nvidia H800(受出口限制的版本),但推論層的優先排序明確轉向中國本土晶片。

這與過去的慣例截然不同。新模型通常會先與主要晶片商合作確保相容性,Nvidia H20 在中國市場的銷售情況本已受到政治敏感性影響,V4 的策略進一步強化了「平行生態系」的走向。

對 Nvidia GPU 用戶的實際影響:V4 在開源後初期,於 Nvidia 硬體上的推論效能可能低於預期,優化需要額外時間。


V4 Lite(代號 sealion-lite)

至少一家推論服務商在 NDA 保密協議下測試了 V4 Lite,規格洩露如下:

項目 V4 Lite(洩露)
參數量 約 2,000 億(200B)
上下文 1M token(原生)
多模態
Engram Memory 否(36kr 報導未整合)
與 V3.2 比較 非思考模式超越 V3.2 思考模式

3 月 3 日報導,DeepSeek 靜默推送了標記為「0302」的 V4 Lite 更新版本,社群測試者回報在邏輯、程式碼生成與美觀度上出現明顯質量提升。這通常是正式發布前的最後調校訊號。


洩露基準測試:哪些可信、哪些存疑

基準測試 V4 洩露值 V3.2 已知值 可信度
HumanEval 約 90% 中(多來源引述)
SWE-bench Verified >80% 73.1% 中(83.7% 截圖已確認造假)
Needle-in-a-Haystack 97%(Engram 架構) 高(arXiv 論文支撐)
MMLU-Pro、GPQA 待定 分別為 85.0、82.4

值得注意的是:SWE-bench 的 83.7% 圖表已被社群確認為偽造,流傳較廣的 80%+ 數字來自不同渠道,仍屬未獲獨立驗證的內部評測。在第三方評測出爐前,這些數字應作為方向性參考,而非確定結論。


DeepSeek 的延遲規律

此次 V4 的發布時間比原先預期的 2 月中旬延後了約 2-3 週。回顧DeepSeek R1 的發布歷史,延遲屬於常態:R1 延後 4-8 週,V3.1 延後數月,V3.2 也有數週延誤。這個規律意味著,在官方確認之前,所有發布時間預測都應保留一定的不確定性緩衝。


與競爭模型的定價比較

若定價洩露屬實,V4 的成本優勢幅度相當顯著:

模型 輸入(每 1M tokens) 輸出(每 1M tokens)
DeepSeek V4(估算) 約 $0.14 約 $0.28
DeepSeek V3.2 $0.28 $0.42
Kimi K2.5 $0.60 $3.00
Claude Opus 4.6 $5.00 $25.00

$0.14 的輸入定價若成真,意味著與 Claude Opus 4.6 相比,在相同規模的使用量下成本差距超過 35 倍。對於台灣企業而言,這直接影響 AI 應用的 ROI 計算,尤其是高頻呼叫場景。以一個月輸入 1 億 token 的規模估算,使用 V4 的月費約 NTD 450 元,使用 Claude Opus 4.6 則約 NTD 16,000 元。


目前仍未釐清的問題

V4 是否具備圖片、影片生成能力,還是僅能理解而無法生成?目前 FT 的報導使用「generate pictures and video」,但技術細節尚未公開。開源權重的發布時間,以及 Nvidia 優化版本的時程,同樣是未知數。


開放原始碼策略的持續性

根據 awesomeagents.ai 整理的資訊,V4 預計沿用 MIT 或 Apache 2.0 授權。如果確認,這將是 DeepSeek 在 開源AI領域持續深耕的第三個旗艦開源模型,對 全球 AI 競爭格局的影響將再次放大。開源策略讓開發者可以在本地部署模型,避免將敏感資料傳送至外部伺服器,這在醫療、金融等受監管行業尤具吸引力。


引用來源

  • Financial Times (2026/2/27): DeepSeek plans V4 multimodal model release this week
  • Reuters (2026/2/25): DeepSeek denied Nvidia and AMD access to V4
  • TechNode (2026/3/2): DeepSeek plans V4 multimodal model release this week
  • arXiv:2601.07372 (2026/1/13): Engram Conditional Memory
  • McKinsey Global Institute (2025): State of AI Report
  • awesomeagents.ai: DeepSeek V4 technical summary

作者觀點

DeepSeek V4 的架構選擇反映了一個有趣的技術邏輯:在推論層採用國產晶片優先策略,同時在訓練層仍仰賴 Nvidia H800。這種「訓練與推論分離」的做法,短期內在 Nvidia 硬體上的推論效能可能打折,但長期而言是在為脫離美國晶片依賴建立可行路徑。對企業決策者而言,在第三方基準測試出爐前,保持觀望是合理策略;但若定價洩露屬實,高頻 API 場景的成本試算值得現在就開始進行。

Ewan Mak,Tenten 數位策略顧問


若您正在評估 DeepSeek V4 或其他前沿 AI 模型如何整合進您的企業工作流程,歡迎與 Tenten 團隊預約諮詢,探討最適合您場景的 AI 應用策略。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...