全面剖析 NVIDIA DJX Spark 的尖端技術如何為大型語言模型提供強大算力,並檢視眾多 AI PC 如何將此運算能力普及化,共同開創 AI 運算的新格局。

NVIDIA 近期終於開放了其新款 NVIDIA DJX Spark(前身為 Project Digits)的預購,並揭露了更多詳細規格。這款微型機器先前因其宣稱能在不依賴雲端的情況下,高效運行大型語言模型 (LLM) 而備受矚目。然而,隨著時間推移,市場上湧現了眾多競爭者,使得 DJX Spark 的獨特性不再如以往突出,我們有必要重新評估其價值定位。不僅蘋果推出了搭載 M4 MaxM3 Ultra 晶片、記憶體高達 128GB 甚至 512GB 的新款 Mac StudioFramework Desktop 也攜帶全新 AMD Ryzen AI Max Plus 395 處理器與 128GB 焊接記憶體登場,價格略高於 2000 美元。

此外,AceMagic 亦推出了一款搭載 AMD Ryzen AI 9HX 370 處理器的預算型選項,可配置高達 128GB RAM,整機價格僅約 1200 美元。面對如此眾多的選擇,這些機器在運行大型語言模型方面的表現究竟如何?哪一款更適合您的需求?這並非一個非黑即白的答案,尤其是當各家供應商都試圖透過高度優化的基準測試來推銷產品時,情況更顯複雜。

核心規格:大型語言模型運算平台的硬體對決

為了更清晰地了解各系統的實力,讓我們先檢視其核心規格,隨後再深入比較各方面的細節。

功能 NVIDIA DJX Spark Mac Studio (M4 Max / M3 Ultra) Framework Desktop (Ryzen AI Max Plus 395) AceMagic F3A (Ryzen AI 9HX 370)
CPU 20核心 ARM (10效能 + 10效率) 14至32核心 (M4 Max); M3 Ultra 16核心 Zen 5 12核心 (高效能 + 效率核心)
GPU Grace Blackwell GPU 32至80核心 GPU (M4 Max); M3 Ultra GPU 14運算單元 RDNA 3.5 GPU, XDNA 2 AI 引擎 (50+ TOPS) RDNA 3.5i GPU (Radeon 890M, 16 CU)
記憶體 (RAM) 128GB LPDDR5X 36GB 至 512GB 統一記憶體 高達 128GB LPDDR5X (焊接, GPU可動態使用達96GB VRAM) 高達 128GB (使用兩個64GB模組, 晶片支援達256GB, GPU可動態使用達96GB VRAM)
儲存空間 1TB 或 4TB SSD 512GB 至 16TB SSD 兩個 M.2 NVMe 插槽 兩個 M.2 NVMe 插槽
連接埠 4個 USB, 10Gb 乙太網路, Wi-Fi 7, 藍牙 5.3, ConnectX7 SmartNIC 6個 USB (M4 Max: 4個 USB 5; M3 Ultra: 6個 USB 5), 10Gb 乙太網路, Wi-Fi 6E, 藍牙 5.3 兩個 M.2 NVMe 插槽, 兩個 USB 3.2 Gen 1, 兩個 USB-C, Wi-Fi 7, 5Gb 乙太網路, 擴充卡 雙 2.5Gb 乙太網路, 兩個 M.2 NVMe 插槽, USB 3.2 Gen 1, 兩個 USB 4, Wi-Fi 6, 藍牙 5.2
最大功耗 170W M4 Max: 370W PSU; M3 Ultra: 480W PSU (平均約60W) 400W PSU 54W TDP
預估價格 3000 至 4000 美元 (取決於SSD) 2000 至 14000+ 美元 (較可比系統約 4000-6000 美元) 約 2300 美元 (含最佳CPU, 128GB RAM, SSD) 裸機約 679-959 美元 (配置128GB RAM和SSD後仍低於1000美元特價時)

儘管規格表提供了基礎資訊,但要客觀比較這些系統在大型語言模型推理 (LLM 推理) 方面的表現,卻遠比想像中困難。

記憶體頻寬大型語言模型推理速度的關鍵?

大型語言模型的推理過程中,記憶體頻寬無疑是最重要的指標之一。各系統在這方面的表現如下:

  1. Mac Studio M3 Ultra:819 GB/s
  2. Mac Studio M4 Max:546 GB/s
  3. NVIDIA DJX Spark:279 GB/s
  4. AMD Ryzen AI Max Plus 395:256 GB/s
  5. AMD Ryzen AI 9 370HX:約 175 GB/s (依記憶體模組而異)

理論上,我們可以將記憶體頻寬除以模型大小(若為 FP8 或 INT8 精度),來估算大型語言模型推理的每秒 token 數上限。例如,一個 70B 的 INT4 模型(磁碟大小約 35GB),在 M3 Ultra 上的理論上限約為 23.4 tokens/s,M4 Max 為 15.6 tokens/s,DJX Spark 為 7.8 tokens/s,而 Ryzen AI 395 Plus 為 7.3 tokens/s。

然而,實際情況是否如此簡單?以 NVIDIA A6000 為例,其記憶體頻寬為 768 GB/s,處理 9GB 的 Llama 3.1 8B Instruct 模型,理論上限約 85.3 tokens/s,但實際測試僅得 43 tokens/s。A5000 具有相同的記憶體頻寬,實際也僅約 40 tokens/s。這顯示實際效能約為理論值的一半。差異不僅來自記憶體頻寬,計算單元(如 CUDA 核心)也扮演重要角色。A6000 擁有 336 個 Tensor Cores,而 A5000 僅 256 個,核心數量的差異確實影響效能,但其影響程度不如記憶體頻寬劇烈。

進一步觀察 A6000 Ada 版本,其記憶體頻寬提升至 960 GB/s,理論上限達 106.7 tokens/s,但實際測試約 51 tokens/s,效能佔比反而下降。這表明單純增加記憶體頻寬並不能帶來線性的大型語言模型效能提升。NVIDIA 宣稱的世代效能提升 2.1 倍,在實際大型語言模型應用中難以實現。

相較之下,Apple M1 Max 的 MacBook Pro 在處理相同大型語言模型時,其 410 GB/s 記憶體頻寬理論上限為 45.6 tokens/s,實際平均可達 34 tokens/s,效率高達近 75%,遠優於 NVIDIA 卡的 50% 左右。這也預示著 M3 和 M4 世代晶片在運行大型語言模型時可能會有更佳的記憶體頻寬利用率。然而,Apple 在宣傳其 M3 Ultra 相較於 M1/M2 Ultra大型語言模型效能時,其測試方法存在爭議:測試中使用的模型大小超過了 M1/M2 Ultra 的 VRAM 容量,導致後者需要 CPU 卸載,從而誇大了效能差距。

至於 AMD 的 Ryzen AI 系列,儘管整合了 GPU,但目前 ROCm 對於大型語言模型的支援度遠不如 CUDA,NPU 對於 AI 晶片的支援也尚未普及。即便 NPU 被使用,其優勢更多在於能效而非絕對速度。因此,現階段在 AMD 平台上運行大型語言模型,主要還是依賴 GPU 的原始運算能力,預期在記憶體頻寬相當的情況下,其大型語言模型推理效能可能遜於 NVIDIA,至少在初期如此。

NVIDIA DGX Spark 大型語言模型支援能力與規格

NVIDIA DGX Spark 是由 NVIDIA GB10 Grace Blackwell 超級晶片驅動的桌面級 AI 超級電腦,具備以下核心規格:

Nvidia DGX Spark 可以運行多達 200B 個參數的大型語言模型 (LLM)。它利用其 128 GB 的統一記憶體和 FP4 with sparsity 來容納這些大型模型的局部推理。
AMAX Engineering 聲稱可運行高達 200B 個參數的模型。
NVIDIA 也表示,它可以利用其大型統一系統記憶體處理高達 200B 個參數的模型。

  • 記憶體: 128GB 統一系統記憶體
  • AI 運算能力: 高達 1,000 TOPS (FP4 精度)
  • 記憶體頻寬: 273 GB/s
  • 功耗: 170W
  • 價格: $2,999 - $3,999 USD

支援的大型語言模型規格表

模型類別 模型名稱 參數規模 支援功能 開發商 備註
推理專用 DeepSeek-R1 671B (MoE, 37B 激活) 推理、對話 DeepSeek 需要兩台 DGX Spark 聯機
推理專用 DeepSeek-V3 671B (MoE, 37B 激活) 推理、對話、程式碼生成 DeepSeek 需要兩台 DGX Spark 聯機
推理專用 Llama 3.3 70B 推理、對話、多語言 Meta 單台 DGX Spark
推理專用 Llama 3.1 405B 推理、對話 Meta 需要兩台 DGX Spark 聯機
推理專用 Llama 3.2 90B 推理、對話、多模態 Meta 單台 DGX Spark
推理專用 Qwen 2.5 72B 推理、對話、程式碼 Alibaba 單台 DGX Spark
推理專用 Qwen3 235B (MoE) 推理、對話、多語言 Alibaba 需要兩台 DGX Spark 聯機
推理專用 QwQ-32B 32B 推理專用模型 Alibaba 單台 DGX Spark
微調可用 DeepSeek-R1-Distill-Llama 70B 微調、推理 DeepSeek 基於 Llama 架構蒸餾
微調可用 DeepSeek-R1-Distill-Llama 8B 微調、推理 DeepSeek 基於 Llama 架構蒸餾
微調可用 DeepSeek-R1-Distill-Qwen 32B 微調、推理 DeepSeek 基於 Qwen 架構蒸餾
微調可用 Llama 3.1 70B 微調、推理 Meta 完整微調支援
微調可用 Llama 3.1 8B 微調、推理 Meta 完整微調支援
微調可用 Qwen 2.5 32B 微調、推理 Alibaba 完整微調支援
微調可用 Mistral 7B 微調、推理 Mistral AI 完整微調支援
專用模型 NVIDIA Cosmos Reason 未公布 世界模型推理 NVIDIA DGX Spark 原生支援
專用模型 NVIDIA GR00T N1 未公布 機器人基礎模型 NVIDIA DGX Spark 原生支援
NVIDIA DGX Spark(前身Project Digits):桌面AI超級電腦的革命
NVIDIA DGX Spark 全新上市!將強大的 AI 超級運算能力帶到您的桌面,讓您無需資料中心資源,也能輕鬆處理大型 AI 模型
NVIDIA GTC Spring 2025 Keynote: Introducing NVIDIA DGX Spark

模型運行能力分級

單台 DGX Spark (128GB 記憶體)

  • 推理: 支援最高 200B 參數模型
  • 微調: 支援最高 70B 參數模型
  • 最佳性能範圍: 7B - 32B 參數模型

雙機聯網配置 (256GB 總記憶體)

  • 推理: 支援最高 405B 參數模型
  • 微調: 支援最高 200B 參數模型
  • 網路連接: 200GbE RDMA 高速互連

效能基準

模型規模 推理速度 (約估) 記憶體使用 推薦配置
7B - 8B 15-25 tokens/秒 16-20GB 單台
30B - 32B 8-12 tokens/秒 60-70GB 單台
70B 3-5 tokens/秒 110-128GB 單台(滿載)
200B+ 1-3 tokens/秒 需要雙機 雙機聯網

支援的開發框架與工具

  • PyTorch: 完整支援
  • Jupyter Notebook: 預安裝
  • Ollama: 本地模型管理
  • NVIDIA RAPIDS: 資料科學加速
  • NVIDIA NeMo: 大語言模型開發框架
  • Hugging Face Transformers: 模型載入與部署

競品比較

系統 記憶體 記憶體頻寬 價格 優勢
DGX Spark 128GB 273 GB/s $2,999-3,999 NVIDIA 軟體堆疊整合
AMD Ryzen AI MAX+ 395 128GB 256 GB/s ~$2,000 更低價格,x86 相容性
Mac Studio M4 MAX 128GB 546 GB/s ~$4,000 2倍記憶體頻寬

使用建議

  1. 研究開發: 適合 AI 研究人員進行模型原型開發和實驗
  2. 教育用途: 大學和研究機構的 AI 教學平台
  3. 企業應用: 需要本地部署的隱私敏感應用
  4. 模型微調: 客製化模型開發和精細調整
  5. 叢集運算: 多台聯網支援更大規模模型

註:實際效能可能因模型最佳化程度、量化等級和具體使用場景而有所差異


TOPS 迷思:為何不應單獨依賴此指標評估大型語言模型效能

TOPS(每秒萬億次操作)是近期市場行銷的另一個焦點,但在評估大型語言模型實際效能時,其參考價值相當有限。例如,Mac 的 TOPS 數值在眾多競爭者中敬陪末座,但其大型語言模型推理效能卻不容小覷。

NVIDIA DJX Spark 宣稱高達 1000 TOPS,但細看註解,此為「理論 FP4 TOPS,使用稀疏性功能」。這其中隱含了幾個重要資訊:

  1. 理論值:不代表實際大型語言模型應用效能。
  2. FP4 功能:雖然晶片原生支援 FP4 量化的大型語言模型,但相較於 FP8,效能減半;相較於 BF16,再減半。因此,1000 TOPS 在 BF16 下約為 250 TOPS。
  3. 稀疏性功能:利用大型語言模型中權重多為零的特性進行運算優化,通常可節省約 50% 的效能。如此一來,前述的 250 TOPS 可能再減半至 125 TOPS。

儘管 125 TOPS 依然不錯,但與最初宣傳的 1000 TOPS 相去甚遠,也使得 TOPS 在跨平台比較大型語言模型效能時,顯得不夠可靠。業界需要的是一套標準化的大型語言模型基準測試,使用固定工具集(如 VLLM, Ollama)和一系列代表性模型(如 Llama 3.2 3B, Gemma 3.2 7B, DeepSeek Coder V2 32B, Llama 3.1 405B)進行獨立可驗證的測試。

生態系統考量:超越大型語言模型原始效能的選擇因素

選擇適合的大型語言模型運算平台,除了原始效能,還需考量其背後的生態系統:

  • NVIDIA DJX Spark:採用 ARM 架構和特製的 Ubuntu Linux 發行版。對於已投入或計劃使用 NVIDIA 基礎設施的用戶而言,DJX Spark 能無縫融入現有生態,從桌面開發平順過渡到大規模雲端或伺服器部署。其內建的 ConnectX7 SmartNIC 允許連接兩台 DJX Spark 以處理更大的大型語言模型,但該網卡本身價格不菲,若能提供無網卡版本,或可大幅降低入門門檻。
  • Apple Mac StudioM3 Ultra 提供強大綜合性能,但缺乏最新的 M4 單核速度;而 M4 Max 記憶體上限為 128GB,讓追求極致的用戶面臨兩難。儘管如此,Apple 提供了功能全面的 AI 機器,擁有活躍的 MLX 社群和龐大的軟硬體服務生態,是個「萬事通」的選擇,前提是您願意進入其生態。
  • AMD Ryzen AI (Framework/AceMagic):提供熟悉的 x86 架構、多樣的作業系統選擇和擴充性(儘管僅 PCIe 4.0)。其主要挑戰在於大型語言模型相關的驅動程式支援仍有不足,效能尚有提升空間。Ryzen AI 9HX 370 的入門價格誘人,但對於大型大型語言模型,其效能可能吃緊。AMD 目前雖處於追趕地位,但未來潛力可期。

總結:大型語言模型平台的理性選擇之路

顯然,單憑規格表和廠商宣傳,難以斷言哪款系統在特定大型語言模型任務中表現最佳。各家公司為求產品暢銷,美化宣傳在所難免。重要的是,使用者應明確自身的核心需求,而非追求一個適用所有情境的「萬能大型語言模型機器」。

目前市場上湧現的這些 AI PC,為運行大型語言模型提供了前所未有的選擇。這是一個充滿機遇的時代。在投資新硬體前,建議審慎評估,等待更具說服力的第三方大型語言模型基準測試出爐。

就目前而言,我認為 NVIDIA DJX Spark 以及 Nvidia Cuda 對於 PyTorch 的完美支援,實在超級適合從事 AI 開發的工作者的 AI PC,筆者日前已經於官網預購,期待 7-9 月實際出貨拿到實機後,我們等不及實際評測後給大家帶來更多驚喜。

FAQ

1. NVIDIA DJX Spark 是什麼?

NVIDIA DJX Spark 是一款由 NVIDIA GB10 Grace Blackwell 晶片驅動的桌面級 AI 超級電腦,能高效運行高達 200B 參數的大型語言模型,適合用於本地端 AI 計算、模型微調與推理。

2. NVIDIA DJX Spark 的優勢是什麼?

NVIDIA DJX Spark 採用 128GB 統一記憶體,具備最高 1,000 TOPS(FP4 精度)的能力,並支援 PyTorch 和 Hugging Face 等工具。它適合需要保障隱私且無法完全依賴雲端的 AI 開發者或企業。

3. 哪些模型可以在 NVIDIA DJX Spark 運行?

DJX Spark 可以運行如 Llama 3.3 70B、Qwen 2.5 72B 等單台支援模型,雙機聯網後更可運行如 Llama 3.1 405B 的超大規模模型。

4. 與其他 AI PC(如 Mac Studio 與 AMD Ryzen)的比較結果如何?

DJX Spark 雖然記憶體頻寬(273 GB/s)不及 Mac Studio 的 M4 Max(546 GB/s),但擁有 NVIDIA CUDA 和軟體堆疊優勢,更適合 PyTorch 開發者;相比 AMD Ryzen 平台則具備更高的穩定性與效能。

5. DJX Spark 的理想使用場景是什麼?

NVIDIA DJX Spark 適用於 AI 研究開發、教育用途、企業內部模型的本地化部署,以及需要隱私保障的應用場景,特別是多台聯網進行大型模型推理或微調。

您在為大型語言模型 (LLM) 專案尋找理想硬體解決方案? NVIDIA is your best and only choice!
在 Threads 查看

在您為組織評估 AI 整合時,Tenten 團隊擁有豐富的經驗和專業知識,能協助您評估不同平台的優劣,並根據您的具體需求提供客製化的建議。我們致力於幫助企業和開發者充分利用大型語言模型的潛力。歡迎預約免費諮詢,與我們的專家一同探討您的 AI 藍圖

NVIDIA CES 2025:NIM 微服務與 AI 藍圖 (AI Blueprints) 引領本地 AI 新紀元!
NVIDIA 在 CES 2025 大放異彩!深入解析 NIM 微服務和 AI 藍圖如何革新本地 AI,讓您的裝置擁有前所未有的 AI 能力。
Share this post
Erik (EKC)

With over 20 years of experience in technology, and the startup industry, I am passionate about AI and driving innovation. Keeping the engine running

Loading...