國際頂尖晶片會議 Hot Chips 剛落下帷幕,作為半導體與系統設計領域的年度指標,今年的技術展示揭示了未來一到兩年晶片產業的發展方向。從能將 AI 超級電腦縮小至桌面等級的晶片,到以光線取代電線的互聯技術,再到能承受十億瓦級資料中心的散熱解決方案,每項創新都在重新定義科技發展的基礎架構。

AI 運算晶片的記憶體革命

當前 AI 晶片發展面臨的核心挑戰並非算力不足,而是資料傳輸的瓶頸。隨著模型參數達到千億甚至萬億級別,記憶體頻寬和容量成為限制性能的關鍵因素。晶片的運算能力經常因為等待資料讀取而無法充分發揮。

Marvell 的三層記憶體優化策略

Marvell 提出「儲存是唯一重要的事」這一觀點,並推出三項創新技術:

技術類型 特點 性能提升
定制 SRAM 2奈米製程,6GB 高速記憶體 頻寬密度為標準 SRAM 的 17 倍,面積減少 50%,待機功耗降低 66%
定制 HBM 與 SK 海力士、三星、美光合作優化介面 每秒每毫米 30TB 的 D2D IP 傳輸速率
CXL 控制器 Strike Terra 產品線,直連架構 200GB/s 頻寬,4TB 容量,功耗低於 100W

D-Matrix 的存內運算架構

D-Matrix 的 Corsair AI 推理晶片採用數位存內運算架構,搭配自定義矩陣乘法電路和區塊浮點資料格式。其關鍵規格包括:

  • FP8 精度下算力達 2,400 TOPS
  • FP4 精度下達到 9,600 TOPS
  • 執行 Llama 370B 模型時,單一 Token 生成時間僅 2 毫秒
  • 總記憶體頻寬高達每秒 150TB

超節點網路的擴展革新

華為的統一匯流排網格架構

華為針對百萬晶片規模的超節點網路,提出 UBMesh 解決方案,採用統一協議加混合拓撲來平衡性能與成本。該架構包含三種拓撲技術:

拓撲類型 適用規模 主要特點
Cross 拓撲 100萬節點級別 多功能、高可靠性
NDMesh 拓撲 128-8,192 節點 本地頻寬高,遠端頻寬可調節
NDSplineMesh 16-128 節點 成本低、頻寬高

NVIDIA 與 AMD 的新一代 AI 加速器

NVIDIA GB10 桌面級 AI 超算晶片

NVIDIA 推出的 GB10 SoC 整合了 Blackwell GPU 和聯發科打造的 20 核 ARM CPU,採用台積電 3 奈米製程。主要規格:

  • FP32 精度下 AI 性能達 31 TFLOPS
  • FP4 精度下高達 1,000 TFLOPS
  • TDP 僅 140W,適合桌面工作站部署
  • 支援 2,000 億參數的大型 AI 模型

AMD MI350 系列的 3D 堆疊創新

AMD 的 MI350 系列基於 CDNA4 架構,採用 3D 晶片堆疊技術,在兩個 6 奈米 IO 晶片上堆疊 8 個 3 奈米 XCD 晶片,總計整合 1,850 億個電晶體。液冷版本總板功耗達 1,400W,執行 DeepSeek R1 模型的推理速度是上一代的 3 倍。

光學互聯技術的突破

隨著晶片性能提升,電氣 I/O 的功耗和傳輸限制愈發明顯。光學 I/O 具有速率更高、功耗更低、抗干擾能力強的優勢。

Celestial AI 的光學結構模組

Celestial AI 推出的 Photonic Fabric 技術不採用傳統共封裝光學設計,而是使用更靈活的模組架構,讓光連接能夠適配現有 GPU 形態。其 PhotonicLink 技術實現了超高能效,並正在開發支援 HBM 的光學中介層。

Lightmatter 的 3D 光學中介層平台

Passage M1000 平台在光學中介層上封裝運算和記憶體晶片,預期速率高達 114 Tbps。該設計解決了光學元件與電氣晶片的物理尺寸匹配問題,使用矽微環諧振器調節光訊號,實現緊湊的光學設計。


新世代 CPU 架構演進

Intel Clearwater Forest 的 3D 封裝

Intel 的下一代至強處理器擁有 288 個核心,採用 Intel 18A 製程和 3D 封裝技術。主要特點:

  • 末級快取達 1,152MB
  • 前端指令寬度提升 50%
  • 每瓦性能是上一代的 3.5 倍
  • 雙插槽系統總記憶體頻寬達每秒 1.3TB

RISC-V 架構的崛起

晶心科技子公司 Kondo Computing 展示首款高性能 RISC-V CPU IP「Cusco」,在 SPEC INT2006 測試中,每時脈週期性能幾乎是當前 AX65 核心的兩倍,證明了 RISC-V 在高性能運算領域的潛力。


圖形處理的 AI 革新

AMD RDNA4 架構的光線追蹤優化

RDNA4 架構專為次世代遊戲和創作設計,光線追蹤性能比上一代翻倍。主要創新包括:

  • 新增專用硬體實例轉換器
  • BVH 從 4 列加寬到 8 列
  • 支援 FP8 精度和稀疏化功能
  • 定向邊界框技術提升光線相交測試效率

Meta Orion AI 眼鏡晶片

Meta 為 AR 眼鏡設計的專用晶片面臨極端的功耗限制,採用多晶片協同架構:

晶片類型 製程 電晶體數量 主要功能
眼鏡處理器 5奈米 24億 眼動追蹤、手勢識別
顯示處理器 5奈米 - 時間扭曲、影像重投影
運算處理器 5奈米 57億 AI推理、HEVC編碼

硬體安全與散熱創新

微軟 Cerberus 整合式 HSM

面對網路犯罪 GDP 超過 10 兆美元的嚴峻形勢,微軟推出整合式硬體安全模組,將加密功能直接內建於每台伺服器。該 ASIC 晶片的 62% 面積用於硬體密碼模組,支援機密運算,確保資料在記憶體中執行時也保持加密狀態。

Fabric8 Labs 的電化學增材製造散熱技術

採用 ECAM 技術以像素級精度沉積銅材,製造傳統工藝無法實現的複雜 3D 散熱結構。透過生成式 AI 優化設計,根據晶片發熱分布自動生成最適合的散熱結構,兩相液冷浸入式蒸發板的散熱效率比單相液冷高 3-5 倍。

產業展望與未來趨勢

Hot Chips 2024 展現的技術突破預示著晶片產業正朝向更高算力、更低能耗、更安全可靠的方向發展。2025 年全球 AI 晶片峰會將聚焦於降低部署成本、優化軟體生態系統,以及平衡算力與能耗等實際落地挑戰。隨著量產級 AI 晶片產品的推出,整個產業正從實驗室原型邁向大規模商業應用階段。


參考資料:


作者觀點

Ewan - 資深技術分析師

從本屆 Hot Chips 大會可以看出,晶片產業正處於關鍵轉型期。記憶體瓶頸問題透過存內運算和創新架構獲得突破,光學互聯技術即將從實驗室走向量產,而 AI 與傳統運算的融合正在重新定義晶片設計的基本原則。特別值得注意的是,隨著摩爾定律逐漸觸頂,產業正透過 3D 封裝、Chiplet 架構和異質整合等創新路徑延續性能提升。未來一到兩年,我們將見證這些技術從概念驗證轉向大規模部署,為 AI 時代的運算需求提供堅實基礎。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...