tldv

Google TPU v7 Ironwood 與 Amazon Trainium3 均採用台積電 3 奈米製程與 CoWoS 先進封裝技術。兩者在晶片設計端採取不同供應商策略:Google 委託 Broadcom 設計 TPU v7p,MediaTek 負責 TPU v7e 的 I/O die;Amazon 則由 Marvell 主導設計,Alchip 為 Trainium3 XPU 獨家供應商。

以合約規模而言,Anthropic 與 Google 達成總值約 520 億美元協議,承諾使用最多 100 萬顆 TPU;Meta 簽署六年期合約,金額逾 100 億美元。在 AWS 端,Anthropic 透過 Project Rainier 專案部署超過 50 萬顆 Trainium2,年底前將擴充至 100 萬顆,該專案投資規模逾 110 億美元。

適用範圍與限制:本報告適用於評估 AI 晶片供應鏈投資機會的專業投資人。需注意:部分數據來自產業研究機構估算,實際合約條款可能與公開資訊有出入;CoWoS 產能分配與 HBM 供應動態持續變化,建議定期更新追蹤。


一、供應鏈結構

1.1 晶片設計與製造

Google TPU v7 Ironwood 的設計分工如下:Broadcom 負責 TPU v7p 完整晶片設計,MediaTek 則承接 TPU v7e 版本的 I/O die 設計,預計 2026 年第三季開始量產。根據產業研究機構估算,TPU v7e 整個生命週期出貨量約 200 萬顆,可能為 MediaTek 帶來超過 60 億美元營收。

Amazon Trainium3 的設計則由 Marvell 主導,涵蓋主晶片設計、XPU-attach 晶片、光學 DSP、乙太網路交換晶片等。Alchip 為 Trainium3 XPU 獨家供應商,其 3 奈米晶片已於 2025 年 5 月成功流片。根據 Alchip 在台積電預留的 CoWoS 產能推估,Trainium3 在 2025 年可能為 Alchip 帶來約 10 億美元營收,整個生命週期營收貢獻預估超過 45 億美元。

兩者均採用台積電 3 奈米 N3P 製程,Trainium3 預計 2025 年第三季開始量產。

1.2 先進封裝產能

CoWoS 先進封裝產能是當前供應鏈的主要瓶頸。台積電計劃將 CoWoS 總產能從 2025 年底的每月 7 萬片提升至 2026 年的 9.3 萬片,年增幅約 33%。

各主要客戶的產能分配預估如下:Broadcom(含 Google TPU 訂單)約 11 萬片、AWS 與 Alchip 合計約 4 萬片。這些產能需與 Nvidia、AMD 等大客戶競爭分配。台積電正開發 CoPoS(Chip on Panel on Substrate)技術,採用面板級 chiplet 封裝,旨在解決 CoWoS 的產能與成本問題。

1.3 HBM 記憶體供應

Google TPU 的 HBM3E 供應以 Samsung 為主。Samsung 在 2025 年下半年解決 1a 級 DRAM 散熱問題後,大幅擴大對 Broadcom-Google 的出貨量,全年市佔率估計超過 60%。SK Hynix 約佔 Google HBM 營收的 30%,但其主要產能仍供應 Nvidia。

Amazon Trainium 的 HBM 供應較為分散,SK Hynix 為主要供應商,Micron 與 Samsung 亦參與供貨。SK Hynix 預計 2025 年第四季開始 HBM4 晶圓投片,2026 年第二季末將有大量產能上線。該公司預期 AI 記憶體市場在 2030 年前將以每年 30% 的速度成長。

1.4 供應商總覽

供應商類別 Google TPU v7 Ironwood Amazon Trainium3
晶片設計 Broadcom(TPU v7p 完整設計)、MediaTek(TPU v7e I/O die) Marvell(主晶片、XPU-attach、光學 DSP)、Alchip(Trainium3 XPU 獨家)
晶圓製造 台積電 3nm N3P 台積電 3nm(2025 Q3 量產)
先進封裝 台積電 CoWoS-L/CoWoS-S 台積電 CoWoS
HBM 記憶體 Samsung(60%+)、SK Hynix(30%) SK Hynix(主要)、Micron、Samsung

二、主要合約與客戶

2.1 Google TPU 合約

Anthropic:合約總值估計約 520 億美元,承諾使用最多 100 萬顆 TPU(涵蓋 v5e、v5p、v6、v7)。交付模式分為兩種:40 萬顆 TPU v7 Ironwood 由 Broadcom 直接銷售成品機架,金額約 100 億美元;其餘 60 萬顆透過 GCP 租賃,剩餘履約義務(RPO)約 420 億美元。部署時程為 2025 年第四季交付首批 20 萬顆 TPU v5p,2026 年上半年累計達 50 萬顆,2026 年下半年完成 100 萬顆目標。

Meta:六年期合約,金額超過 100 億美元。採階段性部署策略:2026 年先租用數百個 TPU pod 進行測試,評估工作負載效能與系統整合;2027 年起視測試結果將 Ironwood 機架部署至 Meta 自有資料中心。此策略可降低技術遷移風險,因許多客製化 CUDA kernel 需重寫為 TPU 相容版本。

潛在客戶:xAI、SSI(Safe Superintelligence,Ilya Sutskever 創立)、OpenAI 均為潛在大客戶。據報導,OpenAI 可藉「威脅採購 TPU」作為談判籌碼,向 Nvidia 爭取最高 30% 折扣。

2.2 AWS Trainium 合約

Anthropic(Project Rainier):投資規模超過 110 億美元,為 AWS 史上最大基礎設施專案。目前已部署約 50 萬顆 Trainium2,年底前擴充至 100 萬顆。資料中心位於印第安納州,採用 EC2 UltraCluster 配置,跨多個美國資料中心。Anthropic COO Tom Brown 確認將用於訓練和部署 Claude 模型。

Databricks:2024 年 10 月簽署戰略合作協議,Trainium 作為 Mosaic AI 平台首選晶片,用於 LLM 預訓練、微調與服務。

Poolside:計劃使用 Trn2 UltraServer 訓練未來模型,預期較 EC2 P5 節省 40% 費用。

Karakuri:用於訓練日語語言模型,LLM 訓練成本降低超過 50%。


三、成本結構與經濟效益

3.1 TPU v7 成本分析

完整 TPU v7 pod 配置為 9,216 顆晶片(16×16×16 3D Torus 拓撲),建置成本(CapEx)約 4.45 億美元,換算每 teraflops 約 21 美元。三年租賃成本超過 11 億美元,每 teraflops 約 52 美元。Anthropic 透過 GCP 租賃的特殊定價約為每 TPU 小時 1.60 美元。

與 Nvidia 系統比較:完整 3D Torus 配置的 Ironwood 晶片全方位擁有成本(TCO)較 GB200 伺服器低約 44%(Google 自用情境);外部客戶透過 GCP 使用,較 GB300 可降低 30-41% 成本。成本優勢來源包括:系統整合效率、在 CPU、交換器、NIC、系統記憶體、纜線與連接器等整體系統上的成本控制。

3.2 Trainium3 成本分析

AWS 未公開 Trainium3 官方定價,但強調「最佳性價比」。客戶回報訓練成本降低高達 50%。Trainium3 較上一代效能提升 4.4 倍,能源效率提升 4 倍(功耗降低 40%)。

Trainium3 UltraServer 可擴展至 144 顆晶片,提供最高 362 FP8 petaflops 運算能力。在 Amazon Bedrock 的 GPT-OSS 測試中,Trainium3 在相似延遲條件下,每百萬瓦輸出的 token 數量較 Trn2 高出 5 倍以上。

3.3 模型 FLOP 利用率(MFU)

TPU 在實際工作負載中可達到較高的模型 FLOP 利用率。Nvidia GPU 採用動態電壓頻率調整(DVFS),理論峰值基於瞬間最高時脈計算,實際難以持續維持。根據 SemiAnalysis 分析,Hopper 在最佳化測試中達到約 80% 峰值,Blackwell 約 70%,AMD MI300 系列約 50-60%。

Anthropic 憑藉前 Google 編譯器專家團隊,在 TPU 上可實現約 40% MFU,使其每有效 PFLOP 成本較 GB300 NVL72 低約 52%。即使 MFU 僅達 19%,訓練成本效益仍與 Nvidia 系統相當。

3.4 成本比較摘要

比較維度 Google TPU v7 Ironwood Amazon Trainium3
最大 Pod 規模 9,216 顆(3D Torus) UltraServer 144 顆;UltraCluster 可達數十萬顆
建置成本 完整 pod 約 4.45 億美元(每 TFLOPS 約 21 美元) 未公開,強調最佳性價比
租賃成本 三年超過 11 億美元;Anthropic 特殊價約 $1.60/TPU-hour 客戶回報較競品降低 40-50%
TCO 優勢 較 GB200 低 44%;較 GB300 低 30-41% 效能較上代提升 4.4 倍;功耗降低 40%

四、技術架構比較

4.1 TPU v7 Ironwood

單晶片峰值運算能力:4,614 teraflops。記憶體:8-Hi HBM3E。網路架構:專有 Inter-Chip Interconnect(ICI)3D Torus,透過光學電路交換器(OCS)實現 9,216 顆晶片無縫互聯。每顆 TPU 透過 6 個方向連接鄰近晶片,內部使用銅線 DAC,跨機架使用 800G 光學收發器。

冷卻設計:液冷機架,冷卻液流量由閥門主動控制,可根據晶片工作負載動態調整。完整 pod 總功耗接近 10 MW。

軟體生態:JAX、XLA、TensorFlow。對 Google 內部極為成熟,但外部客戶學習曲線較陡。

4.2 Trainium3

單一 UltraServer 最高 144 顆晶片,運算能力達 362 FP8 petaflops。記憶體頻寬較 Trn2 提升 3.9 倍,延遲降低 4 倍。

網路架構:NeuronSwitch-v1 提供 2 倍頻寬,Neuron Fabric 網路延遲低於 10 微秒。EC2 UltraCluster 3.0 可擴展至數十萬顆晶片。

軟體生態:Neuron SDK,支援混合精度訓練與模型分割,較前一代提升 20% 每美元效率。


五、投資要點

5.1 供應鏈受益標的

台積電:3 奈米製程與 CoWoS 封裝獨家供應商,產能分配為關鍵觀察指標。2026 年 CoWoS 產能擴增 33%,但需與多家大客戶競爭。

Broadcom:Google TPU 長期設計合作夥伴,TPU v7p 完整設計。Anthropic 合約中 100 億美元直接銷售成品機架。

Marvell:與 AWS 簽訂五年多世代合作協議,涵蓋 Trainium 主晶片、光學 DSP、乙太網路交換晶片等。Trainium 2 在 2025 年為 Marvell 帶來超過 34 億美元營收。

MediaTek:TPU v7e I/O die 設計,2026 年第三季量產,生命週期營收潛力超過 60 億美元。為分散投資 AI 供應鏈的選項。

Alchip:Trainium3 XPU 獨家供應商。2025 年營收潛力約 10 億美元,生命週期營收貢獻超過 45 億美元。有機會取得 Trainium4 訂單。

Samsung / SK Hynix:HBM 記憶體供應。Samsung 為 Google TPU 主要供應商(市佔超過 60%),SK Hynix 主攻 Nvidia 但 Google 約佔其 30% 營收。SK Hynix 預期 AI 記憶體市場年成長 30% 至 2030 年。

5.2 主要風險

CoWoS 產能瓶頸:先進封裝產能為整體供應鏈限制因素,產能分配變動可能影響各客戶交付時程。

技術遷移風險:客戶從 CUDA 生態系遷移至 TPU 或 Trainium 需重寫大量程式碼,可能延緩採用進度。Meta 採階段性測試策略即為此考量。

供應商鎖定:大規模承諾使用特定平台可能產生生態系依賴。Anthropic 採雙平台策略(同時使用 Google TPU 與 AWS Trainium)可部分緩解此風險。

合約條款不確定性:部分合約金額與條款來自產業研究機構估算,實際數字可能有出入。

5.3 後續觀察重點

xAI、SSI、OpenAI 等潛在客戶的 TPU 訂單進展;Trainium3 正式定價與市場反應;台積電 CoWoS 產能擴充進度與客戶分配;HBM4 量產時程與供應商競爭格局;Meta TPU 測試結果與 2027 年大規模部署決策。


六、資料來源說明

本報告數據主要引用自:

部分合約金額與產能數據為產業研究機構估算值,建議交叉比對多方來源。


免責聲明:本報告僅供參考,不構成投資建議。投資人應自行評估風險並諮詢專業顧問。

Share this post
Christina Mak

奢侈時尚 KOL 轉型為鑽石企業家,為精英客戶創制定製珠寶。無衝突鑽石和道德採礦實踐的倡導者,建立從礦場到市場的透明供應鏈。材料科學與工程學位/ GIA 認證

Loading...