晶片大戰開打！Google TPU v7 vs Amazon Trainium3 vs Nvidia：誰才是下一個 AI 投資黑馬?

tldv

Google TPU v7 Ironwood 與 Amazon Trainium3 均採用台積電 3 奈米製程與 CoWoS 先進封裝技術。兩者在晶片設計端採取不同供應商策略：Google 委託 Broadcom 設計 TPU v7p，MediaTek 負責 TPU v7e 的 I/O die；Amazon 則由 Marvell 主導設計，Alchip 為 Trainium3 XPU 獨家供應商。

以合約規模而言，Anthropic 與 Google 達成總值約 520 億美元協議，承諾使用最多 100 萬顆 TPU；Meta 簽署六年期合約，金額逾 100 億美元。在 AWS 端，Anthropic 透過 Project Rainier 專案部署超過 50 萬顆 Trainium2，年底前將擴充至 100 萬顆，該專案投資規模逾 110 億美元。

適用範圍與限制：本報告適用於評估 AI 晶片供應鏈投資機會的專業投資人。需注意：部分數據來自產業研究機構估算，實際合約條款可能與公開資訊有出入；CoWoS 產能分配與 HBM 供應動態持續變化，建議定期更新追蹤。

一、供應鏈結構

1.1 晶片設計與製造

Google TPU v7 Ironwood 的設計分工如下：Broadcom 負責 TPU v7p 完整晶片設計，MediaTek 則承接 TPU v7e 版本的 I/O die 設計，預計 2026 年第三季開始量產。根據產業研究機構估算，TPU v7e 整個生命週期出貨量約 200 萬顆，可能為 MediaTek 帶來超過 60 億美元營收。

Amazon Trainium3 的設計則由 Marvell 主導，涵蓋主晶片設計、XPU-attach 晶片、光學 DSP、乙太網路交換晶片等。Alchip 為 Trainium3 XPU 獨家供應商，其 3 奈米晶片已於 2025 年 5 月成功流片。根據 Alchip 在台積電預留的 CoWoS 產能推估，Trainium3 在 2025 年可能為 Alchip 帶來約 10 億美元營收，整個生命週期營收貢獻預估超過 45 億美元。

兩者均採用台積電 3 奈米 N3P 製程，Trainium3 預計 2025 年第三季開始量產。

1.2 先進封裝產能

CoWoS 先進封裝產能是當前供應鏈的主要瓶頸。台積電計劃將 CoWoS 總產能從 2025 年底的每月 7 萬片提升至 2026 年的 9.3 萬片，年增幅約 33%。

各主要客戶的產能分配預估如下：Broadcom（含 Google TPU 訂單）約 11 萬片、AWS 與 Alchip 合計約 4 萬片。這些產能需與 Nvidia、AMD 等大客戶競爭分配。台積電正開發 CoPoS（Chip on Panel on Substrate）技術，採用面板級 chiplet 封裝，旨在解決 CoWoS 的產能與成本問題。

1.3 HBM 記憶體供應

Google TPU 的 HBM3E 供應以 Samsung 為主。Samsung 在 2025 年下半年解決 1a 級 DRAM 散熱問題後，大幅擴大對 Broadcom-Google 的出貨量，全年市佔率估計超過 60%。SK Hynix 約佔 Google HBM 營收的 30%，但其主要產能仍供應 Nvidia。

Amazon Trainium 的 HBM 供應較為分散，SK Hynix 為主要供應商，Micron 與 Samsung 亦參與供貨。SK Hynix 預計 2025 年第四季開始 HBM4 晶圓投片，2026 年第二季末將有大量產能上線。該公司預期 AI 記憶體市場在 2030 年前將以每年 30% 的速度成長。

1.4 供應商總覽

供應商類別	Google TPU v7 Ironwood	Amazon Trainium3
晶片設計	Broadcom（TPU v7p 完整設計）、MediaTek（TPU v7e I/O die）	Marvell（主晶片、XPU-attach、光學 DSP）、Alchip（Trainium3 XPU 獨家）
晶圓製造	台積電 3nm N3P	台積電 3nm（2025 Q3 量產）
先進封裝	台積電 CoWoS-L/CoWoS-S	台積電 CoWoS
HBM 記憶體	Samsung（60%+）、SK Hynix（30%）	SK Hynix（主要）、Micron、Samsung

二、主要合約與客戶

2.1 Google TPU 合約

Anthropic：合約總值估計約 520 億美元，承諾使用最多 100 萬顆 TPU（涵蓋 v5e、v5p、v6、v7）。交付模式分為兩種：40 萬顆 TPU v7 Ironwood 由 Broadcom 直接銷售成品機架，金額約 100 億美元；其餘 60 萬顆透過 GCP 租賃，剩餘履約義務（RPO）約 420 億美元。部署時程為 2025 年第四季交付首批 20 萬顆 TPU v5p，2026 年上半年累計達 50 萬顆，2026 年下半年完成 100 萬顆目標。

Meta：六年期合約，金額超過 100 億美元。採階段性部署策略：2026 年先租用數百個 TPU pod 進行測試，評估工作負載效能與系統整合；2027 年起視測試結果將 Ironwood 機架部署至 Meta 自有資料中心。此策略可降低技術遷移風險，因許多客製化 CUDA kernel 需重寫為 TPU 相容版本。

潛在客戶：xAI、SSI（Safe Superintelligence，Ilya Sutskever 創立）、OpenAI 均為潛在大客戶。據報導，OpenAI 可藉「威脅採購 TPU」作為談判籌碼，向 Nvidia 爭取最高 30% 折扣。

2.2 AWS Trainium 合約

Anthropic（Project Rainier）：投資規模超過 110 億美元，為 AWS 史上最大基礎設施專案。目前已部署約 50 萬顆 Trainium2，年底前擴充至 100 萬顆。資料中心位於印第安納州，採用 EC2 UltraCluster 配置，跨多個美國資料中心。Anthropic COO Tom Brown 確認將用於訓練和部署 Claude 模型。

Databricks：2024 年 10 月簽署戰略合作協議，Trainium 作為 Mosaic AI 平台首選晶片，用於 LLM 預訓練、微調與服務。

Poolside：計劃使用 Trn2 UltraServer 訓練未來模型，預期較 EC2 P5 節省 40% 費用。

Karakuri：用於訓練日語語言模型，LLM 訓練成本降低超過 50%。

三、成本結構與經濟效益

3.1 TPU v7 成本分析

完整 TPU v7 pod 配置為 9,216 顆晶片（16×16×16 3D Torus 拓撲），建置成本（CapEx）約 4.45 億美元，換算每 teraflops 約 21 美元。三年租賃成本超過 11 億美元，每 teraflops 約 52 美元。Anthropic 透過 GCP 租賃的特殊定價約為每 TPU 小時 1.60 美元。

與 Nvidia 系統比較：完整 3D Torus 配置的 Ironwood 晶片全方位擁有成本（TCO）較 GB200 伺服器低約 44%（Google 自用情境）；外部客戶透過 GCP 使用，較 GB300 可降低 30-41% 成本。成本優勢來源包括：系統整合效率、在 CPU、交換器、NIC、系統記憶體、纜線與連接器等整體系統上的成本控制。

3.2 Trainium3 成本分析

AWS 未公開 Trainium3 官方定價，但強調「最佳性價比」。客戶回報訓練成本降低高達 50%。Trainium3 較上一代效能提升 4.4 倍，能源效率提升 4 倍（功耗降低 40%）。

Trainium3 UltraServer 可擴展至 144 顆晶片，提供最高 362 FP8 petaflops 運算能力。在 Amazon Bedrock 的 GPT-OSS 測試中，Trainium3 在相似延遲條件下，每百萬瓦輸出的 token 數量較 Trn2 高出 5 倍以上。

3.3 模型 FLOP 利用率（MFU）

TPU 在實際工作負載中可達到較高的模型 FLOP 利用率。Nvidia GPU 採用動態電壓頻率調整（DVFS），理論峰值基於瞬間最高時脈計算，實際難以持續維持。根據 SemiAnalysis 分析，Hopper 在最佳化測試中達到約 80% 峰值，Blackwell 約 70%，AMD MI300 系列約 50-60%。

Anthropic 憑藉前 Google 編譯器專家團隊，在 TPU 上可實現約 40% MFU，使其每有效 PFLOP 成本較 GB300 NVL72 低約 52%。即使 MFU 僅達 19%，訓練成本效益仍與 Nvidia 系統相當。

3.4 成本比較摘要

比較維度	Google TPU v7 Ironwood	Amazon Trainium3
最大 Pod 規模	9,216 顆（3D Torus）	UltraServer 144 顆；UltraCluster 可達數十萬顆
建置成本	完整 pod 約 4.45 億美元（每 TFLOPS 約 21 美元）	未公開，強調最佳性價比
租賃成本	三年超過 11 億美元；Anthropic 特殊價約 $1.60/TPU-hour	客戶回報較競品降低 40-50%
TCO 優勢	較 GB200 低 44%；較 GB300 低 30-41%	效能較上代提升 4.4 倍；功耗降低 40%

四、技術架構比較

4.1 TPU v7 Ironwood

單晶片峰值運算能力：4,614 teraflops。記憶體：8-Hi HBM3E。網路架構：專有 Inter-Chip Interconnect（ICI）3D Torus，透過光學電路交換器（OCS）實現 9,216 顆晶片無縫互聯。每顆 TPU 透過 6 個方向連接鄰近晶片，內部使用銅線 DAC，跨機架使用 800G 光學收發器。

冷卻設計：液冷機架，冷卻液流量由閥門主動控制，可根據晶片工作負載動態調整。完整 pod 總功耗接近 10 MW。

軟體生態：JAX、XLA、TensorFlow。對 Google 內部極為成熟，但外部客戶學習曲線較陡。

4.2 Trainium3

單一 UltraServer 最高 144 顆晶片，運算能力達 362 FP8 petaflops。記憶體頻寬較 Trn2 提升 3.9 倍，延遲降低 4 倍。

網路架構：NeuronSwitch-v1 提供 2 倍頻寬，Neuron Fabric 網路延遲低於 10 微秒。EC2 UltraCluster 3.0 可擴展至數十萬顆晶片。

軟體生態：Neuron SDK，支援混合精度訓練與模型分割，較前一代提升 20% 每美元效率。

五、投資要點

5.1 供應鏈受益標的

台積電：3 奈米製程與 CoWoS 封裝獨家供應商，產能分配為關鍵觀察指標。2026 年 CoWoS 產能擴增 33%，但需與多家大客戶競爭。

Broadcom：Google TPU 長期設計合作夥伴，TPU v7p 完整設計。Anthropic 合約中 100 億美元直接銷售成品機架。

Marvell：與 AWS 簽訂五年多世代合作協議，涵蓋 Trainium 主晶片、光學 DSP、乙太網路交換晶片等。Trainium 2 在 2025 年為 Marvell 帶來超過 34 億美元營收。

MediaTek：TPU v7e I/O die 設計，2026 年第三季量產，生命週期營收潛力超過 60 億美元。為分散投資 AI 供應鏈的選項。

Alchip：Trainium3 XPU 獨家供應商。2025 年營收潛力約 10 億美元，生命週期營收貢獻超過 45 億美元。有機會取得 Trainium4 訂單。

Samsung / SK Hynix：HBM 記憶體供應。Samsung 為 Google TPU 主要供應商（市佔超過 60%），SK Hynix 主攻 Nvidia 但 Google 約佔其 30% 營收。SK Hynix 預期 AI 記憶體市場年成長 30% 至 2030 年。

5.2 主要風險

CoWoS 產能瓶頸：先進封裝產能為整體供應鏈限制因素，產能分配變動可能影響各客戶交付時程。

技術遷移風險：客戶從 CUDA 生態系遷移至 TPU 或 Trainium 需重寫大量程式碼，可能延緩採用進度。Meta 採階段性測試策略即為此考量。

供應商鎖定：大規模承諾使用特定平台可能產生生態系依賴。Anthropic 採雙平台策略（同時使用 Google TPU 與 AWS Trainium）可部分緩解此風險。

合約條款不確定性：部分合約金額與條款來自產業研究機構估算，實際數字可能有出入。

5.3 後續觀察重點

xAI、SSI、OpenAI 等潛在客戶的 TPU 訂單進展；Trainium3 正式定價與市場反應；台積電 CoWoS 產能擴充進度與客戶分配；HBM4 量產時程與供應商競爭格局；Meta TPU 測試結果與 2027 年大規模部署決策。

六、資料來源說明

本報告數據主要引用自：

SemiAnalysis 產業研究報告
AWS 與 Google Cloud 官方公告
TrendForce 產業追蹤
Reuters 與 Bloomberg 新聞報導
各公司財報電話會議紀錄
Google Cloud TPU 架構深度解析 - Google Cloud TPU Architecture Deep Dive | Google Cloud
AWS Trainium 高性能機器學習晶片 - AWS Trainium High Performance ML Chips | Amazon Web Services
Nvidia 數據中心與 AI 解決方案 - Nvidia Data Center & AI Solutions | Nvidia
科技巨頭自研晶片趨勢分析 - Big Tech's Push into Custom Silicon | CNBC
彭博社：Nvidia 的市場主導地位與挑戰 - Bloomberg: Nvidia's Market Dominance and Challenges | Bloomberg
路透社：AI 晶片供應鏈動態 - Reuters: AI Chip Supply Chain Dynamics | Reuters

部分合約金額與產能數據為產業研究機構估算值，建議交叉比對多方來源。

免責聲明：本報告僅供參考，不構成投資建議。投資人應自行評估風險並諮詢專業顧問。

奢侈時尚 KOL 轉型為鑽石企業家，為精英客戶創制定製珠寶。無衝突鑽石和道德採礦實踐的倡導者，建立從礦場到市場的透明供應鏈。材料科學與工程學位/ GIA 認證