Google TPU 十年煉成：一顆專為 AI 推論而生的晶片，如何鬆動 NVIDIA 的 CUDA 霸權

**Google TPU 是目前唯一在大規模部署上能跟 NVIDIA GPU 正面對決的 AI 專用晶片。**截至 2026 年 4 月，Anthropic 已承諾向 Google 採購 350 萬瓩（3.5 GW）的 TPU 算力容量，光是 2025 年 10 月那一筆訂單就涵蓋 100 萬顆 TPU、金額上看數百億美元（約 NTD 6,400,000,000,000）；Apple 的 Apple Intelligence 基礎模型在 8,192 顆 TPU v4 和 2,048 顆 TPU v5p 上完成訓練，Meta 也正在跟 Google 談一筆 2026 年租用、2027 年採購的多年合約。這不只是換一種晶片，這是 AI 基礎設施的結構性鬆動。

這篇文章把 TPU 的技術邏輯、十年演進、以及它怎麼從 Google 內部秘密武器變成 NVIDIA 真正的對手，完整講一遍。

一張餐巾紙上的計算：TPU 為什麼存在

TPU 的起源不是創新敘事，是成本危機。2013 年，時任 Google 首席架構師的 Jeff Dean 算了一筆帳：如果全球 Android 使用者每天跟手機講 3 分鐘話，用當時 CPU 跑高品質語音辨識模型，Google 要把全球資料中心規模翻倍才能應付。

Jeff Dean 在 2025 年史丹佛 AI Club 的演講裡回憶：這種成長曲線用通用硬體去追是追不動的。Google 當時找過 NVIDIA GPU，但評估下來對神經網路矩陣乘法這種特定工作負載來說，GPU 帶著大量「通用性包袱」——分支預測、快取階層、執行緒管理——都是吃電但不產出算力的部分。

於是 Google 做了一件軟體公司很少做的事：自己做晶片。專案啟動後 15 個月，第一代 TPU 就在 2015 年進了資料中心開始跑 Google Maps 的路線計算、Google Photos 的圖片分類、Google Translate 的翻譯。2016 年 Google I/O 才公開。Norm Jouppi 作為 TPU 的核心設計師，2017 年在 ISCA 會議發表的 TPU 論文至今仍是該會議 50 年來最多被引用的論文。

TPU、CPU、GPU 的架構分工

要理解為什麼 TPU 在矩陣乘法上吃定 GPU，必須先釐清這三種晶片的設計哲學。下面這張表用具體技術規格，而不是比喻，來呈現差異：

晶片類型	架構類別	核心設計	主要工作負載	2026 年代表產品
CPU	通用處理器	複雜邏輯、分支預測、大快取	作業系統、應用程式邏輯	Intel Xeon、AMD EPYC、Google Axion
GPU	通用平行處理器	SIMT 架構、數千個獨立核心	圖形渲染、科學運算、AI 訓練	NVIDIA B200（192 GB HBM3e）、B300（288 GB）
TPU	特殊應用積體電路（ASIC）	脈動陣列、矩陣乘法專用	大型語言模型訓練與推論	Google Ironwood（TPU v7，192 GB HBM3e）

TPU 的技術靈魂叫「脈動陣列」（Systolic Array）。這是一個 1970 年代卡內基梅隆大學提出的古老架構，Google 把它重新拿來用。傳統處理器算矩陣乘法時，每一次運算都要把資料從記憶體拉到計算單元、算完再寫回去；脈動陣列不一樣，資料像工廠流水線一樣在計算單元之間橫向傳遞，上一個乘加器算完直接把結果丟給下一個，幾乎不跟主記憶體對話。

Jeff Dean 在 2025 年給出的實際數字：第一代 TPU 在推論任務上比當時的 CPU 和 GPU 快 15 到 30 倍，能效比高 30 到 80 倍。這個差距不是製程領先帶來的，是架構選擇帶來的。

從 TPU v1 到 Ironwood：十年七代的技術演進

TPU 從第一代的推論專用晶片，一路演化成訓練和推論通吃的巨型系統。幾個關鍵轉折點：

2015：TPU v1 — 只做推論，8 位元整數運算，內部部署。
2017：TPU v2 — 加入訓練能力，Norm Jouppi 團隊決定直接做訓練超級電腦，pod 架構從此成為 TPU 的標誌。
2018：TPU v3 — 開始採用液冷設計，這也是 Google 領先業界大約 5 年的熱管理策略。
2018：bfloat16 格式誕生 — Google 發明的 16 位元浮點格式，犧牲精度保留跟 FP32 相同的動態範圍，成為後來整個 AI 業界的訓練標準。
2021：TPU v4 — 首次引入光路交換（Optical Circuit Switching），用微鏡陣列動態調整 pod 內部的網路拓撲，讓數千顆晶片的連接可以根據工作負載即時重組。
2024：TPU v6（Trillium） — 採用 TSMC N5 製程，跟前一代 v5p 同晶粒面積下，峰值 FLOPs 翻倍。
2025 年 4 月：TPU v7（Ironwood） — Google Cloud Next '25 發表，單晶片 4.6 PFlops FP8，192 GB HBM3e，7.37 TB/s 頻寬。9,216 顆晶片組成一個 pod 提供 42.5 ExaFLOPS FP8 算力，相比之下 NVIDIA GB300 NVL72 系統是 0.36 ExaFLOPS FP8。Ironwood 比 2018 年第一代 Cloud TPU 能效高 30 倍，每瓦效能幾乎是前一代 Trillium 的 2 倍。

這裡有個細節值得留意：Google 把 Ironwood 定位成「推論時代的晶片」而不是訓練晶片，但實際上它兩件事都能做。Anthropic 已經決定用 Ironwood 訓練未來幾代 Claude。根據 SemiAnalysis 的分析，Anthropic 的模型在 TPU 上跑出來的 Model FLOP Utilization（MFU）反而比 Blackwell 高——這是因為 NVIDIA 公布的 peak FLOPs 其實很「虛」，Hopper 實測大約只能用到 80%、Blackwell 掉到 70% 多，而 AMD MI300 在 50-60% 區間，限制因子是電力輸送跟不上時脈。

CUDA 的護城河：NVIDIA 為什麼還是老大

TPU 技術再強，NVIDIA 還是穩坐 AI 晶片龍頭。根據 Silicon Analysts 在 2026 年 4 月的數據，NVIDIA 在 AI 加速器市場的占有率約 80%，年度資料中心營收 1,940 億美元（約 NTD 6,208,000,000,000）。這個護城河的名字叫 CUDA。

CUDA 是 NVIDIA 經營了將近 20 年的軟體生態系——從 2007 年推出到現在，全球累積 400 多萬個開發者熟悉它，幾乎所有主流深度學習框架（PyTorch、JAX、TensorFlow）都在 CUDA 上優化到極致。相較之下，TPU 的編譯器 XLA 長期是 Google 內部工具，外部開發者要用，要先學 JAX 或 TensorFlow 的特定抽象層，學習成本遠高於 CUDA。

NVIDIA 的動作也狠。2025 年 12 月，NVIDIA 宣布以 200 億美元（約 NTD 640,000,000,000）取得 Groq 資產和非獨家授權——這是 NVIDIA 史上最大的交易，超越 2019 年收購 Mellanox 的 70 億美元。Groq 由前 Google TPU 核心團隊成員 Jonathan Ross 在 2016 年創立，他跟 Sunny Madra 等核心成員會加入 NVIDIA，Groq 名義上仍保持獨立。這筆交易的本質是「收編潛在對手 + 取得推論技術」，要用的是 Groq 的 LPU（Language Processing Unit）架構來補強 NVIDIA 在低延遲推論上的短板。

巨頭轉向 TPU：結構性的鬆動

NVIDIA 的市場領先還在，但變化也開始發生。幾個關鍵訊號：

Apple 在 2024 年發表的 47 頁技術論文裡明確寫出：AFM-server（伺服器版基礎模型）用 8,192 顆 TPU v4 訓練，AFM-on-device（裝置端模型）用 2,048 顆 TPU v5p 訓練，從頭到尾沒用 NVIDIA GPU。Apple 主要考量是供應鏈（H100 當時極度短缺）和成本（Google 的三年合約 TPU 租金每小時不到 2 美元）。

Anthropic 在 2025 年 10 月宣布取得最多 100 萬顆 TPU 的使用權，承諾金額數百億美元，2026 年上線 1 GW 以上算力。到了 2026 年 4 月，這份合約透過 Broadcom 再擴張到 3.5 GW，2027 年上線，伴隨 Anthropic 營收年化 300 億美元、年消費破 100 萬美元的企業客戶破千家的規模擴張。

Meta 根據 The Information 和 Reuters 的報導，正在跟 Google 談 2026 年租用 TPU、2027 年進場自建 TPU 資料中心的多年合約，金額上看數十億美元。Meta 原本 2025 年的 600-720 億美元 CapEx 幾乎全流向 NVIDIA，這個轉向對 NVIDIA 的 inference 毛利是直接威脅。

為什麼巨頭都在押 TPU？核心原因是推論成本。根據 Epoch AI 2025 年的估算，到 2030 年推論會吃掉全球 AI 算力循環的 75-80%。當推論量大到一個程度，TPU 的「每美元效能」和「每瓦效能」優勢會直接翻成毛利率差異。Midjourney 轉用 TPU 後推論成本只有 H100 的 1/4 左右；Meta 真要把 Llama 推論全搬到 TPU，估算生命週期內可能省下 590 億美元。

台灣半導體供應鏈的受益機會

這波 TPU 擴張對台灣供應鏈是明確利多。TrendForce 預測 2026 年 Google TPU 出貨將維持所有 CSP（雲端服務商）裡最高，年成長超過 40%。Broadcom 是 Ironwood 的共同設計夥伴，台灣的世芯－KY（GUC）在 TPU v7p 的 ASIC 設計流程裡參與甚深。PCB、CCL 材料、散熱模組、測試設備供應商都會跟著受益。這是 AI 半導體供應鏈跟客戶結構「NVIDIA 一家獨大」到「多元分散」的結構性轉變。

常見問題 FAQ

TPU 跟 GPU 的差別到底是什麼？

GPU 是通用平行處理器，可以跑 AI、圖形渲染、科學運算、加密貨幣挖礦。TPU 是特殊應用積體電路（ASIC），只專精神經網路的矩陣乘法，其他工作不能跑。代價是什麼都能做的 GPU 帶著很多「用不到的電晶體」；TPU 每一個電晶體都在算矩陣，能效比高 30-80 倍（根據 Jeff Dean 2025 年公開數據）。

Google 的 Ironwood TPU 比 NVIDIA Blackwell 強嗎？

單晶片峰值性能兩者接近——Ironwood 4.6 PFlops FP8 vs Blackwell B200 4.5 PFlops FP8。但 Ironwood 在大規模 pod 層級有明顯優勢：9,216 顆晶片可以做成一個 pod 提供 42.5 ExaFLOPS，而 NVIDIA GB300 NVL72 系統是 0.36 ExaFLOPS。另外，實際 MFU（Model FLOP Utilization）TPU 通常比 GPU 高，這點對真實訓練成本的影響比規格書上的峰值更大。

為什麼 Apple 選 TPU 不選 NVIDIA GPU？

Apple 在 2024 年發表的技術論文透露三個原因：第一，當時 H100 供應嚴重短缺，Google 有現貨；第二，價格——Google 三年合約的 TPU v5p 每小時不到 2 美元；第三，Apple 本來就是 Google Cloud 的客戶。根本原因是 Apple 不想在 AI 基礎設施上依賴單一供應商。

TPU 可以租嗎？我自己想試可以嗎？

可以。Google Cloud 開放 TPU 租用超過 8 年，最新的 Ironwood 有 256 晶片和 9,216 晶片兩種 pod 規格。JAX、PyTorch、TensorFlow 都可以在 TPU 上跑，但 PyTorch 要透過 PyTorch/XLA 這個中介層，效能最佳化需要額外調校。實驗性質的使用者用 Google Colab 就能直接碰到 TPU v2/v3。

TPU 崛起會讓 NVIDIA 股價下跌嗎？

短期不會，長期不確定。NVIDIA 的資料中心毛利率超過 70%，主要來自訓練晶片的溢價。一旦推論市場（預計 2030 年佔 AI 算力 75-80%）大規模轉向 TPU、Trainium 這類 ASIC，NVIDIA 的毛利會從「訓練溢價」慢慢壓回「通用晶片」水準。2025 年 11 月 Meta 跟 Google 談 TPU 的消息一出，NVIDIA 盤後股價跌 1.8%，市場已經在計算這個風險。

參考資料

Author Insight

作者：Erik (EKC)，Tenten.co 數位策略總監

我們過去一年協助金融業和製造業的客戶評估 AI 基礎設施採購，最有感的一件事是：多數決策者在 2023-2024 年都還覺得「用 NVIDIA 就對了」，但 2025 下半年開始，同樣這些人會問「我的推論工作負載有沒有可能搬到 TPU 或 Trainium 上？」這個心態轉變比晶片本身的技術突破還值得注意。

TPU 真正的戰略意義不在「打敗 NVIDIA」，而在「讓 NVIDIA 的毛利無法維持現況」。當 AI 基礎設施的選擇從一家獨大走向多元分散，對整個應用層的企業來說意味著：採購談判空間變大、供應風險分散、單位算力成本下降。真正賺錢的不會是挑對晶片的人，而是能把算力成本壓低、把應用規模做大的公司。

還有一個比較冷門的觀察：Ironwood 這代的架構選擇（雙 chiplet 設計、光路交換、10 MW 液冷 pod）其實在複製超級電腦的運算密度路線，但對象是 AI workload。這代表下一個十年 AI 基礎設施會越來越像 HPC（高效能運算），而不是雲端資料中心的延伸。這個方向對台灣供應鏈——特別是先進封裝、光通訊、液冷——會是長期結構性利多。

想討論 AI 基礎設施採購策略？

我們最近協助幾家客戶跑過 NVIDIA H100、Google TPU v5p、AWS Trainium 2 的實測比較，量測訓練成本、推論延遲、單 token 成本，並根據客戶的工作負載型態給出採購建議。如果你在評估 AI 算力採購、或思考多雲 AI 架構怎麼配置，歡迎跟 Tenten 團隊預約諮詢。

Harris是資深金融市場分析師，專精於美股科技股投資研究與技術分析。他對科技產業發展趨勢具有深入洞察，認為當前市場波動反映了投資者對人工智慧革命的期待與現實業績表現之間的平衡過程。在他看來，優質科技股的長期投資價值依然值得關注，但需要更精準的進場時機選擇和風險管理策略。