**Google TPU 是目前唯一在大規模部署上能跟 NVIDIA GPU 正面對決的 AI 專用晶片。**截至 2026 年 4 月,Anthropic 已承諾向 Google 採購 350 萬瓩(3.5 GW)的 TPU 算力容量,光是 2025 年 10 月那一筆訂單就涵蓋 100 萬顆 TPU、金額上看數百億美元(約 NTD 6,400,000,000,000);Apple 的 Apple Intelligence 基礎模型在 8,192 顆 TPU v4 和 2,048 顆 TPU v5p 上完成訓練,Meta 也正在跟 Google 談一筆 2026 年租用、2027 年採購的多年合約。這不只是換一種晶片,這是 AI 基礎設施的結構性鬆動。
這篇文章把 TPU 的技術邏輯、十年演進、以及它怎麼從 Google 內部秘密武器變成 NVIDIA 真正的對手,完整講一遍。
一張餐巾紙上的計算:TPU 為什麼存在
TPU 的起源不是創新敘事,是成本危機。2013 年,時任 Google 首席架構師的 Jeff Dean 算了一筆帳:如果全球 Android 使用者每天跟手機講 3 分鐘話,用當時 CPU 跑高品質語音辨識模型,Google 要把全球資料中心規模翻倍才能應付。
Jeff Dean 在 2025 年史丹佛 AI Club 的演講裡回憶:這種成長曲線用通用硬體去追是追不動的。Google 當時找過 NVIDIA GPU,但評估下來對神經網路矩陣乘法這種特定工作負載來說,GPU 帶著大量「通用性包袱」——分支預測、快取階層、執行緒管理——都是吃電但不產出算力的部分。
於是 Google 做了一件軟體公司很少做的事:自己做晶片。專案啟動後 15 個月,第一代 TPU 就在 2015 年進了資料中心開始跑 Google Maps 的路線計算、Google Photos 的圖片分類、Google Translate 的翻譯。2016 年 Google I/O 才公開。Norm Jouppi 作為 TPU 的核心設計師,2017 年在 ISCA 會議發表的 TPU 論文至今仍是該會議 50 年來最多被引用的論文。
TPU、CPU、GPU 的架構分工
要理解為什麼 TPU 在矩陣乘法上吃定 GPU,必須先釐清這三種晶片的設計哲學。下面這張表用具體技術規格,而不是比喻,來呈現差異:
| 晶片類型 | 架構類別 | 核心設計 | 主要工作負載 | 2026 年代表產品 |
|---|---|---|---|---|
| CPU | 通用處理器 | 複雜邏輯、分支預測、大快取 | 作業系統、應用程式邏輯 | Intel Xeon、AMD EPYC、Google Axion |
| GPU | 通用平行處理器 | SIMT 架構、數千個獨立核心 | 圖形渲染、科學運算、AI 訓練 | NVIDIA B200(192 GB HBM3e)、B300(288 GB) |
| TPU | 特殊應用積體電路(ASIC) | 脈動陣列、矩陣乘法專用 | 大型語言模型訓練與推論 | Google Ironwood(TPU v7,192 GB HBM3e) |
TPU 的技術靈魂叫「脈動陣列」(Systolic Array)。這是一個 1970 年代卡內基梅隆大學提出的古老架構,Google 把它重新拿來用。傳統處理器算矩陣乘法時,每一次運算都要把資料從記憶體拉到計算單元、算完再寫回去;脈動陣列不一樣,資料像工廠流水線一樣在計算單元之間橫向傳遞,上一個乘加器算完直接把結果丟給下一個,幾乎不跟主記憶體對話。
Jeff Dean 在 2025 年給出的實際數字:第一代 TPU 在推論任務上比當時的 CPU 和 GPU 快 15 到 30 倍,能效比高 30 到 80 倍。這個差距不是製程領先帶來的,是架構選擇帶來的。
從 TPU v1 到 Ironwood:十年七代的技術演進
TPU 從第一代的推論專用晶片,一路演化成訓練和推論通吃的巨型系統。幾個關鍵轉折點:
- 2015:TPU v1 — 只做推論,8 位元整數運算,內部部署。
- 2017:TPU v2 — 加入訓練能力,Norm Jouppi 團隊決定直接做訓練超級電腦,pod 架構從此成為 TPU 的標誌。
- 2018:TPU v3 — 開始採用液冷設計,這也是 Google 領先業界大約 5 年的熱管理策略。
- 2018:bfloat16 格式誕生 — Google 發明的 16 位元浮點格式,犧牲精度保留跟 FP32 相同的動態範圍,成為後來整個 AI 業界的訓練標準。
- 2021:TPU v4 — 首次引入光路交換(Optical Circuit Switching),用微鏡陣列動態調整 pod 內部的網路拓撲,讓數千顆晶片的連接可以根據工作負載即時重組。
- 2024:TPU v6(Trillium) — 採用 TSMC N5 製程,跟前一代 v5p 同晶粒面積下,峰值 FLOPs 翻倍。
- 2025 年 4 月:TPU v7(Ironwood) — Google Cloud Next '25 發表,單晶片 4.6 PFlops FP8,192 GB HBM3e,7.37 TB/s 頻寬。9,216 顆晶片組成一個 pod 提供 42.5 ExaFLOPS FP8 算力,相比之下 NVIDIA GB300 NVL72 系統是 0.36 ExaFLOPS FP8。Ironwood 比 2018 年第一代 Cloud TPU 能效高 30 倍,每瓦效能幾乎是前一代 Trillium 的 2 倍。
這裡有個細節值得留意:Google 把 Ironwood 定位成「推論時代的晶片」而不是訓練晶片,但實際上它兩件事都能做。Anthropic 已經決定用 Ironwood 訓練未來幾代 Claude。根據 SemiAnalysis 的分析,Anthropic 的模型在 TPU 上跑出來的 Model FLOP Utilization(MFU)反而比 Blackwell 高——這是因為 NVIDIA 公布的 peak FLOPs 其實很「虛」,Hopper 實測大約只能用到 80%、Blackwell 掉到 70% 多,而 AMD MI300 在 50-60% 區間,限制因子是電力輸送跟不上時脈。
CUDA 的護城河:NVIDIA 為什麼還是老大
TPU 技術再強,NVIDIA 還是穩坐 AI 晶片龍頭。根據 Silicon Analysts 在 2026 年 4 月的數據,NVIDIA 在 AI 加速器市場的占有率約 80%,年度資料中心營收 1,940 億美元(約 NTD 6,208,000,000,000)。這個護城河的名字叫 CUDA。
CUDA 是 NVIDIA 經營了將近 20 年的軟體生態系——從 2007 年推出到現在,全球累積 400 多萬個開發者熟悉它,幾乎所有主流深度學習框架(PyTorch、JAX、TensorFlow)都在 CUDA 上優化到極致。相較之下,TPU 的編譯器 XLA 長期是 Google 內部工具,外部開發者要用,要先學 JAX 或 TensorFlow 的特定抽象層,學習成本遠高於 CUDA。
NVIDIA 的動作也狠。2025 年 12 月,NVIDIA 宣布以 200 億美元(約 NTD 640,000,000,000)取得 Groq 資產和非獨家授權——這是 NVIDIA 史上最大的交易,超越 2019 年收購 Mellanox 的 70 億美元。Groq 由前 Google TPU 核心團隊成員 Jonathan Ross 在 2016 年創立,他跟 Sunny Madra 等核心成員會加入 NVIDIA,Groq 名義上仍保持獨立。這筆交易的本質是「收編潛在對手 + 取得推論技術」,要用的是 Groq 的 LPU(Language Processing Unit)架構來補強 NVIDIA 在低延遲推論上的短板。
巨頭轉向 TPU:結構性的鬆動
NVIDIA 的市場領先還在,但變化也開始發生。幾個關鍵訊號:
Apple 在 2024 年發表的 47 頁技術論文裡明確寫出:AFM-server(伺服器版基礎模型)用 8,192 顆 TPU v4 訓練,AFM-on-device(裝置端模型)用 2,048 顆 TPU v5p 訓練,從頭到尾沒用 NVIDIA GPU。Apple 主要考量是供應鏈(H100 當時極度短缺)和成本(Google 的三年合約 TPU 租金每小時不到 2 美元)。
Anthropic 在 2025 年 10 月宣布取得最多 100 萬顆 TPU 的使用權,承諾金額數百億美元,2026 年上線 1 GW 以上算力。到了 2026 年 4 月,這份合約透過 Broadcom 再擴張到 3.5 GW,2027 年上線,伴隨 Anthropic 營收年化 300 億美元、年消費破 100 萬美元的企業客戶破千家的規模擴張。
Meta 根據 The Information 和 Reuters 的報導,正在跟 Google 談 2026 年租用 TPU、2027 年進場自建 TPU 資料中心的多年合約,金額上看數十億美元。Meta 原本 2025 年的 600-720 億美元 CapEx 幾乎全流向 NVIDIA,這個轉向對 NVIDIA 的 inference 毛利是直接威脅。
為什麼巨頭都在押 TPU?核心原因是推論成本。根據 Epoch AI 2025 年的估算,到 2030 年推論會吃掉全球 AI 算力循環的 75-80%。當推論量大到一個程度,TPU 的「每美元效能」和「每瓦效能」優勢會直接翻成毛利率差異。Midjourney 轉用 TPU 後推論成本只有 H100 的 1/4 左右;Meta 真要把 Llama 推論全搬到 TPU,估算生命週期內可能省下 590 億美元。
台灣半導體供應鏈的受益機會
這波 TPU 擴張對台灣供應鏈是明確利多。TrendForce 預測 2026 年 Google TPU 出貨將維持所有 CSP(雲端服務商)裡最高,年成長超過 40%。Broadcom 是 Ironwood 的共同設計夥伴,台灣的世芯-KY(GUC)在 TPU v7p 的 ASIC 設計流程裡參與甚深。PCB、CCL 材料、散熱模組、測試設備供應商都會跟著受益。這是 AI 半導體 供應鏈跟客戶結構「NVIDIA 一家獨大」到「多元分散」的結構性轉變。
常見問題 FAQ
TPU 跟 GPU 的差別到底是什麼?
GPU 是通用平行處理器,可以跑 AI、圖形渲染、科學運算、加密貨幣挖礦。TPU 是特殊應用積體電路(ASIC),只專精神經網路的矩陣乘法,其他工作不能跑。代價是什麼都能做的 GPU 帶著很多「用不到的電晶體」;TPU 每一個電晶體都在算矩陣,能效比高 30-80 倍(根據 Jeff Dean 2025 年公開數據)。
Google 的 Ironwood TPU 比 NVIDIA Blackwell 強嗎?
單晶片峰值性能兩者接近——Ironwood 4.6 PFlops FP8 vs Blackwell B200 4.5 PFlops FP8。但 Ironwood 在大規模 pod 層級有明顯優勢:9,216 顆晶片可以做成一個 pod 提供 42.5 ExaFLOPS,而 NVIDIA GB300 NVL72 系統是 0.36 ExaFLOPS。另外,實際 MFU(Model FLOP Utilization)TPU 通常比 GPU 高,這點對真實訓練成本的影響比規格書上的峰值更大。
為什麼 Apple 選 TPU 不選 NVIDIA GPU?
Apple 在 2024 年發表的技術論文透露三個原因:第一,當時 H100 供應嚴重短缺,Google 有現貨;第二,價格——Google 三年合約的 TPU v5p 每小時不到 2 美元;第三,Apple 本來就是 Google Cloud 的客戶。根本原因是 Apple 不想在 AI 基礎設施上依賴單一供應商。
TPU 可以租嗎?我自己想試可以嗎?
可以。Google Cloud 開放 TPU 租用超過 8 年,最新的 Ironwood 有 256 晶片和 9,216 晶片兩種 pod 規格。JAX、PyTorch、TensorFlow 都可以在 TPU 上跑,但 PyTorch 要透過 PyTorch/XLA 這個中介層,效能最佳化需要額外調校。實驗性質的使用者用 Google Colab 就能直接碰到 TPU v2/v3。
TPU 崛起會讓 NVIDIA 股價下跌嗎?
短期不會,長期不確定。NVIDIA 的資料中心毛利率超過 70%,主要來自訓練晶片的溢價。一旦推論市場(預計 2030 年佔 AI 算力 75-80%)大規模轉向 TPU、Trainium 這類 ASIC,NVIDIA 的毛利會從「訓練溢價」慢慢壓回「通用晶片」水準。2025 年 11 月 Meta 跟 Google 談 TPU 的消息一出,NVIDIA 盤後股價跌 1.8%,市場已經在計算這個風險。
參考資料
- Google Cloud — Ironwood: The first Google TPU for the age of inference
- Google Cloud — TPU transformation: 10 years of AI-specialized chips
- CNBC — Apple says its AI models were trained on Google's custom chips
- CNBC — Nvidia buying AI chip startup Groq's assets for about $20 billion
- The Register — Google's 7th-gen Ironwood TPUs promise 42 AI exaFLOPS pods
- Anthropic — Google Broadcom Partnership for Compute
- TrendForce — Google Unveils 7th-Gen TPU Ironwood
- SemiAnalysis — Google TPUv7: The 900lb Gorilla In the Room
Author Insight
作者:Erik (EKC),Tenten.co 數位策略總監
我們過去一年協助金融業和製造業的客戶評估 AI 基礎設施採購,最有感的一件事是:多數決策者在 2023-2024 年都還覺得「用 NVIDIA 就對了」,但 2025 下半年開始,同樣這些人會問「我的推論工作負載有沒有可能搬到 TPU 或 Trainium 上?」這個心態轉變比晶片本身的技術突破還值得注意。
TPU 真正的戰略意義不在「打敗 NVIDIA」,而在「讓 NVIDIA 的毛利無法維持現況」。當 AI 基礎設施的選擇從一家獨大走向多元分散,對整個應用層的企業來說意味著:採購談判空間變大、供應風險分散、單位算力成本下降。真正賺錢的不會是挑對晶片的人,而是能把算力成本壓低、把應用規模做大的公司。
還有一個比較冷門的觀察:Ironwood 這代的架構選擇(雙 chiplet 設計、光路交換、10 MW 液冷 pod)其實在複製超級電腦的運算密度路線,但對象是 AI workload。這代表下一個十年 AI 基礎設施會越來越像 HPC(高效能運算),而不是雲端資料中心的延伸。這個方向對台灣供應鏈——特別是先進封裝、光通訊、液冷——會是長期結構性利多。
想討論 AI 基礎設施採購策略?
我們最近協助幾家客戶跑過 NVIDIA H100、Google TPU v5p、AWS Trainium 2 的實測比較,量測訓練成本、推論延遲、單 token 成本,並根據客戶的工作負載型態給出採購建議。如果你在評估 AI 算力採購、或思考多雲 AI 架構怎麼配置,歡迎跟 Tenten 團隊預約諮詢。
