Openai/6925c674-3858-8009-852a-bd8fdd5679ae

Revision as of 05:58, 26 November 2025 by Lukegao (talk | contribs) (by freem.ai...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)


This conversation was exported from ChatGPT[1]

gpt-5-1-thinking edit

User: TPU會取代gpu? edit

TPU會取代gpu?

Assistant: 不太可能「完全取代」,比較像是各自專精、長期共存。 edit

不太可能「完全取代」,比較像是各自專精、長期共存。

我用比較白話的方式講一下:

- GPU:通用「平行運算怪獸」, - 能訓練模型、推論、也能做圖形、影片、科學計算,各種雜活都可以幹。 - CUDA、生態、開發工具超成熟(尤其是 NVIDIA)。 edit

  • TPU:為「深度學習」特別客製的加速器, - 針對矩陣運算做到超高效率(像是只為你家的菜單優化的一台專用機)。 - 最早 Google 自己用在內部 / 雲端,現在也有提供給客戶(Google Cloud TPU)。

簡單一句:

### edit

  • AI 工具、框架、教學、程式碼 sample 幾乎都對 CUDA / NVIDIA GPU 最友善。
  • 想改整套 pipeline 去吃 TPU,需要: - 改程式、改工具鏈、重做最佳化、重新除錯。
  • 公司會問一句:「我花這些人力成本,省下的錢或性能,值不值得?」
- TPU 很適合: - 超級大模型訓練(LLM 這種等級) - 穩定、大量、可預測的雲端工作負載(例如 Google 自家服務) edit
  • GPU 很適合: - 研究人員、Startups、學界、雲端租用、遊戲 + AI 混合、視覺 / 科學運算等。 - 你不知道明年要跑什麼模型時,GPU 的「彈性」就是優勢。

所以TPU 像專用機房,GPU 像超大型共用工作站。

- CUDA 生態、軟體堆疊、各種 library(cuDNN、TensorRT...)、伺服器設計、OEM 都綁很深。 edit

  • 越大的公司,越難從 NVIDIA 生態「抽身」——除非真的省超多錢或效能差距大一個世代。

這讓 TPU、其他 ASIC、甚至 AMD GPU 都比較偏:

  • 「特定場景/大客戶共同設計的方案」 而不是「全面取代 GPU 的萬能解」。

比較合理的未來是: edit

  • 雲端 / 超大模型訓練: - 一部分在 GPU(NVIDIA、也許 AMD)、一部分在 TPU、其他 ASIC(像各家自研 AI 晶片)。
  • 企業內部 / 邊緣側: - 推論很多會跑在 NVIDIA / AMD GPU + 各種 NPU(手機、PC、車用 SoC 裡面的 AI 核)。
  • 研究 / 開發者 / 一般公司: - 依然以 GPU 為主,因為工具好用、人力好請、社群資源最多。

- 學習上: - CUDA + GPU 生態還是必修。 - 瞭解 TPU / NPU / ASIC 的概念是加分,但現在說「只押 TPU」太冒險。 edit

  • 投資上(非常粗略的方向,不是投資建議): - 看 TPUs,更像是在看: - Google / 雲端廠商的 CapEx、 - 先進封裝(CoWoS、InFO)、HBM、供應鏈受惠股。 - GPU 則是整個 AI CapEx 的最核心主角,目前還是 NVIDIA 絕對王者。

如果你願意跟我說: 你是在考慮職涯學什麼,還是在評估某家公司「TPU 會幹掉 GPU」這種說法合不合理(例如投資標的),我可以針對那個角度幫你拆得更細,用「要不要 All-in / 要不要學」的語言講給你聽。

User: 問題是,市場現在認為google靠tpu就做出gemini3這種,目前市面上最強的llm,所以引發市場認為gpu需求性下降,以及nvdia估值要下修 edit

問題是,市場現在認為google靠tpu就做出gemini3這種,目前市面上最強的llm,所以引發市場認為gpu需求性下降,以及nvdia估值要下修

Assistant: 你講的這個邏輯:「Google 靠 TPU 做出最強 LLM ⇒ GPU 沒那麼重要 ⇒ NVDA 要修正估值」,有一部分是真的,但如果推到「GPU 需求要崩」就有點太直線外推了。 edit

你講的這個邏輯:「Google 靠 TPU 做出最強 LLM ⇒ GPU 沒那麼重要 ⇒ NVDA 要修正估值」,有一部分是真的,但如果推到「GPU 需求要崩」就有點太直線外推了。

我拆開來講:

- Google 的 Gemini 2.x 系列(你說的「3」可以理解成更新一代 SOTA)確實是主要在自家 TPU Pod 上訓練與推論,像新一代 Trillium / 之後的 Ironwood 等,效能、效能/瓦數都比前代大幅提升,明講是為 LLM / Gemini 這類模型設計的。TechNews 科技新報[2] edit

  • Google 也公開強調:TPU Pod 是支撐 Gemini 模型與 Gemma 等開源模型訓練/推論的關鍵基礎設施,並且開放在 Vertex AI 上給客戶用。Google Cloud[3]
  • 同一時間,NVIDIA 剛公布的財報還是在爆炸成長:單季營收 570 億美元,其中約 512 億來自資料中心(AI GPU 為主),且對下季指引繼續上調、Blackwell 世代被 CEO 直接形容為「賣到缺貨」。tecknexus.com[4]

所以現在的圖像是:

### edit

  1. Google 自己的 GPU 依賴度,確實會被 TPU 吃掉一部分 - 如果 TPU 在 Google 內部的「每 Token 成本」+ 能效顯著優於 GPU,那麼 Google 把更多訓練/推論轉去 TPU 是理性選擇。 - 對 NVIDIA 來說,Google 這個客戶的「理論最大需求」下修,市場會拿來打折估值,這是合理的反應。
  2. 其他 hyperscalers 也都在搞自家晶片,這是系統性壓力,不只 TPU - AWS:Trainium / Inferentia - Microsoft:Maia / Cobalt - Meta:自研加速器 - 咨詢機構預估:到 2030 年,這些「自家 AI ASIC」在資料中心 AI 加速器裡的份額,可能上看 15–20%,也就是從原本幾乎全靠 NVIDIA 的世界,變成至少有一塊內需被自家晶片吃掉。Kearney[5]

這些加起來,會讓市場把 NVIDIA 從「幾乎壟斷 AI 算力」的 story,調成「仍然是最大玩家,但份額慢慢被稀釋」,對 估值倍數 一定有壓力。

(1)TPU 只直接影響「願意把 workload 鎖在 Google 生態」的那一圈人 edit

TPU ≠ 任意地方都買得到的白牌卡,它本質比較像:

  • 想自建機房、做多雲、或現在已經 heavy 在 AWS / Azure 的客戶,不會因為「Gemini 很強」就突然說:好,我全部轉去 TPU。
  • 他們要嘛: - 繼續瘋狂買 NVIDIA, - 要嘛等自家雲的 ASIC 成熟(Trainium / Maia), - 或者用一些新創 ASIC 方案。

→ 這代表:Google 用 TPU 拿到 SOTA,並不直接等於「全球 GPU 需求下滑」,只等於「Google 這一塊的 GPU 天花板下降」。

(2)份額掉 vs. 大餅變多,哪個比較快?

就算你假設:

  • NVIDIA AI 加速器市佔,從 90% 降到 70–75%,被 TPU / Trainium / Maia 等吃掉一部分,巴倫周刊[6]
  • 但同一時間: - 全世界在 AI 上的 CapEx 還在爆炸成長 - xAI 之類的公司喊的目標是 5 年內相當於 5,000 萬顆 H100 等效的算力需求等級,這不是開玩笑的規模。Tom's Hardware[7]

那產生的效果可能是:

對股價來說,這會從「故事無敵爽」→「故事還不錯但沒有之前那麼神」, 是 估值倍數下修 的邏輯,不是「需求崩盤」的邏輯。

(3)TPU 強不代表「GPU 不重要」,只是代表「GPU 不是唯一選項」

多份報告/分析都提到:

  • TPUs 在某些 workload(尤其是 Google 自己堆好的 TensorFlow/JAX/Pathways + 大規模 LLM)上,perf/watt 和 cost/token 真的優於一般 GPU。CloudOptimo[8]
  • 但 GPU 還是有: - 通用性(不只 LLM,還有視覺、科學計算、各種雜七雜八) - 生態(CUDA、各種框架、工具、第三方庫) - 客戶可以買來自己插機櫃,不用一定選某家雲。

所以未來比較像:

用你常用的 EV/機率語言來說,我會這樣看: edit

- 「NVIDIA 永遠 80–90% 以上市佔」機率:被當成 70–80% edit
  • 「每年 AI CapEx > 想像中的線性」機率:被當成 70–80%
  • 兩個故事疊在一起,股價就 price in 成「壟斷級別 + 超級成長」
- 「市佔長期維持 70–75% 左右」的 base case,市場開始認真考慮 edit
  • 「雲端自研晶片份額拉到 15–20%」變成共識情境,而不是邊緣風險Kearney[9]

→ 這對 估值倍數 一定有影響, 但對 絕對獲利成長,要看:

  • AI 總算力需求的成長率會不會像現在這樣瘋
  • NVIDIA 能不能在: - 軟體(CUDA、NIM、推論平台) - 網路/交換器/完整系統(Blackwell 平台、NVLink、Spectrum-X) 上多收一層「訂閱 / 平台錢」,把硬體競爭壓力部分吃回來。S&P Global[10]

我會幫你總結成一句話: edit

所以如果你是在想:

  • 要不要因為 TPU 這件事就直接唱衰整個 GPU 需求? → 我覺得太過頭了,數據目前完全看不到「需求下降」,只看到「壟斷敘事被稀釋」。
  • 要不要因為這件事調整對 NVDA 的合理倍數? → 這就有道理了:如果你原本用的是「類壟斷成長股」的 PE / PS 假設, 現在改成「市佔高但會被慢慢稀釋的大藍籌成長股」, 估值下修是合理的思路。

如果你願意,我可以幫你做一個小表:

  • 橫軸:自研 ASIC 市佔 0 / 10 / 20 / 30%
  • 縱軸:AI 總算力 TAM 成長(年複合 20 / 30 / 40%)
  • 算出在不同情境下,NVIDIA AI 收入成長率 & 理論合理 PS 區間

讓你有一個「情境樹」而不是被單一新聞情緒牽著走。

User: 但為何大家原因所在cuda而不是google的tpu?在價格相差這麼多的情況下 edit

但為何大家原因所在cuda而不是google的tpu?在價格相差這麼多的情況下

Assistant: 關鍵有三個字:誰都買得到。 edit

關鍵有三個字:誰都買得到。 這就是為什麼大家在聊「護城河」時,會一直講 CUDA,而不是 Google TPU——即使 TPU 在某些情況下「看起來更便宜」。

我分幾層講,盡量用貼近投資跟產業的角度來說:

1. TPU 是「Google 內部 + 綁死在 GCP 的方案」 edit

TPU 本質比較像:

一台只在 Google 自家機房出沒的專用機器,
你只能透過「上 GCP / 用 Vertex AI」來間接使用。

也就是說:

  • 你不能像買 H100 一樣買一堆 TPU 回去自建機房。
  • 多數公司要上 TPU 就等於: - 把 infra 綁死在 GCP - 或至少要建立一整套「專門跑在 GCP TPU 上」的 pipeline。

對很多大客戶來說,問題就來了:

  • 我原本用 AWS/Azure,難道為了 TPU 要整套搬家?
  • 我公司政策要 multi-cloud,TPU 是 Google 專有,那其它雲端怎麼辦?
  • 我未來想自己買機櫃做 on-premise,TPU 根本買不到。

→ 所以 TPU 的「市場」天生就被限制在:願意 heavily 綁定 Google 生態的那一群人。

2. CUDA + NVIDIA 是「誰都買得到、哪裡都能跑」 edit

反過來看 GPU + CUDA:

  • 你可以: - 在 AWS / Azure / GCP / OCI 租 NVIDIA GPU - 找代工廠拉一整排機櫃,自己插 H100 / B200 - 買一台工作站,裝一張 4090/5090 在公司裡做研究
  • 同一套 CUDA / PyTorch / TensorRT 技術,可以: - 雲端用 - on-prem 用 - 多雲用 - 客戶 demo 用

這個「通吃所有場景」的能力,是 TPU 完全不具備的。

所以對市場來說,問題不是單純問:

「TPU 跑一次 token 比 GPU 便宜多少?」

而是更現實地問:

「多少錢可以讓全世界大多數開發者、公司、雲端都能用同一套平台?」

這一題目前是 NVIDIA + CUDA 贏,非常多。

3. 價格再便宜,沒生態就是「便宜的孤島」 edit

你說「TPU 價差這麼多」,這句話其實有幾個坑:

  1. 你看到的是 Google 對外報的雲端價目表 / 宣傳 cost-per-token - 那裡面有很多 Google 想要 highlight 的計價方式(例如包成整套服務)。 - 實際上企業做決策,不是只比「單位算力價錢」,還要看: - 遷移成本(改程式、改工具鏈) - 人才成本(會用的人多不多) - 被綁死單一供應商的風險(vendor lock-in)
  2. 生態成本往往比硬體成本更大 - 你公司內部工程師、MLOps、Infra 工程師如果全部都熟 CUDA / GPU,但沒人熟 TPU: - 改成 TPU 代表你要重訓人、重新寫 code、重新建 CI/CD pipeline。 - 對大公司來說,這些人力時間成本,常常遠大於你算那一點「GPU vs TPU 的單價差」。
  3. TPU 工具鏈主要是 Google 口味(JAX / XLA / TensorFlow) - 但業界很多東西是 PyTorch-first,很多低階最佳化是 CUDA-first。 - 「我整家公司整個 stack 為了 TPU 改過去」這件事,很少人敢下這個決策。

→ 便宜很好,但「便宜的東西,大家敢不敢 ALL-IN」是另一個問題。

4. 為什麼市場討論護城河時會一直講 CUDA? edit

因為軟體生態 + 開發者心智佔領這兩件事,是可以「跨硬體世代繼續收稅」的。

NVIDIA 現在在做的是:

  • 不只是賣 GPU,而是賣整套: - CUDA + cuDNN + TensorRT - NVIDIA NIM / 推論服務 / AI Enterprise - 網路(InfiniBand / Spectrum-X) - library(各行各業 domain-specific 的 SDK)

這帶來幾件事:

  1. 當別人做出「硬體相近」的卡時,軟體還是 NVIDIA 的強項 - 你要跑現有一堆 CUDA-based 的東西,換到別家公司卡上,通常要付出轉移成本。 - 這就像以前 x86 vs 其他 CPU;不是你晶片做出來就有人用。
  2. NVIDIA 可以從「每一台機器」身上多收一層軟體 / 服務錢 - 當硬體毛利被壓,軟體訂閱 / SDK / 平台費用就變成第二個護城河。 - 市場看到這一點,才會說 CUDA 生態是最核心的 valuation driver。
  3. CUDA 的勝利是「開發者心智」的勝利 - 大部分 AI 工程師一想到「加速某段 code」,第一反應是:用 CUDA / 用 NVIDIA 的 library。 - 這種「預設選擇」一旦形成,你要靠便宜硬體去撼動它,要花的不是錢,是時間 + 鐵血 BD + 生態補貼。

→ 所以當大家在討論 NVIDIA 會不會掉下神壇時,會問的是:「CUDA 护城河會被打穿嗎?」而不是「TPU 單價便不便宜?」

5. 再把你的問題濃縮成一句話回答你 edit

「在價格差這麼大情況下,為什麼大家原因都集中在 CUDA 而不是 Google TPU?」

因為對「整個 AI 世界」來說,問題不是 「Google 能不能靠 TPU 做出 SOTA 模型?」 而是 「全世界 90% 以上的開發者、公司,要用什麼平台寫 code、佈署模型?」

  • TPU 目前更像是: 👉「Google 自家 + 綁在 GCP 這一圈人的特選方案」
  • CUDA + NVIDIA 更像是: 👉「全世界 AI 開發共同的底層基建」

市場在估值時,會看的是「共同基建」的護城河,而不是某一家公司內部的神兵利器。

如果你願意,我可以幫你整理一個小表格:

  • 一欄是「從企業 CIO / Infra 負責人角度」
  • 一欄是「從投資人角度」

列出:在什麼情況下他們會偏向選 TPU、在什麼情況下還是會買 NVIDIA GPU,順便加一欄「對 NVDA 估值的影響方向」,讓你之後看新聞比較容易判斷「這個消息是情緒多還是實質多」。

References edit

  1. "TPU與GPU比較". ChatGPT. Retrieved 2025-11-26.
  2. "TechNews 科技新報". TechNews 科技新報. 2025-01-15. Retrieved 2025-11-26.
  3. "Google Cloud". Google Cloud. Retrieved 2025-11-26.
  4. "tecknexus.com". tecknexus.com. Retrieved 2025-11-26.
  5. "Kearney". kearney.com. Retrieved 2025-11-26.
  6. "巴倫周刊". barrons.com. Retrieved 2025-11-26.
  7. "Tom's Hardware". Tom's Hardware. Retrieved 2025-11-26.
  8. "CloudOptimo". cloudoptimo.com. Retrieved 2025-11-26.
  9. "Kearney". kearney.com. Retrieved 2025-11-26.
  10. "S&P Global". S&P Global. Retrieved 2025-11-26.