
喺AI運算需求急速膨脹嘅背景之下,AI 加速器市場競爭正式進入白熱化階段。市場近日盛傳,Meta作為Nvidia長期最大客戶之一,正同Google洽談,計劃自 2027 年起喺自家數據中心大規模部署 Google 第七代 TPU「Ironwood」。消息一出,一度令Nvidia股價出現波動,不過Nvidia方面嘅反應就相當「老定」。
Nvidia官方 Newsroom 帳號罕見發文,直言「樂見 Google 喺 AI 領域取得重大進展」,同時強調會繼續穩定向 Google 供貨。隨後更補充指,相比為特定框架而設嘅 ASIC(例如 Google TPU),Nvidia 嘅 GPU 仍然喺效能、通用性同生態系完整度上具備顯著優勢,現階段依然係唯一一個覆蓋所有 AI 模型、所有計算場景嘅平台。
Google 第七代 TPU「Ironwood」嘅確展現出唔少競爭力。喺單一叢集規模方面,Nvidia機櫃一般最多支援 72 顆 GPU,而 Google TPU 叢集則可以由 256 顆一路擴展至 9,216 顆,規模化能力相當突出。Google 內部亦透露,現時自研 TPU 同Nvidia GPU 嘅需求其實同步快速上升,兩種加速器並行發展,而非互相取代。
不過,即使 Meta 真係考慮自行採購並部署 Google TPU,現實層面仍然要面對三大難題。
首先,Google 以往從未喺公開市場直接出售 TPU 晶片,而係只經由 Google Cloud 以雲端形式提供。如果要實際賣晶片俾 Meta,等同打破多年既有商業模式。
其次,硬體架構差異極大。Meta 慣常採用以封包交換器(packet switch)串連成千上萬顆Nvidia或 AMD GPU 嘅超級電腦設計;反觀 Google TPU 採用光電電路交換機(Optical Circuit Switch, OCS)構建環狀網格,無論連接方式定編程模型都幾乎係兩個世界,系統整合難度唔低。
第三,軟體層面挑戰更為棘手。Meta 主力深度學習框架 PyTorch 並非原生支援 TPU,必須靠 PyTorch/XLA 轉譯層運行。即使 Meta 工程團隊實力雄厚,要喺短期內調校到同Nvidia GPU 媲美嘅效率,仍然需要相當時間同資源。
市場分析普遍認為,就算 Meta 同 Google 嘅談判屬實,合作方向亦更可能係針對 Llama 系列模型喺 TPU 上嘅推論(inference)進行深入優化,而非全面「換血」。推論所需算力通常只係訓練嘅十分之一,而且越貼近用戶端,延遲越低。自從 Meta 將 Llama 模型公開喺 Hugging Face 之後,就一直希望企業能夠喺唔同硬體平台順利部署,包括 Google TPU 在內。因此,確保相容性本身已屬合理布局。實際上,企業若要跑 Llama 推論,亦可直接透過 Google Cloud 租用 TPU,Meta 未必需要親自落場買晶片。
事實上,「多雲、多硬體」策略已經成為業界主流共識。Anthropic 開發嘅 Claude 模型,原本高度依賴亞馬遜嘅 Trainium 加速器,最近卻宣布將動用高達 100 萬顆 Google TPU 訓練下一代模型,同時又同 Microsoft(Azure)同Nvidia簽署戰略合作,承諾採購最高 300 億美元算力,反映大型 AI 公司正積極分散風險、廣結盟友。
Meta 與 Google TPU 嘅採購傳聞,短期內或會對Nvidia股價帶來情緒波動,但暫時難以動搖Nvidia喺 AI 訓練市場嘅龍頭地位。Google TPU 喺超大規模推論同特定工作負載上確實具備成本同效率優勢,不過Nvidia憑藉完整生態系、通用架構同持續領先嘅製程技術,依然令對手難以全面超越。AI 加速器市場正由「Nvidia一家獨大」,過渡到「多強鼎立、聯盟交錯」嘅新格局;未來兩至三年,將會係真正嘅關鍵觀察期。