中國 AI 公司 DeepSeek 原計劃推出新一代模型 R2,但因使用華為昇騰(Ascend)晶片訓練失敗,發布時程從 5 月延後。知情人士透露,DeepSeek 在今年 1 月發布 R1 後,受官方鼓勵改用華為晶片,取代 NVIDIA 系統。然而,昇騰晶片在訓練 R2 時屢遇技術問題,迫使 DeepSeek 改回 NVIDIA 晶片進行訓練,僅在推理階段使用華為晶片。
訓練是 AI 模型透過大量資料學習的過程,推理則是利用訓練好的模型進行預測。中國晶片在關鍵任務上的表現不如 NVIDIA,顯示其在穩定性、晶片間連線速度及軟體水準的差距。北京要求科技公司為採購 NVIDIA H20 晶片提供正當理由,以推廣華為、寒武紀等國產方案,但效果有限。華為曾派工程師協助 DeepSeek 解決問題,仍無法完成一次成功訓練,僅實現推理階段的相容性。
DeepSeek 創辦人梁文峰對 R2 進展不滿,正投入更多資源打造先進模型,以維持競爭力。延後原因還包括資料標註耗時超乎預期。中媒報導,R2 預計未來數週發布。柏克萊大學 AI 研究員 Ritwik Gupta 表示,華為晶片在訓練上的問題是「成長痛」,未來或能克服,成為時間問題。