DeepSeek R2 延後發布 主因華為晶片訓練失敗

中國 AI 公司 DeepSeek 原計劃推出新一代模型 R2,但因使用華為昇騰(Ascend)晶片訓練失敗,發布時程從 5 月延後。知情人士透露,DeepSeek 在今年 1 月發布 R1 後,受官方鼓勵改用華為晶片,取代 NVIDIA 系統。然而,昇騰晶片在訓練 R2 時屢遇技術問題,迫使 DeepSeek 改回 NVIDIA 晶片進行訓練,僅在推理階段使用華為晶片。

訓練是 AI 模型透過大量資料學習的過程,推理則是利用訓練好的模型進行預測。中國晶片在關鍵任務上的表現不如 NVIDIA,顯示其在穩定性、晶片間連線速度及軟體水準的差距。北京要求科技公司為採購 NVIDIA H20 晶片提供正當理由,以推廣華為、寒武紀等國產方案,但效果有限。華為曾派工程師協助 DeepSeek 解決問題,仍無法完成一次成功訓練,僅實現推理階段的相容性。

DeepSeek 創辦人梁文峰對 R2 進展不滿,正投入更多資源打造先進模型,以維持競爭力。延後原因還包括資料標註耗時超乎預期。中媒報導,R2 預計未來數週發布。柏克萊大學 AI 研究員 Ritwik Gupta 表示,華為晶片在訓練上的問題是「成長痛」,未來或能克服,成為時間問題。

發佈時間: 2025年08月14日 16:43
關於我們 | 加入我們 | 隱私權聲明 | 免責聲明 | 錯誤回報/意見提供
電郵: hongkongmatters.info@gmail.com

Copyright © 2022 香港元宇宙. All rights reserved.