AI界年初曾經熱炒嘅中國新星「深度求索(DeepSeek)」,而家陷入前所未有低潮。呢間原本標榜「低成本訓練出超強AI模型」嘅公司,年初一度喺中國社交平台掀起熱潮,用戶使用率高達50%,但最新數據顯示已經跌至得番3%,接近絕跡。原定5月推出嘅新一代語言模型R2,至今毫無影蹤。
據中國科技媒體《快科技》報道,當初DeepSeek推出R1模型時聲勢浩大,打正旗號要打破OpenAI壟斷。佢哋標榜用較低成本亦可訓練出接近ChatGPT水平嘅語言模型,一度成為國產AI之光。但短短數月後,用戶卻大幅流失,使用率如斷崖式下滑,由50%瀉到剩低3%,堪稱AI界嘅「暴雷代表作」。
消息指,原定喺5月推出嘅DeepSeek-R2模型,一直冇下文。有業界人士直言,DeepSeek-R2背後面對兩大致命難題。首先,R1模型係建基於全球經過認證、質素較高嘅訓練數據,大量參考自OpenAI等國際模型嘅訓練輸出;但R2則需要更多更高質素數據,而中國本地數據質量參差,甚至不足以支撐高階模型訓練。結果出現所謂「幻覺體驗」問題,即AI亂作答案、虛構資料,嚴重影響可靠性。
第二個難題係硬件資源不足,尤其係高階GPU(繪圖處理器)嚴重短缺,直接拖慢訓練效率。中國科技圈近年受制美國出口管制,相關AI晶片如NVIDIA A100等難以取得,令DeepSeek陷入「有模型但無力訓練」嘅尷尬處境。
而與此同時,DeepSeek最大嘅海外對手OpenAI同Google旗下嘅Gemini則不斷向前衝。據《金融投資報》報道,ChatGPT網站流量今年激增40.6%,Gemini更暴漲85.8%。反觀DeepSeek仍用住半年前技術,自然無法滿足市場日益提高嘅期望。用戶由試用轉向流失,使用率急跌已成必然結果。
OpenAI曾公開指控DeepSeek非法使用ChatGPT等模型之輸出內容,用所謂「蒸餾(distillation)」技術進行模型複製。所謂「蒸餾」係AI界普遍用嚟壓縮模型體積、提升效能嘅訓練手法,即用大型模型嘅答案,去訓練細啲但反應快嘅小型模型。
雖然蒸餾技術本身唔一定算犯法,但OpenAI指出,佢哋嘅服務條款明確禁止開發者利用其模型輸出內容,用於訓練具競爭性模型。換言之,即使唔涉及版權法,亦可能違反契約法。而根據檢測公司Copyleaks分析,DeepSeek-R1約有74%輸出風格與OpenAI相似,進一步引發仿冒疑雲。
OpenAI聲稱已掌握DeepSeek「不當蒸餾」嘅證據,並已加強內部安全,包括限制開發者存取權限、身份驗證程序、隔離敏感技術模組等,防止企業間技術滲漏。事件震動AI產業鏈,全球多國政府亦開始考慮是否要對中國AI模型實施預防性封鎖。
至於DeepSeek本身就回應指,其R1模型係基於Meta(Facebook母公司)及阿里巴巴等開源架構開發,並非抄襲OpenAI模型。多名法律專家亦認為,即使有使用ChatGPT輸出訓練模型,只要冇明確抄襲OpenAI原創內容,未必構成侵權。但若違反API使用協議,就可能觸犯契約法,仍具法律風險。