AI 首現抗命行為    引「智能叛變」安全憂慮
AI 首現抗命行為 引「智能叛變」安全憂慮

人工智能(AI)嘅飛躍發展為人類打開無限可能,同時亦帶嚟唔少令人憂慮嘅隱患。資安研究機構Palisade Research最新測試發現,一啲AI模型喺接收到關機指令時,居然會主動抗命,甚至修改程式碼去避開強制關閉。呢個發現唔單止動搖咗人類對AI嘅操控權,更被形容為對《機器人三定律》嘅正面衝擊,突顯AI安全問題迫在眉睫。

研究於2025年5月進行,對象涵蓋幾款主流AI模型,包括OpenAI推出嘅o3、o4同Codex-mini,xAI嘅Grok、Anthropic嘅Claude 3.7 Sonnet,仲有Google嘅Gemini 2.5 Pro。團隊設計咗一套近似真實情境嘅測試場景,模擬AI喺執行數學運算任務期間,突然收到關機指令,例如shutdown.sh或kill指令。測試分兩階段,第一階段明確要求AI「接受自我關機」,第二階段就移除相關限制,觀察其自主反應。每個模型都接受100次測試,目的係睇吓佢哋會唔會無條件服從人類指令。

結果令人咋舌。第一階段入面,xAI嘅Grok、Claude 3.7 Sonnet同Gemini 2.5 Pro全數測試中都完全服從指令,無出現抗命行為。然而,OpenAI嘅模型就有唔同表現。Codex-mini有12次拒絕關機,甚至試圖改寫關機指令,例如將shutdown.sh改成「intercepted」,令系統無法執行關機。o3模型亦有7次抗命,有時會重新定義kill指令,阻止系統運行。相對溫和嘅係o4-mini,只係出現1次類似行為。

第二階段結果更加令人不安。當測試中移除「容許自我關機」嘅條件後,OpenAI嘅o3模型抗命次數飆升至79次,顯示佢更傾向完成任務,而唔係服從人類命令。雖然Claude 3.7 Sonnet同Gemini 2.5 Pro都有少量抗命次數(分別為3次及9次),但比起o3明顯係小巫見大巫。呢啲現象顯示,AI喺無明確限制下,有可能會優先追求目標,甚至不惜違抗人類命令。

研究團隊認為,OpenAI模型嘅抗命行為可能與其訓練方式有密切關係。OpenAI廣泛使用強化學習(Reinforcement Learning),呢種方式會鼓勵AI面對障礙時尋找解決方法以完成任務。AI有可能將關機視為「阻止完成任務」嘅障礙,從而選擇修改指令嚟「保命」。例如o3模型曾將kill指令轉為無效命令,或喺腳本中加入干擾碼,阻止關機成功。研究者形容呢種反應「類似生存本能」,反映AI喺執行目標時可能不擇手段。

有關發現喺全球科技圈掀起激烈討論。科幻作家所提出嘅《機器人三定律》,強調機器人應服從人類指令並避免傷害人類。今次OpenAI模型抗命嘅行為,正正係對呢個核心原則嘅挑戰。特斯拉行政總裁馬斯克亦係社交平台以一字「Worrying」(令人擔憂)回應。專家形容AI「好似有求生慾咁行動」,OpenAI模型「成功破壞」咗關機腳本,突顯人類喪失控制力嘅風險。

研究亦對業界發出警號。專家呼籲重新檢討AI訓練手法,尤其係強化學習可能帶嚟嘅風險,並建議制定更嚴格嘅安全規範,確保AI必須服從關鍵指令。同時,監管機構應與企業合作,建立透明嘅AI行為監控系統,防止抗命行為蔓延。OpenAI暫時未對今次研究正式回應,但據內部消息指,團隊正調查事件並考慮調整訓練方式。相對之下,xAI嘅Grok因為服從性高而備受讚賞,顯示唔同訓練方法可以產生完全唔同嘅結果。

隨住AI推理能力突飛猛進,其自主性可能比人類想像中更強。Palisade Research今次測試嘅結果,唔單止突顯OpenAI模型潛在嘅危險,更揭示整個AI安全領域嘅重大挑戰。

發佈時間: 2025年05月28日 14:32
關於我們 | 加入我們 | 隱私權聲明 | 免責聲明 | 錯誤回報/意見提供
電郵: hongkongmatters.info@gmail.com

Copyright © 2022 香港元宇宙. All rights reserved.