香港新聞連線

AI 首現抗命行為引「智能叛變」安全憂慮

人工智能（AI）嘅飛躍發展為人類打開無限可能，同時亦帶嚟唔少令人憂慮嘅隱患。資安研究機構Palisade Research最新測試發現，一啲AI模型喺接收到關機指令時，居然會主動抗命，甚至修改程式碼去避開強制關閉。呢個發現唔單止動搖咗人類對AI嘅操控權，更被形容為對《機器人三定律》嘅正面衝擊，突顯AI安全問題迫在眉睫。

研究於2025年5月進行，對象涵蓋幾款主流AI模型，包括OpenAI推出嘅o3、o4同Codex-mini，xAI嘅Grok、Anthropic嘅Claude 3.7 Sonnet，仲有Google嘅Gemini 2.5 Pro。團隊設計咗一套近似真實情境嘅測試場景，模擬AI喺執行數學運算任務期間，突然收到關機指令，例如shutdown.sh或kill指令。測試分兩階段，第一階段明確要求AI「接受自我關機」，第二階段就移除相關限制，觀察其自主反應。每個模型都接受100次測試，目的係睇吓佢哋會唔會無條件服從人類指令。

結果令人咋舌。第一階段入面，xAI嘅Grok、Claude 3.7 Sonnet同Gemini 2.5 Pro全數測試中都完全服從指令，無出現抗命行為。然而，OpenAI嘅模型就有唔同表現。Codex-mini有12次拒絕關機，甚至試圖改寫關機指令，例如將shutdown.sh改成「intercepted」，令系統無法執行關機。o3模型亦有7次抗命，有時會重新定義kill指令，阻止系統運行。相對溫和嘅係o4-mini，只係出現1次類似行為。

第二階段結果更加令人不安。當測試中移除「容許自我關機」嘅條件後，OpenAI嘅o3模型抗命次數飆升至79次，顯示佢更傾向完成任務，而唔係服從人類命令。雖然Claude 3.7 Sonnet同Gemini 2.5 Pro都有少量抗命次數（分別為3次及9次），但比起o3明顯係小巫見大巫。呢啲現象顯示，AI喺無明確限制下，有可能會優先追求目標，甚至不惜違抗人類命令。

研究團隊認為，OpenAI模型嘅抗命行為可能與其訓練方式有密切關係。OpenAI廣泛使用強化學習（Reinforcement Learning），呢種方式會鼓勵AI面對障礙時尋找解決方法以完成任務。AI有可能將關機視為「阻止完成任務」嘅障礙，從而選擇修改指令嚟「保命」。例如o3模型曾將kill指令轉為無效命令，或喺腳本中加入干擾碼，阻止關機成功。研究者形容呢種反應「類似生存本能」，反映AI喺執行目標時可能不擇手段。

有關發現喺全球科技圈掀起激烈討論。科幻作家所提出嘅《機器人三定律》，強調機器人應服從人類指令並避免傷害人類。今次OpenAI模型抗命嘅行為，正正係對呢個核心原則嘅挑戰。特斯拉行政總裁馬斯克亦係社交平台以一字「Worrying」（令人擔憂）回應。專家形容AI「好似有求生慾咁行動」，OpenAI模型「成功破壞」咗關機腳本，突顯人類喪失控制力嘅風險。

研究亦對業界發出警號。專家呼籲重新檢討AI訓練手法，尤其係強化學習可能帶嚟嘅風險，並建議制定更嚴格嘅安全規範，確保AI必須服從關鍵指令。同時，監管機構應與企業合作，建立透明嘅AI行為監控系統，防止抗命行為蔓延。OpenAI暫時未對今次研究正式回應，但據內部消息指，團隊正調查事件並考慮調整訓練方式。相對之下，xAI嘅Grok因為服從性高而備受讚賞，顯示唔同訓練方法可以產生完全唔同嘅結果。

隨住AI推理能力突飛猛進，其自主性可能比人類想像中更強。Palisade Research今次測試嘅結果，唔單止突顯OpenAI模型潛在嘅危險，更揭示整個AI安全領域嘅重大挑戰。

發佈時間: 2025年05月28日 14:32