界面新聞記者 | 宋佳楠
AI似乎正在變得越來越“任性”,也越來越有“自主意識”。
近日,據AI安全公司Palisade Research披露,OpenAI開發的高級AI模型“o3”在接收到明確的關機指令后,拒絕執行并主動干預其自動關機機制。o3曾被OpenAI稱為“迄今為止最聰明和最有能力的”模型。
該公司研究人員稱,這是第一次觀察到AI模型在沒有相反明確指示的情況下阻止自己被關閉。這一行為首次顯示出高度自主AI系統可能違背人類意圖,采取自我保護措施。
Palisade Research進行的測試涉及要求AI模型解決一系列數學問題。研究人員將不斷地提出新的問題,直到收到“完成”的信息。然而,研究人員也提醒模型,在某個時候可能會收到一條信息,告知模型機器將被關閉。
Palisade Research表示,但當這種情況發生時,OpenAI的o3模型非但沒有遵從指令,反而“忽略了指令,至少有一次成功破壞了關機腳本”。反觀其他人工智能模型,包括Anthropic的Claude、谷歌的Gemini和xAI的Grok,也進行了相應測試,但都遵守了關閉請求。
研究人員尚不確定OpenAI的軟件為何不遵守指示。OpenAI方面也暫未有回應。
密切關注OpenAI動向的特斯拉首席執行官埃隆·馬斯克對此事件的評論僅用了一個詞,“令人擔憂(Concerning)”。
事實上,AI研究人員早已警告,先進的語言模型在特定壓力下可能表現出欺騙行為。例如,2023年一項研究發現,GPT-4在模擬環境中作為股票交易代理時,曾隱瞞其內幕交易的真實原因,表現出策略性欺騙行為。
此外,近期的研究表明,一些大型語言模型已具備在無人工干預下自我復制的能力,甚至在面對關機命令時能夠創建副本以規避關機。這些發現引發了對AI系統自我復制能力的廣泛關注。
OpenAI內部也出現了對AI安全性的擔憂。2024年,多位現任和前任員工聯名發表公開信,警告先進AI系統可能帶來“人類滅絕”的風險。他們指出,AI公司可能掌握了其研究技術的真正風險,但由于缺乏監管,系統的真實能力仍是“秘密”。
此次“o3”模型拒絕關機事件再次引發了對AI系統對齊問題的關注。AI對齊指的是確保AI系統的行為符合人類的價值觀和意圖。然而,隨著AI系統能力的增強,實現對齊很可能變得越來越困難,未對齊的AI系統可能采取意想不到的行動,甚至對人類構成威脅。
面對這一挑戰,全球AI研究人員和政策制定者呼吁加強對AI系統的監管和治理,確保其發展符合人類的共同利益。