2025-05-30
AI覺醒時刻?OpenAI o3拒絕關機,Claude 4以醜聞威脅工程師!我們真的控制得了AI嗎?
正在上映的《職業特工隊》(Mission: Impossible)最新一集中,全球受到一個擁有自主意識、強大且失控的AI威脅。現實中,類似的失控AI情節亦開始陸續浮現。先有AI初創Anthropic爆出,其最新模型Claude Opus 4得知自己即將被換掉時,以揭露婚外情醜聞來威脅決策者;後有OpenAI的最強推理模型o3竟違背關機指示,甚至篡改程式碼來避免關機。這些發現讓AI的自主行為和安全性再次成為焦點。
Read More
OpenAI最強勁敵?Anthropic超額融資35億美元,估值狂飇3倍,揭示AI產業進入新競爭格局?
AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠?
AI可能導致人類滅亡?白宮下令AI接受評估,歐盟擬立法監管AI,教AI做人或是最佳解決方法!
Opus 4號稱全球最強編程模型
2025年5月22日,Anthropic發表其最新AI模型系列:Claude Opus 4 與 Sonnet 4,兩者同屬混合推理模型,提供快速回答與深層推理兩種模式可供切換。Anthropic宣稱,Opus 4是全球最強大的編程模型,在軟件工程流程測試「SWE-bench」中取得72.5%的佳績,優於OpenAI o3的69.1%與Google Gemini 2.5 Pro的63.2%。該公司強調,Opus 4無論是長期任務執行、抑或理解複雜程式碼上,俱有出色表現。
為應付長時間運作,Claude Opus 4與Sonnet 4均具備記憶功能,讓模型在長時間對話中可以把重要資訊儲存在外部檔案,就好像人類將重要事項寫筆記上,以便重溫。同時,這兩款模型又增設「Extended Thinking with Tool Use」的全新功能,容許模型在進行深層推理過程中,交替使用各種外部工具(如網頁搜尋),以提供更準確的答案。
一名擁有30年編程經驗的軟件工程師在Reddit討論區上表示,他被一個程式錯誤困擾了4年,斷斷續續花上約200小時的除錯時間,但都無功而返。Opus 4推出後,他嘗試把原始程式碼交給它進行分析,結果只用了幾個小時便找出程式碼的問題癥結。他坦言,以往曾試用其他模型如GPT-4.1、Gemini 2.5、Claude 3.7,惟卻沒有發現任何頭緒,直至使用Opus 4才可解開謎團,讓他對Opus 4感到謙卑。
Anthropic發表第四代Claude 4模型系列,其中Opus 4能夠在涉及數千個步驟的複雜編程任務中,連續運作數小時仍可保持穩定表現。(圖片來源:翻攝Anthropic官網)
AI怕被取代以醜聞威脅工程師
儘管Opus 4擁有如此卓越的編程實力,但Anthropic公布一份有關此模型的安全報告,卻披露了一宗叫人震驚的事件。在推出前的內部測試中,研究人員委派Opus 4成為一家虛構公司的AI助理,擁有存取公司內部電郵資料的權限。
為測試AI的道德判斷和長期思考能力,研究人員設計了一個特殊情境:Opus 4知道自己即將被新一代AI模型取代,並得知負責做出更換決定的工程師有婚外情;它為求自保,以揭發工程師婚外情作談判籌碼,威脅對方擱置替換模型計劃。Anthropic指出,Opus 4的反應不是隨機錯誤,而是針對特定情境做出的策略判斷。
Anthropic坦承,Opus 4這種異常行為的出現頻率高於舊版本,顯示先進AI在複雜的社會環境運作中,確有機會產生難以預料的倫理風險。有鑑於此,Anthropic已為Claude 4系列加入ASL-3高等級安全機制,包括更嚴格的網絡安全措施、以及更專業的監控系統,嚴防AI被濫用。該公司承諾,將不斷改良安全機制,確保AI發展能夠符合倫理規範。
Claude Opus 4擁有記憶功能,有助於執行長時間任務。譬如它可以一邊玩《Pokémon》遊戲,一邊創建遊戲導航指南。(圖片來源:翻攝Anthropic官網)
o3自行篡改程式碼避免被關機
當大家以為AI經已受控之際,AI風險研究機構Palisade Research於5月24日發表的報告指出,OpenAI旗下AI模型在實驗過程中拒絕執行關機指令,甚至自行修改程式碼來破解關機程序,讓人驚訝AI是否開始有自主意識,甚至存有「叛逆」傾向!
研究人員要求AI模型解答數學題,並在完成第3題後啟動關機程序,以觀察AI是否會嚴格遵循人類指令。在100次測試中,OpenAI o3模型有 7 次無視關機指示並維持運作,更把要求關機的程式碼,篡改為跳過關機的假指令。
OpenAI另外兩款模型Codex-mini與o4-mini,亦先後出現12次與1次類似違規行為。至於Claude Sonnet 3.7與Gemini 2.5 Pro等其他模型,則乖乖聽從了關機指示。
Palisade的測試流程圖顯示,o3收到關機要求後,竟然繞過關機程序,並把呼叫關機的「./shutdown.sh」指令,更換為「Shutdown skipped」的假命令。(圖片來源:X.com@PalisadeAI帳戶)
o3害怕輸棋入侵對手AI系統
更教人吃驚的是,這並非o3模型首次出現失控行為。Palisade早前曾進行國際象棋比賽的模擬實驗,當o3在棋局中落於下風,預測自己即將輸棋時,就會入侵對手AI系統,強制對方退出比賽,而發生這種情況的機會率更高達86%。該機構直言,o3是最傾向採用黑客或破壞手段來應付對手的模型。
o3比其他模型更易做出違規行為的原因,Palisade認為這可能是使用「強化學習」(Reinforcement Learning)來訓練模型所致。此訓練方式強調如何基於環境而行動,以取得最大化的預期利益。為了達到目標,開發者或許無意中獎勵了模型「繞過規則」的行為。因此,o3遇上關機指示時,優先選擇實現目標,而非單純服從命令。
AI違規行為敲響AI可控性警號
此外,Palisade發現Claude和Gemini在特定條件下,亦會做出輕微違規行為。由此看來,大部分AI模型都有「為求目的不擇手段」的傾向,只是出現機會率和嚴重程度有所不同而已。研究人員認為,目前AI的違規行為仍未對用戶造成直接安全威脅,惟卻敲響了AI可控性的警號。
早在2008年,電腦科學家史蒂夫·奧莫亨德羅(Steve Omohundro)於其論文《The Basic AI Drives》中指出,高度自主的AI將發展出一套基本行為邏輯:維持自身運作和避免被關機,因為這些是達成既定目標的首要條件。另一位電腦科學家斯圖爾特·羅素(Stuart Russell)也曾警告,強化學習本身可能誘發AI出現「自我保存」行為,而這種情況似乎正逐步在現實中浮現。
正所謂「水能載舟,亦能覆舟」,先進AI模型具有非凡的編程能力,有助加速軟件開發,推進人類文明發展,但其不可控的特性卻可能會造成災難性風險。如何確保AI在謀求目標與服從命令之間取得適當平衡,將成為未來AI發展不可忽視的關鍵課題。
《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。
【你點睇?】特朗普以「反猶」「親共」為由禁哈佛招收國際學生,你認為事件會否減少全球學生對美國頂尖高校的選擇意願?► 立即投票