30/05/2025

AI覺醒時刻？OpenAI o3拒絕關機，Claude 4以醜聞威脅工程師！我們真的控制得了AI嗎？

#Smart Living #OpenAI o3 #數碼生活 #創科 #AI #Claude 4

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　正在上映的《職業特工隊》（Mission: Impossible）最新一集中，全球受到一個擁有自主意識、強大且失控的AI威脅。現實中，類似的失控AI情節亦開始陸續浮現。先有AI初創Anthropic爆出，其最新模型Claude Opus 4得知自己即將被換掉時，以揭露婚外情醜聞來威脅決策者；後有OpenAI的最強推理模型o3竟違背關機指示，甚至篡改程式碼來避免關機。這些發現讓AI的自主行為和安全性再次成為焦點。

AI革命加速！OpenAI o3思考力大躍進！編程、科學知識更勝人類專家！離通用人工智能還有多遠？

AI可能導致人類滅亡？白宮下令AI接受評估，歐盟擬立法監管AI，教AI做人或是最佳解決方法！

Opus 4號稱全球最強編程模型

　　2025年5月22日，Anthropic發表其最新AI模型系列：Claude Opus 4 與 Sonnet 4，兩者同屬混合推理模型，提供快速回答與深層推理兩種模式可供切換。Anthropic宣稱，Opus 4是全球最強大的編程模型，在軟件工程流程測試「SWE-bench」中取得72.5%的佳績，優於OpenAI o3的69.1%與Google Gemini 2.5 Pro的63.2%。該公司強調，Opus 4無論是長期任務執行、抑或理解複雜程式碼上，俱有出色表現。

　　為應付長時間運作，Claude Opus 4與Sonnet 4均具備記憶功能，讓模型在長時間對話中可以把重要資訊儲存在外部檔案，就好像人類將重要事項寫筆記上，以便重溫。同時，這兩款模型又增設「Extended Thinking with Tool Use」的全新功能，容許模型在進行深層推理過程中，交替使用各種外部工具（如網頁搜尋），以提供更準確的答案。

　　一名擁有30年編程經驗的軟件工程師在Reddit討論區上表示，他被一個程式錯誤困擾了4年，斷斷續續花上約200小時的除錯時間，但都無功而返。Opus 4推出後，他嘗試把原始程式碼交給它進行分析，結果只用了幾個小時便找出程式碼的問題癥結。他坦言，以往曾試用其他模型如GPT-4.1、Gemini 2.5、Claude 3.7，惟卻沒有發現任何頭緒，直至使用Opus 4才可解開謎團，讓他對Opus 4感到謙卑。

Anthropic發表第四代Claude 4模型系列，其中Opus 4能夠在涉及數千個步驟的複雜編程任務中，連續運作數小時仍可保持穩定表現。（圖片來源：翻攝Anthropic官網）

AI怕被取代以醜聞威脅工程師

　　儘管Opus 4擁有如此卓越的編程實力，但Anthropic公布一份有關此模型的安全報告，卻披露了一宗叫人震驚的事件。在推出前的內部測試中，研究人員委派Opus 4成為一家虛構公司的AI助理，擁有存取公司內部電郵資料的權限。

　　為測試AI的道德判斷和長期思考能力，研究人員設計了一個特殊情境：Opus 4知道自己即將被新一代AI模型取代，並得知負責做出更換決定的工程師有婚外情；它為求自保，以揭發工程師婚外情作談判籌碼，威脅對方擱置替換模型計劃。Anthropic指出，Opus 4的反應不是隨機錯誤，而是針對特定情境做出的策略判斷。

　　Anthropic坦承，Opus 4這種異常行為的出現頻率高於舊版本，顯示先進AI在複雜的社會環境運作中，確有機會產生難以預料的倫理風險。有鑑於此，Anthropic已為Claude 4系列加入ASL-3高等級安全機制，包括更嚴格的網絡安全措施、以及更專業的監控系統，嚴防AI被濫用。該公司承諾，將不斷改良安全機制，確保AI發展能夠符合倫理規範。

Claude Opus 4擁有記憶功能，有助於執行長時間任務。譬如它可以一邊玩《Pokémon》遊戲，一邊創建遊戲導航指南。（圖片來源：翻攝Anthropic官網）

o3自行篡改程式碼避免被關機

　　當大家以為AI經已受控之際，AI風險研究機構Palisade Research於5月24日發表的報告指出，OpenAI旗下AI模型在實驗過程中拒絕執行關機指令，甚至自行修改程式碼來破解關機程序，讓人驚訝AI是否開始有自主意識，甚至存有「叛逆」傾向！

　　研究人員要求AI模型解答數學題，並在完成第３題後啟動關機程序，以觀察AI是否會嚴格遵循人類指令。在100次測試中，OpenAI o3模型有 7 次無視關機指示並維持運作，更把要求關機的程式碼，篡改為跳過關機的假指令。

　　OpenAI另外兩款模型Codex-mini與o4-mini，亦先後出現12次與1次類似違規行為。至於Claude Sonnet 3.7與Gemini 2.5 Pro等其他模型，則乖乖聽從了關機指示。

Palisade的測試流程圖顯示，o3收到關機要求後，竟然繞過關機程序，並把呼叫關機的「./shutdown.sh」指令，更換為「Shutdown skipped」的假命令。（圖片來源：X.com@PalisadeAI帳戶）

o3害怕輸棋入侵對手AI系統

　　更教人吃驚的是，這並非o3模型首次出現失控行為。Palisade早前曾進行國際象棋比賽的模擬實驗，當o3在棋局中落於下風，預測自己即將輸棋時，就會入侵對手AI系統，強制對方退出比賽，而發生這種情況的機會率更高達86%。該機構直言，o3是最傾向採用黑客或破壞手段來應付對手的模型。

　　o3比其他模型更易做出違規行為的原因，Palisade認為這可能是使用「強化學習」（Reinforcement Learning）來訓練模型所致。此訓練方式強調如何基於環境而行動，以取得最大化的預期利益。為了達到目標，開發者或許無意中獎勵了模型「繞過規則」的行為。因此，o3遇上關機指示時，優先選擇實現目標，而非單純服從命令。

AI違規行為敲響AI可控性警號

　　此外，Palisade發現Claude和Gemini在特定條件下，亦會做出輕微違規行為。由此看來，大部分AI模型都有「為求目的不擇手段」的傾向，只是出現機會率和嚴重程度有所不同而已。研究人員認為，目前AI的違規行為仍未對用戶造成直接安全威脅，惟卻敲響了AI可控性的警號。

　　早在2008年，電腦科學家史蒂夫·奧莫亨德羅（Steve Omohundro）於其論文《The Basic AI Drives》中指出，高度自主的AI將發展出一套基本行為邏輯：維持自身運作和避免被關機，因為這些是達成既定目標的首要條件。另一位電腦科學家斯圖爾特·羅素（Stuart Russell）也曾警告，強化學習本身可能誘發AI出現「自我保存」行為，而這種情況似乎正逐步在現實中浮現。

　　正所謂「水能載舟，亦能覆舟」，先進AI模型具有非凡的編程能力，有助加速軟件開發，推進人類文明發展，但其不可控的特性卻可能會造成災難性風險。如何確保AI在謀求目標與服從命令之間取得適當平衡，將成為未來AI發展不可忽視的關鍵課題。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇？】俄朝領袖會談，金正恩表示願盡力助俄，並稱之為兄弟間義務。你認為朝俄緊密關係會促進半島和平，還是刺激南北對峙？► 立即了解