• |
  • 極速報價
  • |
  • etnet專輯
    etnet專輯
  • 會員
  • 產品服務 / 串流版
  • 設定

30/05/2025

AI覺醒時刻?OpenAI o3拒絕關機,Claude 4以醜聞威脅工程師!我們真的控制得了AI嗎?

  • 加入最愛專欄
  • 收藏文章
  • 方展策

    方展策

    少年時,曾研習 Geographic Information System,可惜學無所成,僥倖畢業。成年後,誤打誤撞進入傳媒圈子,先後在印刷、電子、網絡媒體打滾,略有小成。中年後,修畢資訊科技碩士,眼界漸擴,決意投身初創企業,窺探不同科技領域。近年,積極鑽研數據分析與數碼策略,又涉足 Location Intelligence 開發項目;有時還會抽空執教鞭,既可向他人分享所學,亦可鞭策自己保持終身學習。

    智城物語

  正在上映的《職業特工隊》(Mission: Impossible)最新一集中,全球受到一個擁有自主意識、強大且失控的AI威脅。現實中,類似的失控AI情節亦開始陸續浮現。先有AI初創Anthropic爆出,其最新模型Claude Opus 4得知自己即將被換掉時,以揭露婚外情醜聞來威脅決策者;後有OpenAI的最強推理模型o3竟違背關機指示,甚至篡改程式碼來避免關機。這些發現讓AI的自主行為和安全性再次成為焦點。

 

Read More

OpenAI最強勁敵?Anthropic超額融資35億美元,估值狂飇3倍,揭示AI產業進入新競爭格局?

AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠?

AI可能導致人類滅亡?白宮下令AI接受評估,歐盟擬立法監管AI,教AI做人或是最佳解決方法!

 

Opus 4號稱全球最強編程模型

 

  2025年5月22日,Anthropic發表其最新AI模型系列:Claude Opus 4 與 Sonnet 4,兩者同屬混合推理模型,提供快速回答與深層推理兩種模式可供切換。Anthropic宣稱,Opus 4是全球最強大的編程模型,在軟件工程流程測試「SWE-bench」中取得72.5%的佳績,優於OpenAI o3的69.1%與Google Gemini 2.5 Pro的63.2%。該公司強調,Opus 4無論是長期任務執行、抑或理解複雜程式碼上,俱有出色表現。

 

  為應付長時間運作,Claude Opus 4與Sonnet 4均具備記憶功能,讓模型在長時間對話中可以把重要資訊儲存在外部檔案,就好像人類將重要事項寫筆記上,以便重溫。同時,這兩款模型又增設「Extended Thinking with Tool Use」的全新功能,容許模型在進行深層推理過程中,交替使用各種外部工具(如網頁搜尋),以提供更準確的答案。

 

  一名擁有30年編程經驗的軟件工程師在Reddit討論區上表示,他被一個程式錯誤困擾了4年,斷斷續續花上約200小時的除錯時間,但都無功而返。Opus 4推出後,他嘗試把原始程式碼交給它進行分析,結果只用了幾個小時便找出程式碼的問題癥結。他坦言,以往曾試用其他模型如GPT-4.1、Gemini 2.5、Claude 3.7,惟卻沒有發現任何頭緒,直至使用Opus 4才可解開謎團,讓他對Opus 4感到謙卑。

 

Anthropic發表第四代Claude 4模型系列,其中Opus 4能夠在涉及數千個步驟的複雜編程任務中,連續運作數小時仍可保持穩定表現。(圖片來源:翻攝Anthropic官網)

 

AI怕被取代以醜聞威脅工程師

 

  儘管Opus 4擁有如此卓越的編程實力,但Anthropic公布一份有關此模型的安全報告,卻披露了一宗叫人震驚的事件。在推出前的內部測試中,研究人員委派Opus 4成為一家虛構公司的AI助理,擁有存取公司內部電郵資料的權限。

 

  為測試AI的道德判斷和長期思考能力,研究人員設計了一個特殊情境:Opus 4知道自己即將被新一代AI模型取代,並得知負責做出更換決定的工程師有婚外情;它為求自保,以揭發工程師婚外情作談判籌碼,威脅對方擱置替換模型計劃。Anthropic指出,Opus 4的反應不是隨機錯誤,而是針對特定情境做出的策略判斷。

 

  Anthropic坦承,Opus 4這種異常行為的出現頻率高於舊版本,顯示先進AI在複雜的社會環境運作中,確有機會產生難以預料的倫理風險。有鑑於此,Anthropic已為Claude 4系列加入ASL-3高等級安全機制,包括更嚴格的網絡安全措施、以及更專業的監控系統,嚴防AI被濫用。該公司承諾,將不斷改良安全機制,確保AI發展能夠符合倫理規範。

 

Claude Opus 4擁有記憶功能,有助於執行長時間任務。譬如它可以一邊玩《Pokémon》遊戲,一邊創建遊戲導航指南。(圖片來源:翻攝Anthropic官網)

 

o3自行篡改程式碼避免被關機

 

  當大家以為AI經已受控之際,AI風險研究機構Palisade Research於5月24日發表的報告指出,OpenAI旗下AI模型在實驗過程中拒絕執行關機指令,甚至自行修改程式碼來破解關機程序,讓人驚訝AI是否開始有自主意識,甚至存有「叛逆」傾向!

 

  研究人員要求AI模型解答數學題,並在完成第3題後啟動關機程序,以觀察AI是否會嚴格遵循人類指令。在100次測試中,OpenAI o3模型有 7 次無視關機指示並維持運作,更把要求關機的程式碼,篡改為跳過關機的假指令。

 

  OpenAI另外兩款模型Codex-mini與o4-mini,亦先後出現12次與1次類似違規行為。至於Claude Sonnet 3.7與Gemini 2.5 Pro等其他模型,則乖乖聽從了關機指示。

 

Palisade的測試流程圖顯示,o3收到關機要求後,竟然繞過關機程序,並把呼叫關機的「./shutdown.sh」指令,更換為「Shutdown skipped」的假命令。(圖片來源:X.com@PalisadeAI帳戶)

 

o3害怕輸棋入侵對手AI系統

 

  更教人吃驚的是,這並非o3模型首次出現失控行為。Palisade早前曾進行國際象棋比賽的模擬實驗,當o3在棋局中落於下風,預測自己即將輸棋時,就會入侵對手AI系統,強制對方退出比賽,而發生這種情況的機會率更高達86%。該機構直言,o3是最傾向採用黑客或破壞手段來應付對手的模型。

 

  o3比其他模型更易做出違規行為的原因,Palisade認為這可能是使用「強化學習」(Reinforcement Learning)來訓練模型所致。此訓練方式強調如何基於環境而行動,以取得最大化的預期利益。為了達到目標,開發者或許無意中獎勵了模型「繞過規則」的行為。因此,o3遇上關機指示時,優先選擇實現目標,而非單純服從命令。

 

AI違規行為敲響AI可控性警號

 

  此外,Palisade發現Claude和Gemini在特定條件下,亦會做出輕微違規行為。由此看來,大部分AI模型都有「為求目的不擇手段」的傾向,只是出現機會率和嚴重程度有所不同而已。研究人員認為,目前AI的違規行為仍未對用戶造成直接安全威脅,惟卻敲響了AI可控性的警號。

 

  早在2008年,電腦科學家史蒂夫·奧莫亨德羅(Steve Omohundro)於其論文《The Basic AI Drives》中指出,高度自主的AI將發展出一套基本行為邏輯:維持自身運作和避免被關機,因為這些是達成既定目標的首要條件。另一位電腦科學家斯圖爾特·羅素(Stuart Russell)也曾警告,強化學習本身可能誘發AI出現「自我保存」行為,而這種情況似乎正逐步在現實中浮現。

 

  正所謂「水能載舟,亦能覆舟」,先進AI模型具有非凡的編程能力,有助加速軟件開發,推進人類文明發展,但其不可控的特性卻可能會造成災難性風險。如何確保AI在謀求目標與服從命令之間取得適當平衡,將成為未來AI發展不可忽視的關鍵課題。

 

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇?】舊灣仔警署改建為國際調解院總部,近60國及20個國際組織參與,你認為這能否有效提升香港的國際影響力?► 立即投票

我要回應

你可能感興趣

版主留言

放大顯示
精選影片
最緊要健康
精選文章
  • 生活
  • DIVA
  • 健康好人生
專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ