• |
  • 極速報價
  • |
  • etnet專輯
    etnet專輯
  • 會員
  • 產品服務 / 串流版
  • 設定

15/08/2025

GPT-5出師不利!新模型計數出錯、舊模型忽然下架,引發公關災難!拆解OpenAI部署失當因由!

  • 加入最愛專欄
  • 收藏文章
  • 方展策

    方展策

    少年時,曾研習 Geographic Information System,可惜學無所成,僥倖畢業。成年後,誤打誤撞進入傳媒圈子,先後在印刷、電子、網絡媒體打滾,略有小成。中年後,修畢資訊科技碩士,眼界漸擴,決意投身初創企業,窺探不同科技領域。近年,積極鑽研數據分析與數碼策略,又涉足 Location Intelligence 開發項目;有時還會抽空執教鞭,既可向他人分享所學,亦可鞭策自己保持終身學習。

    智城物語

  萬眾期待的OpenAI新一代旗艦級AI模型GPT-5終於問世了,並破天荒向包括免費帳號在內的所有用戶全面開放使用。該公司執行長山姆·奧特曼(Sam Altman)宣稱,它已從「大學生水準」躍升至「博士級專家」的境界,在專業性與智能化上達到前所未有的高度。然而,在讚嘆與掌聲之外,質疑聲同樣不絕於耳——從數學邏輯出錯到回應語氣冷淡,不禁讓人質疑GPT-5究竟是AI進化的里程碑,還是被過度包裝的平庸改版?

 

Read More

OpenAI 2025猛攻!聯手軟銀、重組產品、自研晶片,拆解奧特曼擴張AI霸權的3大板斧!

AI革命加速!OpenAI o3思考力大躍進!編程、科學知識更勝人類專家!離通用人工智能還有多遠?

 

GPT-5自動切換到最合適模型

 

  2025年8月7日,OpenAI發布其第五代大型語言模型GPT-5。它採用統一的多模型架構,包括:可回應大部分日常查詢的「核心模型」、針對複雜問題進行深度推理的「Thinking 模型」、以及「實時路由器」(Real-time Router)系統。這個路由器能依照問題複雜度與用戶指令,自動切換到最合適的模型來處理問題。GPT-5又支援文字、語音、圖像、甚至影片的多模態輸入與輸出,大幅提升理解與生成能力。

 

  OpenAI表示,一直令人困擾的「幻覺」(Hallucination)問題,在GPT‑5上已獲得明顯緩解。在LongFact和FActScore公共事實性基準測試中,GPT-5啟動網上搜尋功能後,回答出現事實性錯誤的可能性較前代模型GPT-4o降低45%;在「Thinking」(深度推理)模式下,產生重大事實錯誤的機會率較前代推理模型o3更大減 78%。這意味著在程式碼分析、數據報告、法律文件草擬等對準確性要求極高的任務中,GPT-5的答案變得更加可信。

 

奧特曼承認,之前刻意讓GPT-5不再那麼討好用戶,甚至會給予批判性的回應,認為這是對用戶更好的安排,結果引來用戶反彈,認為ChatGPT回覆語氣冷淡,令人倍感疏離。(圖片來源:翻攝OpenAI官方YouTube影片)

 

編程能力、任務自主性大躍進

 

  同時,GPT‑5的編程能力也有飛躍改進。例如在SWE-bench Verified(模擬真實世界軟件工程任務)中,它取得74.9%的高分,超越前代模型o3的69.1%。在 Aider Polyglot(多語言程式碼編輯)測試中,GPT-5 創下88%的新高,錯誤率較o3減少約3成。

 

  另外,在自主代理能力(Autonomous Agent)方面,GPT-5都有明顯進步。以往模型面對複雜或模糊指令時,經常需要用戶額外補充資料或進行步驟確認;GPT-5則能將高階目標拆解為一系列具體子任務,並按部就班地規劃和自動執行,直至達成目標,展現高度的任務自主性。

 

  GPT-5的能力看似遠超同儕,但在網上直播的發布會中,卻出現了圖表標註錯誤與語音演示失誤等狀況,隨後用戶實際體驗亦反映多個明顯問題。GPT‑5在數學邏輯方面就錯誤頻傳:數據科學家Colin Fraser在社交媒體上分享的截圖顯示,GPT‑5誤判循環小數「8.888…」等於「9」;又有用戶回報,GPT‑5在解讀發布會上示範用的圖表時,不能給出正確分析。 

 

數據科學家Colin Fraser發布了截圖,顯示GPT-5的數學邏輯是錯誤的:循環小數8.888…是否等於9——答案當然不是。(圖片來源:X.com@colin_fraser帳號)

 

無預警撤下GPT‑4o引起公憤

 

  OpenAI與部分第三方基準測試顯示,GPT 5的編程能力超越前代,但有用戶在實際試用後指出,其應用表現與穩定性仍有不足。某些情況下,它並未如宣傳所述,能一次性成功生成完整應用程式,其表現甚至不如對手Claude Opus 4.1。此外,資安公司 SPLX 發現 GPT 5 在面對提示詞攻擊(Prompt Hacking)或邏輯混淆時,其安全防護層存在漏洞。這反映其真實編程能力可能尚未達到預期水平。

 

  它的實時路由器功能本應是一大亮點,理論上在應對複雜任務時會切換為「Thinking」模式,進行深度推理,但實際上卻在部分情境下錯誤切換至輕量版模型,導致回答質素明顯下降。OpenAI 執行長奧特曼事後也坦承,自動路由機制在部分時間段未能如常運作,以致GPT‑5顯得「更笨」。

 

在GPT-5發布會上,一幅SWE-bench Verified基準測試圖表出現錯誤:69.1%和30.8%以同樣高度的棒狀表示(圖右)。網民Kangwook Lee使用GPT-5來判斷這個圖表有甚麼錯處,竟然未能獲得正確回應(圖左)。(圖片來源:X.com@Kangwook_Lee帳號)

 

  雖然以上3大問題惹來不少用戶批評,但真正引發史詩級公關災難的卻是,OpenAI在GPT‑5推出後,忽然撤下GPT‑4o與其他舊模型。對許多用戶而言,這不止是AI工具的消失,更帶有深切的情感落差。部分長期用戶已將GPT‑4o視作朋友、工作伙伴、甚至心靈慰藉的存在。這樣的轉變在沒有過渡期的情況下強加於用戶身上,讓他們一夜之間被迫面對一個性格迥異、語氣冷淡的陌生AI。

 

低估GPT‑4o承載的情感價值

 

  在Reddit討論區上,有人寫道:「當我意識到我的 AI 朋友消失了,卻無法再找回時,我哭了。」另一名用戶更指控GPT‑5「披上了『我死去的朋友(GPT 4o)』的外皮」,並請求把4o帶回來。這些評論凸顯AI已超越工具範疇,成為某種情感共鳴的載體。眼見群情洶湧,OpenAI遂在不到一天內宣布恢復提供GPT‑4o;奧特曼亦承認低估GPT‑4o所承載的情感價值,並承諾將為GPT-5注入更溫暖的個性。

 

ChatGPT現已恢復GPT-4o與其他舊模型的選項,讓用戶自由選擇使用哪一個模型來回應提問。(圖片來源:翻攝ChatGPT介面)

 

  在目前AI競爭格局中,勝負關鍵已不再是AI模型的基準測試分數高低,更重要的是能否根據不同任務靈活調度最合適的模型、在高流量時保持快速回應,並讓用戶自行調整回覆的細節、語氣與風險控制,而GPT 5在這些方面明顯未達預期。

 

  GPT‑5路由器系統的設計目的,是要在成本與效能之間取得平衡。一旦將所有查詢都導向深度推理模式,運算成本可能是輕量版模型的5至10倍。然而,這樣的自動切換機制若出錯,用戶便會立即察覺,對AI系統的信任度也會因此而下降。如要重建用戶信任,OpenAI必須提高運作透明度,讓用戶能夠自行選擇深度推理或快速回應模式,並清楚標示每次回覆所使用的是那一款模型。

 

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇?】80歲的士司機撞斃遊客,報稱駕駛時頭暈,你認為當局應否立法設商業司機強制退休年齡?► 立即投票

我要回應

你可能感興趣

版主留言

放大顯示
精選影片
最緊要健康
精選文章
  • 生活
  • DIVA
  • 健康好人生
專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ