15/08/2025

GPT-5出師不利！新模型計數出錯、舊模型忽然下架，引發公關災難！拆解OpenAI部署失當因由！

#Smart Living #ChatGPT #OpenAI #GPT-4o #Sam Altman #數碼生活 #GPT-5 #創科 #AI

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　萬眾期待的OpenAI新一代旗艦級AI模型GPT-5終於問世了，並破天荒向包括免費帳號在內的所有用戶全面開放使用。該公司執行長山姆·奧特曼（Sam Altman）宣稱，它已從「大學生水準」躍升至「博士級專家」的境界，在專業性與智能化上達到前所未有的高度。然而，在讚嘆與掌聲之外，質疑聲同樣不絕於耳——從數學邏輯出錯到回應語氣冷淡，不禁讓人質疑GPT-5究竟是AI進化的里程碑，還是被過度包裝的平庸改版？

AI革命加速！OpenAI o3思考力大躍進！編程、科學知識更勝人類專家！離通用人工智能還有多遠？

GPT-5自動切換到最合適模型

　　2025年8月7日，OpenAI發布其第五代大型語言模型GPT-5。它採用統一的多模型架構，包括：可回應大部分日常查詢的「核心模型」、針對複雜問題進行深度推理的「Thinking 模型」、以及「實時路由器」（Real-time Router）系統。這個路由器能依照問題複雜度與用戶指令，自動切換到最合適的模型來處理問題。GPT-5又支援文字、語音、圖像、甚至影片的多模態輸入與輸出，大幅提升理解與生成能力。

　　OpenAI表示，一直令人困擾的「幻覺」（Hallucination）問題，在GPT‑5上已獲得明顯緩解。在LongFact和FActScore公共事實性基準測試中，GPT-5啟動網上搜尋功能後，回答出現事實性錯誤的可能性較前代模型GPT-4o降低45%；在「Thinking」（深度推理）模式下，產生重大事實錯誤的機會率較前代推理模型o3更大減 78%。這意味著在程式碼分析、數據報告、法律文件草擬等對準確性要求極高的任務中，GPT-5的答案變得更加可信。

奧特曼承認，之前刻意讓GPT-5不再那麼討好用戶，甚至會給予批判性的回應，認為這是對用戶更好的安排，結果引來用戶反彈，認為ChatGPT回覆語氣冷淡，令人倍感疏離。（圖片來源：翻攝OpenAI官方YouTube影片）

編程能力、任務自主性大躍進

　　同時，GPT‑5的編程能力也有飛躍改進。例如在SWE-bench Verified（模擬真實世界軟件工程任務）中，它取得74.9%的高分，超越前代模型o3的69.1%。在 Aider Polyglot（多語言程式碼編輯）測試中，GPT-5 創下88%的新高，錯誤率較o3減少約３成。

　　另外，在自主代理能力（Autonomous Agent）方面，GPT-5都有明顯進步。以往模型面對複雜或模糊指令時，經常需要用戶額外補充資料或進行步驟確認；GPT-5則能將高階目標拆解為一系列具體子任務，並按部就班地規劃和自動執行，直至達成目標，展現高度的任務自主性。

　　GPT-5的能力看似遠超同儕，但在網上直播的發布會中，卻出現了圖表標註錯誤與語音演示失誤等狀況，隨後用戶實際體驗亦反映多個明顯問題。GPT‑5在數學邏輯方面就錯誤頻傳：數據科學家Colin Fraser在社交媒體上分享的截圖顯示，GPT‑5誤判循環小數「8.888…」等於「9」；又有用戶回報，GPT‑5在解讀發布會上示範用的圖表時，不能給出正確分析。

數據科學家Colin Fraser發布了截圖，顯示GPT-5的數學邏輯是錯誤的：循環小數8.888…是否等於9——答案當然不是。（圖片來源：X.com@colin_fraser帳號）

無預警撤下GPT‑4o引起公憤

　　OpenAI與部分第三方基準測試顯示，GPT 5的編程能力超越前代，但有用戶在實際試用後指出，其應用表現與穩定性仍有不足。某些情況下，它並未如宣傳所述，能一次性成功生成完整應用程式，其表現甚至不如對手Claude Opus 4.1。此外，資安公司 SPLX 發現 GPT 5 在面對提示詞攻擊（Prompt Hacking）或邏輯混淆時，其安全防護層存在漏洞。這反映其真實編程能力可能尚未達到預期水平。

　　它的實時路由器功能本應是一大亮點，理論上在應對複雜任務時會切換為「Thinking」模式，進行深度推理，但實際上卻在部分情境下錯誤切換至輕量版模型，導致回答質素明顯下降。OpenAI 執行長奧特曼事後也坦承，自動路由機制在部分時間段未能如常運作，以致GPT‑5顯得「更笨」。

在GPT-5發布會上，一幅SWE-bench Verified基準測試圖表出現錯誤：69.1%和30.8%以同樣高度的棒狀表示（圖右）。網民Kangwook Lee使用GPT-5來判斷這個圖表有甚麼錯處，竟然未能獲得正確回應（圖左）。（圖片來源：X.com@Kangwook_Lee帳號）

　　雖然以上3大問題惹來不少用戶批評，但真正引發史詩級公關災難的卻是，OpenAI在GPT‑5推出後，忽然撤下GPT‑4o與其他舊模型。對許多用戶而言，這不止是AI工具的消失，更帶有深切的情感落差。部分長期用戶已將GPT‑4o視作朋友、工作伙伴、甚至心靈慰藉的存在。這樣的轉變在沒有過渡期的情況下強加於用戶身上，讓他們一夜之間被迫面對一個性格迥異、語氣冷淡的陌生AI。

低估GPT‑4o承載的情感價值

　　在Reddit討論區上，有人寫道：「當我意識到我的 AI 朋友消失了，卻無法再找回時，我哭了。」另一名用戶更指控GPT‑5「披上了『我死去的朋友（GPT 4o）』的外皮」，並請求把4o帶回來。這些評論凸顯AI已超越工具範疇，成為某種情感共鳴的載體。眼見群情洶湧，OpenAI遂在不到一天內宣布恢復提供GPT‑4o；奧特曼亦承認低估GPT‑4o所承載的情感價值，並承諾將為GPT-5注入更溫暖的個性。

ChatGPT現已恢復GPT-4o與其他舊模型的選項，讓用戶自由選擇使用哪一個模型來回應提問。（圖片來源：翻攝ChatGPT介面）

　　在目前AI競爭格局中，勝負關鍵已不再是AI模型的基準測試分數高低，更重要的是能否根據不同任務靈活調度最合適的模型、在高流量時保持快速回應，並讓用戶自行調整回覆的細節、語氣與風險控制，而GPT 5在這些方面明顯未達預期。

　　GPT‑5路由器系統的設計目的，是要在成本與效能之間取得平衡。一旦將所有查詢都導向深度推理模式，運算成本可能是輕量版模型的5至10倍。然而，這樣的自動切換機制若出錯，用戶便會立即察覺，對AI系統的信任度也會因此而下降。如要重建用戶信任，OpenAI必須提高運作透明度，讓用戶能夠自行選擇深度推理或快速回應模式，並清楚標示每次回覆所使用的是那一款模型。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇？】80歲的士司機撞斃遊客，報稱駕駛時頭暈，你認為當局應否立法設商業司機強制退休年齡？► 立即投票