2025-06-20

後ChatGPT時代來臨！Meta V-JEPA 2助AI理解現實環境，世界模型將成AI革命新引爆點？

#Smart Living #李飛飛 #ChatGPT #智慧生活 #楊立昆 #AI #創科 #Meta V-JEPA 2

　　自ChatGPT全球爆紅後，AI研究焦點主要集中在大型語言模型上。那麼引領下一波AI革命的關鍵技術將會是甚麼？「世界模型」（Large World Model，LWM）或許是其中一個有力候選者。Meta近日發表最新世界模型「V-JEPA 2」，大幅提升AI對物理世界的理解與預測能力。究竟世界模型與大型語言模型有甚麼不同？為何「電腦界諾貝爾獎」圖靈獎得主楊立昆、AI教母李飛飛等權威學者都力推此技術？它對自駕車與機械人發展又會帶來甚麼影響？

Meta AI開源逆襲！朱克伯格推最強免費AI模型Llama 3.1！衝擊OpenAI閉源AI生態圈

Meta世界模型指明AGI新方向

　　2025年6月11日，Meta宣布推出世界模型V-JEPA 2（Video Joint Embedding Predictive Architecture 2），宣稱它能更好地理解現實中的物理世界和物體運動，並強調它不但可以強化機械人與自駕車技術，還能為整個AI領域指明通往通用人工智能（Artificial General Intelligence，AGI）的新方向。

　　根據Meta公布的基準測試資料，V-JEPA 2推理速度比同類型的世界模型NVIDIA Cosmos快上30倍。這讓一直對大型語言模型（Large Language Model，LLM）持反對意見的圖靈獎得主、Meta首席AI科學家楊立昆（Yann LeCun），終於可以吐氣揚眉。

　　當ChatGPT引領的生成式AI浪潮席捲全球之際，楊立昆竟然公開表示，對LLM的興趣已逐漸減退，甚至預言5年內將沒人再使用LLM，建議年輕開發者應轉為研究下一代AI系統。這番言論惹來不少網民的質疑，更有人嘲笑他在資源豐富的Meta實驗室中，研發出來的大型語言模型Llama，表現未如理想。

楊立昆指出，世界模型其實是人類內心對世界運作方式的模擬器。它能夠預測行為後果，繼而規劃應對行動，這正是人類進行推理的核心機制。（圖片來源：翻攝Meta官方影片）

楊立昆利用影片訓練世界模型

　　儘管如此，楊立昆依然未有退縮，繼續批評LLM。他指出，目前AI業界對LLM的研發聚焦於追求更大型的數據集、更強大的運算力，這絕非最具前瞻性的研究方向。他認為，LLM的發展已近天花板，未來AI技術突破關鍵將在於世界模型。V-JEPA 2的誕生，可說為楊立昆的言論提供最有力的證明。

　　驅動ChatGPT、Gemini等AI工具的LLM，是透過大量語言資料做訓練，從而理解現實世界。世界模型則是以影片進行訓練，但不是讓AI學習畫面中的物體動作，而是學習影片中的抽象表徵（Representation）——也就是理解真實世界的抽象物理邏輯。

　　Meta向V-JEPA 2灌輸超過100萬小時網上影片，內容涵蓋日常動作、人物與物體互動、各種場景與光影變化等。楊立昆解釋，LWM就像是現實世界的抽象數碼雙胞胎，可讓AI用來參考，弄懂物理規律，跟著預測其行動在現實環境中會造成甚麼後果，然後規劃出一組行動流程來應對現況和實現任務。這種能力對必需在複雜環境中導航的自駕車和機械人尤其重要。

Meta V-JEPA 2具備預測能力，例如看到平底鍋上已煎好的荷包蛋，就會預測下一步行動是拿起碟子來盛載荷包蛋。（圖片來源：翻攝Meta官方影片）

李飛飛成立初創研發空間智慧

　　除楊立昆外，近年愈來多AI研究人員埋首於世界模型研發。有「AI教母」之稱的史丹福大學教授李飛飛，在2024年1月成立AI初創公司World Labs，致力於開發能理解物理世界架構的世界模型；同年９月，已成功募資2.3億美元（約17.94億港元）。

　　李飛飛表示，希望將AI模型帶領到3D立體世界，並賦予它「空間智慧」（Spatial Intelligence），讓其運作更像人類思考模式。她指出，大部分生物透過眼睛來認識自己身處的環境，然後逐漸發展出理解現實世界、與外在環境互動的能力，這種能力可稱為空間智慧。藉由經驗積累，生物對物理規律有所理解，逐漸增強其空間智慧，讓牠們能夠在陌生環境中覓路闖蕩。這種導航技能正是當前LLM無法完整掌握的能力。

楊立昆表示，世界模型將開啟機械人領域的新時代，讓實體AI在現實世界中能協助處理家務和各種任務。（圖片來源：翻攝Meta官方影片）

　　LLM的語言處理和生成能力確實叫人驚艷，但李飛飛認為，語言只適用於傳遞思想和信息，不足以完整捕捉萬事萬物的物理結構，例如蛋白質折疊過程、DNA雙螺旋結構等，都不能單靠語言來描述。再者，人類在進化出語言能力之前，已藉著空間智慧與現實環境互動，培養出物理直覺：譬如把一顆球拋向空中，人們知道地心吸力會把它拉回來，只需在下方伸手接球即可；在行走途中碰到障礙物，人們不用多作思考，都自然會懂得閃避。

李飛飛相信，空間智慧在生物進化過程中扮演重要角色，無論是人類或動物皆擁有這種智慧，故此直言：「沒有空間智慧，AI就不完整。」（圖片來源：史丹福大學官網）

Google與NVIDIA搶先布局

　　由此可見，AI如要應對現實環境，只靠LLM絕對不成，非要依賴具備空間智慧的LWM不可。李飛飛認為，如今AI已能實現語言處理能力，下一個必需攻克的技術關卡將是空間智慧，於是她決定投入開發一個可以掌握空間智慧、生成虛擬環境的世界模型，讓自駕車與機械人通過模擬場景進行學習，加快研發進程。

　　在世界模型的賽道上，除Meta與World Labs外，主要玩家還有Google與輝達（NVIDIA）。Google DeepMind於2024年2月已發布初代世界模型「Genie」；10個月後，推出第二代模型「Genie 2」，能夠生成3D空間，用作訓練AI代理。NVIDIA在2025年1月發表世界模型「Cosmos」，利用2,000萬小時影片進行學習，能夠生成依循物理法則的虛擬動態影像，用於訓練自駕車與機械人。

　　在Meta、Google、NVIDIA三大科技巨頭積極推進下，加上楊立昆、李飛飛兩大頂級專家力撐，世界模型已漸被AI業界認同是邁向AGI的關鍵技術之一，可是其發展卻非坦途。訓練LWM涉及大量高質影片，惟這類內容大都受到版權保護，要獲取使用權殊不容易，而且成本也很高。另外，世界模型對運算力的需求遠高於LLM，現今AI基建未必能支撐其全面運行。唯有寄望不久將來LWM能夠展現比LLM更高的商業價值，這兩大難關方可迎刃而解。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

樂本健 x etnet健康網購 | 憑獨家優惠碼【ETN2508】，購物滿$500即送免費禮品► 了解詳情