2025-06-20
後ChatGPT時代來臨!Meta V-JEPA 2助AI理解現實環境,世界模型將成AI革命新引爆點?
自ChatGPT全球爆紅後,AI研究焦點主要集中在大型語言模型上。那麼引領下一波AI革命的關鍵技術將會是甚麼?「世界模型」(Large World Model,LWM)或許是其中一個有力候選者。Meta近日發表最新世界模型「V-JEPA 2」,大幅提升AI對物理世界的理解與預測能力。究竟世界模型與大型語言模型有甚麼不同?為何「電腦界諾貝爾獎」圖靈獎得主楊立昆、AI教母李飛飛等權威學者都力推此技術?它對自駕車與機械人發展又會帶來甚麼影響?
Read More
械人ChatGPT時刻將臨?NVIDIA世界模型Cosmos加速全球Robot開發,但有侵權隱憂!
Meta AI開源逆襲!朱克伯格推最強免費AI模型Llama 3.1!衝擊OpenAI閉源AI生態圈
Meta世界模型指明AGI新方向
2025年6月11日,Meta宣布推出世界模型V-JEPA 2(Video Joint Embedding Predictive Architecture 2),宣稱它能更好地理解現實中的物理世界和物體運動,並強調它不但可以強化機械人與自駕車技術,還能為整個AI領域指明通往通用人工智能(Artificial General Intelligence,AGI)的新方向。
根據Meta公布的基準測試資料,V-JEPA 2推理速度比同類型的世界模型NVIDIA Cosmos快上30倍。這讓一直對大型語言模型(Large Language Model,LLM)持反對意見的圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),終於可以吐氣揚眉。
當ChatGPT引領的生成式AI浪潮席捲全球之際,楊立昆竟然公開表示,對LLM的興趣已逐漸減退,甚至預言5年內將沒人再使用LLM,建議年輕開發者應轉為研究下一代AI系統。這番言論惹來不少網民的質疑,更有人嘲笑他在資源豐富的Meta實驗室中,研發出來的大型語言模型Llama,表現未如理想。
楊立昆指出,世界模型其實是人類內心對世界運作方式的模擬器。它能夠預測行為後果,繼而規劃應對行動,這正是人類進行推理的核心機制。(圖片來源:翻攝Meta官方影片)
楊立昆利用影片訓練世界模型
儘管如此,楊立昆依然未有退縮,繼續批評LLM。他指出,目前AI業界對LLM的研發聚焦於追求更大型的數據集、更強大的運算力,這絕非最具前瞻性的研究方向。他認為,LLM的發展已近天花板,未來AI技術突破關鍵將在於世界模型。V-JEPA 2的誕生,可說為楊立昆的言論提供最有力的證明。
驅動ChatGPT、Gemini等AI工具的LLM,是透過大量語言資料做訓練,從而理解現實世界。世界模型則是以影片進行訓練,但不是讓AI學習畫面中的物體動作,而是學習影片中的抽象表徵(Representation)——也就是理解真實世界的抽象物理邏輯。
Meta向V-JEPA 2灌輸超過100萬小時網上影片,內容涵蓋日常動作、人物與物體互動、各種場景與光影變化等。楊立昆解釋,LWM就像是現實世界的抽象數碼雙胞胎,可讓AI用來參考,弄懂物理規律,跟著預測其行動在現實環境中會造成甚麼後果,然後規劃出一組行動流程來應對現況和實現任務。這種能力對必需在複雜環境中導航的自駕車和機械人尤其重要。
Meta V-JEPA 2具備預測能力,例如看到平底鍋上已煎好的荷包蛋,就會預測下一步行動是拿起碟子來盛載荷包蛋。(圖片來源:翻攝Meta官方影片)
李飛飛成立初創研發空間智慧
除楊立昆外,近年愈來多AI研究人員埋首於世界模型研發。有「AI教母」之稱的史丹福大學教授李飛飛,在2024年1月成立AI初創公司World Labs,致力於開發能理解物理世界架構的世界模型;同年9月,已成功募資2.3億美元(約17.94億港元)。
李飛飛表示,希望將AI模型帶領到3D立體世界,並賦予它「空間智慧」(Spatial Intelligence),讓其運作更像人類思考模式。她指出,大部分生物透過眼睛來認識自己身處的環境,然後逐漸發展出理解現實世界、與外在環境互動的能力,這種能力可稱為空間智慧。藉由經驗積累,生物對物理規律有所理解,逐漸增強其空間智慧,讓牠們能夠在陌生環境中覓路闖蕩。這種導航技能正是當前LLM無法完整掌握的能力。
楊立昆表示,世界模型將開啟機械人領域的新時代,讓實體AI在現實世界中能協助處理家務和各種任務。(圖片來源:翻攝Meta官方影片)
LLM的語言處理和生成能力確實叫人驚艷,但李飛飛認為,語言只適用於傳遞思想和信息,不足以完整捕捉萬事萬物的物理結構,例如蛋白質折疊過程、DNA雙螺旋結構等,都不能單靠語言來描述。再者,人類在進化出語言能力之前,已藉著空間智慧與現實環境互動,培養出物理直覺:譬如把一顆球拋向空中,人們知道地心吸力會把它拉回來,只需在下方伸手接球即可;在行走途中碰到障礙物,人們不用多作思考,都自然會懂得閃避。
李飛飛相信,空間智慧在生物進化過程中扮演重要角色,無論是人類或動物皆擁有這種智慧,故此直言:「沒有空間智慧,AI就不完整。」(圖片來源:史丹福大學官網)
Google與NVIDIA搶先布局
由此可見,AI如要應對現實環境,只靠LLM絕對不成,非要依賴具備空間智慧的LWM不可。李飛飛認為,如今AI已能實現語言處理能力,下一個必需攻克的技術關卡將是空間智慧,於是她決定投入開發一個可以掌握空間智慧、生成虛擬環境的世界模型,讓自駕車與機械人通過模擬場景進行學習,加快研發進程。
在世界模型的賽道上,除Meta與World Labs外,主要玩家還有Google與輝達(NVIDIA)。Google DeepMind於2024年2月已發布初代世界模型「Genie」;10個月後,推出第二代模型「Genie 2」,能夠生成3D空間,用作訓練AI代理。NVIDIA在2025年1月發表世界模型「Cosmos」,利用2,000萬小時影片進行學習,能夠生成依循物理法則的虛擬動態影像,用於訓練自駕車與機械人。
在Meta、Google、NVIDIA三大科技巨頭積極推進下,加上楊立昆、李飛飛兩大頂級專家力撐,世界模型已漸被AI業界認同是邁向AGI的關鍵技術之一,可是其發展卻非坦途。訓練LWM涉及大量高質影片,惟這類內容大都受到版權保護,要獲取使用權殊不容易,而且成本也很高。另外,世界模型對運算力的需求遠高於LLM,現今AI基建未必能支撐其全面運行。唯有寄望不久將來LWM能夠展現比LLM更高的商業價值,這兩大難關方可迎刃而解。
《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。
送禮活動浪接浪!想緊貼著數活動消息?即Like etnet Facebook專頁!► 立即讚好