大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

方展策
智城物語

  你曾否想過,單憑一句話或一張照片,即能構建一個可自由探索的3D虛擬世界?「AI教母」李飛飛旗下初創World Labs,推出首個商業化的世界模型「Marble」:用戶只需輸入一段文字描述或上傳圖片,就能瞬間生成可編輯和下載的3D場景。同一時間,「AI教父」楊立昆也辭去Meta職務,準備自行創業,投入世界模型研發。AI界兩大領軍人物均捨棄主流的大型語言模型,轉而押注尚在萌芽階段的世界模型,這將對AI產業的競爭版圖帶來甚麼衝擊?

 

李飛飛推商用世界模型Marble

 

  有「AI教母」之稱的史丹福大學電腦科學系聯合主任李飛飛,2024年1月創辦AI初創公司World Labs,主力研發世界模型(World Model)。一年多後,World Labs於2025年11月12日正式推出首款世界模型產品Marble,強調這是一種「Real-Time Frame Model」(RTFM),可以在單一NVIDIA H100 GPU晶片運行上,實時生成具一致性的3D虛擬世界。

 

  在Marble平台上,用戶可以輸入文字提示或上傳圖片來創建心目中的3D場景;如輸入「提示詞+圖片」時,輸出的效果通常會更佳。用戶可先繪製數張概念設計圖,再上傳至Marble,系統即會將不同視角圖像縫合成一個連貫的3D世界;又或者,用手機拍攝多角度的現場環境照片,輸入後即可重建出近似實景的虛擬場景。

 

大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

李飛飛指出,在未來10年內,AI的下一階段將是研發具有空間智能的系統,為此必須採用比大型語言模型更具野心的技術方案,即是世界模型。(圖片來源:史丹福大學官網)

 

  目前大多數世界模型如NVIDIA Cosmos、Google Genie等,皆聚焦於「即時生成」的立體場景:當用戶在場景中移動時,場景會邊走邊生成,但卻難以長期保存和進行二次創作。相較之下,Marble主打構建穩定、可持續存在的3D世界,而不是一次性的視覺特效;其生成的3D內容不會一路變形或閃爍,能夠減少畫面不一致的問題,有利於用戶後續加工利用。

 

3D場景可直接匯入至遊戲引擎

 

  Marble平台提供了完整的編輯工具,可讓用戶反覆修改3D場景設定,其成品可應用於遊戲、VFX與VR產品。譬如,遊戲開發商可以先透過Marble快速生成室內空間或戶外場景,跟著下載這些3D素材,並匯入至Unreal Engine、Unity等遊戲引擎,然後加入互動邏輯、角色行為、關卡設計與劇情事件,使場景從純視覺資源變為可遊玩的動態世界,有助縮減遊戲開發的時間與成本。

 

  在電影與影集的視覺特效領域,Marble替創作團隊提供一個穩定可控的3D場景。現時AI影片生成工具在鏡頭移動、場景變換時,經常出現鏡頭漂移或物體失真的情況,但Marble生成的場景卻持久存在、形態穩定、不易變形,還可精確控制視角,因此創作者可以像拍攝實景一樣進行攝影運鏡、分鏡排戲,讓影視製作變得更加輕鬆容易。

 

  此外,VR裝置長期面對內容不足的問題:高質的沉浸式虛擬場景非常稀缺,使VR產品難以持續推出新鮮內容來吸引用戶。Marble能快速生成可下載和編輯的3D場景,日後有潛力成為虛擬場景的來源。這不僅為VR用戶創造更多沉浸體驗,也為開發者建立起更具規模的內容庫。由此可見,李飛飛這一步走得非常務實,直接瞄準了媒體與娛樂產業對3D內容的巨大需求。

 

大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

在 Marble 網站(marble.worldlabs.ai)上,用戶不但能瀏覽其他創作者生成的3D世界,也可以輸入提示詞或上傳圖片,產製屬於自己的虛擬場景。(圖片來源:World Labs官網)

 

楊立昆著手成立世界模型初創

 

  在Marble推出後不久,圖靈獎得主、被譽為「AI教父」的楊立昆(Yann LeCun)正式宣布辭去Meta首席AI科學家,準備成立世界模型初創,但其構想中的世界模型,與李飛飛主張的卻是截然不同。楊立昆提出的Joint Embedding Predictive Architecture(JEPA)模型,建立在控制理論與認知科學的基礎上,而不是像RTFM以3D圖像技術為核心。

 

  這類模型的目標並非輸出細緻畫面,而是讓AI能提早推測環境變化,並在採取行動前形成多步思考。楊立昆主張,AI應聚焦於能支援決策的世界狀態與抽象表徵,而不是把運算力浪費在像素渲染上。

 

大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

由於楊立昆與Meta在AI技術路線上存有根本分歧,所以他決定辭職,另行成立AI初創,鑽研他認為更有前途的世界模型。(圖片來源:Meta官網)

 

  JEPA生成的是高度抽象圖形,沒有可供人類欣賞的華麗3D畫面,但其輸出效果卻更接近機械人的「大腦」。依靠對環境結構與因果邏輯的掌握,JEPA能為機械人提供穩定、可擴展的訓練基礎,並支援更符合現實情境的推理與行為學習。

 

市場規模可望達到100兆美元

 

  儘管李飛飛與楊立昆的研發路線雖然南轅北轍,但雙方並不互斥,而是拼湊通用人工智能(Artificial General Intelligence)的不同拼圖。李飛飛的Marble正在解決創作力的瓶頸,讓3D虛擬世界的構建成本趨近於零,這將刺激元宇宙、遊戲與影視產業的新一輪成長。楊立昆則試圖解決行動力的瓶頸,讓機械人能像人類般活動自如;透過JEPA生成的虛擬訓練場,讓機械人學懂如何在複雜的現實世界中導航與操作,有助於推動機械人產業的發展。

 

大型語言模型走到盡頭?AI教母、教父同時押注世界模型,引爆AI產業新一輪技術競賽!

如用戶發現3D世界內某區域細節不足時,可選取該區域執行「擴展」(Expansion)操作,由Marble按照原有風格與幾何規則,自動向外延伸完善內容。(圖片來源:World Labs官網)

 

  隨著OpenAI、Google等新一代大型語言模型的效能飛躍已呈疲態,AI技術競賽的焦點正默默從語言處理轉向對物理世界的深度理解和模擬。輝達(NVIDIA)旗下Omniverse及模擬技術副總裁雷夫‧勒巴雷迪安(Rev Lebaredian)認為,這場以世界模型為核心的技術革命,會把AI從純資訊領域延伸至製造、醫療等實體產業,潛在市場規模可望達到100兆美元(約780兆港元)。

 

Add a comment ...Add a comment ...
最新
人氣
etnet TV
財經新聞
評論
專題透視
生活
DIVA
健康好人生
香港好去處

Comment

暫無回應

最新
人氣
etnet TV
財經新聞
評論
專題透視
生活
DIVA
健康好人生
香港好去處