美團(03690)LongCat團隊今日發布並開源LongCat-Video視頻生成模型,旨在以視頻生成路徑探索「世界模型」,為自動駕駛、具身智能等場景夯實技術基礎。
該模型基於DiT架構,以「條件幀數量」區分任務,原生支持文生、圖生視頻及視頻續寫,形成任務閉環,可生成720p/30fps高清內容,原生支持5分鐘級長視頻輸出,通過多重技術規避時序與物理合理性問題。其136億參數基座模型在文生、圖生視頻任務中達開源SOTA(最先進水平),VBench等測試表現優異。
針對高分辨率、高幀率視頻生成的計算瓶頸,該模型通過「二階段粗到精生成(C2F)+塊稀疏注意力(BSA)+模型蒸餾」三重優化,視頻推理速度提升至10.1倍。
《經濟通通訊社27日專訊》
【香港好去處】2025去邊最好玩?etnet為你提供全港最齊盛事活動,所有資訊盡在掌握!► 即睇

























