《經濟通通訊社27日專訊》阿里巴巴(09988)正式發布並開源全新Wan2﹒2-
S2V語音驅動生視頻(Speech-to-Video)模型,專為數字人視頻創作而開發
,公司稱可透過單張圖片及一段音頻,即可生成高品質的動畫視頻。其模型是阿里巴巴
Wan2﹒2視頻生成系列的一員。用戶可在Hugging Face、GitHub以及阿
里雲開源社區ModelScope下載Wan2﹒2-S2V。
阿里稱,Wan2﹒2-S2V支持肖像、半身以及全身等多種畫幅形式的視頻創作,模型
可依據文本指引動態生成人物動作與場景元素,協助專業內容創作者捕捉精準的視覺表現,以滿
足特定敘事與設計需求。
該技術亦支持480P、720P的解像度輸出,既適用於社交媒體內容,也適合專業展示
。
阿里亦提到,另一項重要突破在於模型創新的幀處理技術,可將任意長度的歷史幀壓縮為單
一且緊湊的隱層特徵,大幅降低計算消耗,並成功實現長視頻的穩定生成,從而解決長時段動畫
內容製作中的關鍵挑戰。
阿里巴巴已於2025年2月開源Wan2﹒1系列模型,並於同年7月開源Wan2﹒2
系列模型。至今Wan系列模型在Hugging Face與ModelScope平台的總
下載量已突破690萬次。(rh)
【說說心理話】陳敏兒:人生有很多苦痛的經歷,但我不甘心去白受這些苦,要從中「獲利」,去學習,令苦變得有價值,再跟其他人分享► 即睇