騰訊混元發布並開源語音數字人模型

28/05/2025 16:34

　　《經濟通通訊社２８日專訊》騰訊（００７００）旗下騰訊混元發布並開源語音數字人模型（ＨｕｎｙｕａｎＶｉｄｅｏ－Ａｖａｔａｒ），適用於短視頻創作、電商與廣告等多種應用場景，可以生成人物在不同場景下的說話、對話、表演等片段，快速製作產品介紹視頻或多人互動廣告，降低製作成本。目前支持上傳不超過１４秒的音頻進行視頻生成，後續將逐步上線和開源。　　　　ＨｕｎｙｕａｎＶｉｄｅｏ－Ａｖａｔａｒ支援頭肩、半身與全身景別，以及多風格、多物種與雙人場景，面向視頻創作者提供高一致性、高動態性的視頻生成能力。據介紹，使用者可上傳人物圖像與音訊，ＨｕｎｙｕａｎＶｉｄｅｏ－Ａｖａｔａｒ模型會自動理解圖片與音訊，比如人物所在環境、音訊所蘊含的情感等，讓圖中人物自然地說話或唱歌，生成包含自然表情、唇形同步及全身動作的視頻。（ｃｌ）

etnet榮獲HKEX Awards 2024 「最佳證券數據供應商」大獎► 查看詳情