最簡單AI數(shù)字人整合包VideoReTalking,一鍵生成AI數(shù)字人!
最簡單AI數(shù)字人整合包VideoReTalking,一鍵生成AI數(shù)字人!
VideoReTalking:讓視頻中的人物的嘴型與輸入的聲音同步。

你只需要輸入任意一個視頻和一個音頻文件,它能給你生成一個新的視頻,在這個視頻里,人物的嘴型會與音頻同步。VideoReTalking不僅可以讓嘴型與聲音同步,還可以根據(jù)聲音改變視頻中人物的表情。整個過程不需要用戶干預,都是自動完成的。
工作流程:
整個系統(tǒng)的工作流程分為三個主要步驟:面部視頻生成、音頻驅(qū)動的嘴型同步和面部增強。所有這些步驟都是基于學習的方法,并且可以在一個順序的流程中完成,無需用戶干預。
1、面部視頻生成:首先,系統(tǒng)會使用表情編輯網(wǎng)絡(luò)來修改每一幀的表情,使其與一個標準表情模板相符,從而生成一個具有標準表情的視頻。
2、音頻驅(qū)動的嘴型同步:然后,這個視頻和給定的音頻一起被輸入到嘴型同步網(wǎng)絡(luò)中,生成一個嘴型與音頻同步的視頻。
3、面部增強:最后,系統(tǒng)通過身份感知的面部增強網(wǎng)絡(luò)和后處理來提高合成面部的照片真實性。
視頻演示效果:
學術(shù)Fun將上述工具制作成一鍵啟動包,點擊即可使用,避免大家配置Python環(huán)境出現(xiàn)各種問題,下載地址:?https://xueshu.fun/3161/,在此頁面右側(cè)區(qū)域點擊下載!
注意電腦配置如下
:
windows 10/11
8G顯存以上英偉達顯卡
下載使用教程
下載壓縮包 下載地址:?https://xueshu.fun/3161/,
在此頁面右側(cè)區(qū)域點擊下載!
解壓,最好不要有中文路徑,解壓后,如下圖所示,雙擊
啟動.exe
文件運行

瀏覽器訪問http://127.0.0.1:7860/,即可在瀏覽器使用

和其他數(shù)字人項目區(qū)別
SadTalker:圖片+音頻說話,https://xueshu.fun/2824/
WAV2lip:將一個不說話的視頻說話,https://xueshu.fun/3106/
Video-retalking:將一個說話的視頻,改成說成你要改的話
常見問題
視頻不宜過長,生成視頻會循環(huán)使用源視頻,無需上傳長視頻
視頻為標準MP4格式、視頻中只有一張人臉、每幀都要有人臉、人臉清晰可識別,人臉不過過大
只支持N卡,需要8G以上顯存