造夢師手記:中國小哥研發(fā),Stable Diffusion一張圖生成視頻數(shù)字人

前一段時(shí)間,AI孫燕姿熱鬧非凡。AI合成的聲音,和真人已經(jīng)幾乎難以分辨。
不難想象,在洛天依等數(shù)字IP持續(xù)火熱的過程中,隨著AI技術(shù)的突飛猛進(jìn),很可能會(huì)出現(xiàn)一個(gè)真正超越人類聲音的AI歌手。
一邊是ChatGPT等超級(jí)AI可以代替人類思考生成文字;
一邊是Stable Diffusion等AI繪圖(視頻)可以從文字生成圖像(視頻的本質(zhì)是一幀幀的圖像,AI繪圖突破后,視頻只是個(gè)累加工作量);
一邊是AI合成聲音越來越逼真。
這也意味著,三個(gè)環(huán)節(jié)打通后,真正的數(shù)字人,觸手可及了。
事實(shí)上,相關(guān)的技術(shù)已經(jīng)基本實(shí)現(xiàn)突破,剩下的就是一步步迭代,更加完美。
今天給大家介紹的插件,是開局一張圖,剩下的全靠AI編。
這個(gè)插件叫SadTalker,創(chuàng)作者來自西交大。
一、程序安裝
程序本身安裝比較簡單,但程序需要的模型搞起來比較復(fù)雜。作者單獨(dú)打包了模型,需要從網(wǎng)盤下載。

https://github.com/OpenTalker/SadTalker
裝完程序后,使用前還要下載模型和依賴包。
二、模型、依賴包下載和安裝
模型和依賴包下載地址:
百度云盤:?https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
123云盤:https://www.123pan.com/s/ueDeVv-DM0I.html?提取碼:lgyh
在extensions\SadTalker 目錄下手工創(chuàng)建一個(gè)文件夾:chekpoints
1、將下載的模型文件(百度云盤的需解壓,123云盤的下載下來即可)拷貝至xtensions\SadTalker\chekpoints
2、將視頻解碼文件解壓縮,放到C盤根目錄下,ffmpeg-2023-07-10-git-1c61c24f5f-full_build.7z
解壓縮后,將文件夾改名為ffmpeg(改成別的也可,為了方便),將文件夾拷貝到c:\ffmpeg
然后在環(huán)境配置里增加環(huán)境變量。

變量為c:\ffmpeg\bin

配置完環(huán)境變量后,需重啟計(jì)算機(jī)生效。
三、Stable Diffusion的WebUI界面會(huì)新增SadTalk選項(xiàng)卡

略奇怪的是,和作者在主頁上放出的界面略有不同。

作者的界面里有一個(gè)從文生圖讀取圖片功能,實(shí)際安裝后并無此按鈕。
我以為是版本問題,更新到最新發(fā)現(xiàn)也沒有,估計(jì)作者忘了放上了。耐心等下個(gè)版本吧。
稍微繁瑣一點(diǎn)點(diǎn)的地方,是需要將生成的圖片存到硬盤,再在SadTalk界面上傳,多浪費(fèi)3秒鐘。
四、使用界面簡介

整個(gè)界面大致有四個(gè)區(qū)域,左上欄上傳圖片,左下欄上傳音頻(可以從AI網(wǎng)站由文字生成),右上欄是配置界面,右下欄是生成視頻。
只有右上欄略微復(fù)雜一些,挨個(gè)按鈕介紹下。

Pose style是口型和眼睛的風(fēng)格,我的建議是隨緣。
face model resolution是面部識(shí)別模型,建議256,對(duì)資源占用小一些。
preprocess是截取照片,crop是只取頭部,full是全圖,建議選full效果好一些,可以提前手工截取比較滿意的畫面再上傳。
GFPGAN是高清模式,占用資源比較大。
需要注意的是,音頻不要太長,30秒內(nèi)為佳,否則對(duì)顯卡要求過高,容易爆顯存,生成失敗。
五、我做的視頻范例
建議使用真人模型,正臉面對(duì)鏡頭,否則容易識(shí)別失敗。
原圖:

視頻:
