【技術(shù)分享】AI數(shù)字人實(shí)時(shí)互動(dòng)直播技術(shù):數(shù)字人口型驅(qū)動(dòng)(算法篇)
2023-05-18 19:46 作者:Siyuejiang | 我要投稿

數(shù)字人口型驅(qū)動(dòng)
FACS根據(jù)面部肌肉群對(duì)面部動(dòng)作編碼
51個(gè)通道


音頻特征:MFCC、基于深度學(xué)習(xí)的表征方法etc,選擇deepspeech,音頻-文本工具/音頻抽取特征,音頻轉(zhuǎn)成音頻圖

面部口型驅(qū)動(dòng):音頻特征提取——切分音頻特征(階梯過(guò)濾器)——縮放后到vit——加一層MLP——加一層position embedding
用到19個(gè)通道
階梯過(guò)濾器;attention機(jī)制(關(guān)注靠后音頻);loss function
標(biāo)簽: