【技術(shù)分享】AI數(shù)字人實(shí)時(shí)互動(dòng)直播技術(shù):技術(shù)流程介紹
2023-05-18 16:02 作者:Siyuejiang | 我要投稿

實(shí)時(shí)抓取用戶互動(dòng)輸入文字
輸入LLM
語音合成(將文本轉(zhuǎn)化成語音)
合成語音后輸入下一個(gè)環(huán)節(jié)對(duì)話的生成(表情、口型、動(dòng)作)audio2motion/audio2lip/audio2motion
傳入渲染系統(tǒng)UE5(表情/動(dòng)作驅(qū)動(dòng)、字幕渲染、場(chǎng)景/形象渲染、毛發(fā)/布料結(jié)算、編碼推流)
OBS 通用推流軟件
延遲在對(duì)話系統(tǒng),3s左右,推流延遲和設(shè)備/網(wǎng)絡(luò)相關(guān),1-10s

標(biāo)簽: