【中電新青年·AI前沿技術(shù)探索】AI數(shù)字人
目前,元宇宙熱潮下,AI 數(shù)字人也開始涉及眾多領(lǐng)域,包含文娛、服務(wù)、教育、營銷等等。市面上出現(xiàn)的 Al 數(shù)字人包括功能型 Al數(shù)字人,如虛擬助手、虛擬導(dǎo)游、虛擬客服等;陪伴型 Al 數(shù)字人,如虛擬伴侶、虛擬家屬等;社會型 Al 數(shù)字人,如虛擬主播、虛擬偶像、虛擬教師、虛擬醫(yī)生、虛擬導(dǎo)購等。
浦發(fā)銀行的首位銀行業(yè)數(shù)字員工「小浦」
虎牙數(shù)字人晚玉
AI數(shù)字人主播 *技術(shù)解讀 該技術(shù)可以將語音實(shí)時轉(zhuǎn)換成表情blendshape 動畫。這樣做的原因是在現(xiàn)行的產(chǎn)業(yè)中,用BS 去驅(qū)動數(shù)字形象的動畫表情仍是主流,方便動畫藝術(shù)家對最終動畫產(chǎn)出最藝術(shù)調(diào)整,傳輸?shù)臄?shù)據(jù)量小,方便動畫在不同的數(shù)宇形象之間進(jìn)行傳遞等等。 基于這些實(shí)際生產(chǎn)中的需求,F(xiàn)ACEGOOD 對輸入和輸出數(shù)據(jù)做了相應(yīng)的調(diào)整,聲音數(shù)據(jù)對應(yīng)的標(biāo)簽不再是模型動畫的點(diǎn)云數(shù)據(jù)而是模型動畫的 blendshape 權(quán)重。最終的使用流程如下圖1所示:
在上面的流程中,F(xiàn)AGEGOOD主要完成Audio2Face 部分,ASR、TTS 由思必馳智能機(jī)器人完成。如果你想用自己的聲音,或第三方的,ASR、TTS 可以自行進(jìn)行替換。當(dāng)然,F(xiàn)ACEGOODAudio2face 部分也可根據(jù)自己的喜好進(jìn)行重新訓(xùn)練,比如你想用自己的聲音或其它類型的聲音,或者不同于FACEGOOD 使用的模型綁定作為驅(qū)動數(shù)據(jù),都可以根據(jù)下面提到的流程完成自己專屬的動畫驅(qū)動算法模型訓(xùn)練。 那么 Audio2Face 這一步的框架是什么樣呢?又如何制作自己的訓(xùn)練數(shù)據(jù)呢?具體如下圖2所示:
常規(guī)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練大致可以分為三個階段:數(shù)據(jù)采集制作、數(shù)據(jù)預(yù)處理和數(shù)據(jù)模型訓(xùn)練。 ?第一階段,數(shù)據(jù)采集制作。這里主要包含兩種數(shù)據(jù),分別是聲音數(shù)據(jù)和聲音對應(yīng)的動畫數(shù)據(jù)。聲音數(shù)據(jù)主要是錄制中文字母表的發(fā)音,以及一些特殊的爆破音,包含盡可能多中發(fā)音的文本。而動畫數(shù)據(jù)就是,在maya 中導(dǎo)入錄制的聲音數(shù)據(jù)后,根據(jù)自己的綁定做出符合模型面部特征的對應(yīng)發(fā)音的動畫; ?第二階段,主要是通過 LPC 對聲音數(shù)據(jù)做處理,將聲音數(shù)據(jù)分割成與動畫對應(yīng)的幀數(shù)據(jù),及maya 動畫幀數(shù)據(jù)的導(dǎo)出。 ?第三階段就是將處理之后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入,然后進(jìn)行訓(xùn)練直到 loss 函數(shù)收斂即可。