英偉達(dá)、高校研究員等提出3D感知注視重定向方法GazeNeRF
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
3D感知注視重定向方法
(映維網(wǎng)Nweon?2023年09月08日)注視重定向是指在不改變latent參數(shù)的情況下,操縱人臉的輸入圖像,使得輸出圖像中的人臉看起來(lái)是朝著給定的目標(biāo)方向。注視重定向存在一系列的應(yīng)用,例如在元宇宙中增強(qiáng)Avatar的真實(shí)感。
現(xiàn)有的注視重定向方法將任務(wù)表述為二維圖像處理問(wèn)題,要么通過(guò)扭曲輸入圖像的選擇像素,要么通過(guò)深度生成模型合成新圖像。由于無(wú)法生成新的像素,圖像扭曲方法不能模擬大的變化。另外,盡管2D生成模型可以產(chǎn)生高質(zhì)量的圖像,并允許大的祖師方向變化,但它們沒(méi)有考慮到任務(wù)的3D性質(zhì),并可能導(dǎo)致時(shí)空或identity不一致。
在名為《GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields》的論文中,由蘇黎世聯(lián)邦理工學(xué)院、荷蘭代爾夫特理工大學(xué)、英偉達(dá)和英國(guó)伯明翰大學(xué)組成的研究人員提出將注視重定向重新定義為3D任務(wù),并提出了一種新的3D感知注視重定向方法GazeNeRF。
團(tuán)隊(duì)的方法利用了基于圖像的條件神經(jīng)輻射場(chǎng)NeRF的最新進(jìn)展來(lái)繼承生成高質(zhì)量圖像的能力。人臉和眼睛不是一個(gè)整體的3D結(jié)構(gòu),而是由兩個(gè)3D結(jié)構(gòu)組成。所以,研究人員使用神經(jīng)輻射場(chǎng)模型將這兩個(gè)結(jié)構(gòu)建模為單獨(dú)的feature volume。
對(duì)于這一點(diǎn),這一概念與EyeNeRF有相似之處,但后者的重點(diǎn)是高保真渲染和重照明質(zhì)量,而前者關(guān)注的是注視重定向的精度。
為了賦予神經(jīng)輻射場(chǎng)架構(gòu)3D感知注視重定向能力,團(tuán)隊(duì)提出了一種新的two-stream MLP結(jié)構(gòu),從而分別預(yù)測(cè)眼球和面部區(qū)域的feature映射。其中,two-stream是指面部stream和眼睛stream。

如上圖所示,GazeNeRF由基于神經(jīng)輻射場(chǎng)的two-stream MLP結(jié)構(gòu)組成。所述結(jié)構(gòu)以目標(biāo)gaze label為條件以生成逼真的面部圖像。同時(shí),對(duì)GazeNeRF的眼睛stream應(yīng)用三維旋轉(zhuǎn)變換R。
換句話說(shuō),眼睛區(qū)域的特征通過(guò)所需的3D旋轉(zhuǎn)矩陣進(jìn)行交換,然后通過(guò)可微體渲染合成相關(guān)區(qū)域。
隨著眼球的明確分離,GazeNeRF嚴(yán)格旋轉(zhuǎn)3D特征,而實(shí)驗(yàn)證明這有利于注視重定向的準(zhǔn)確性。

上圖是GazeNeRF的管道概述。GazeNeRF訓(xùn)練了一個(gè)two-stream MLP結(jié)構(gòu),通過(guò)基于神經(jīng)輻射場(chǎng)的模型來(lái)學(xué)習(xí)無(wú)眼睛特征Ffw/o和兩只眼睛特征Fe的面部3D感知。
為了模擬兩個(gè)眼球的剛性旋轉(zhuǎn),研究人員將Fe與注視旋轉(zhuǎn)矩陣R相乘為Fe-rot。Ffw/o和Fe-rot通過(guò)最大運(yùn)算合并為Fwf。這三個(gè)特征然后用來(lái)渲染沒(méi)有眼睛的人臉I(yè)fw/o、眼睛Ie和完整的眼+臉圖像Ifw。
為了能夠訓(xùn)練模型,研究人員提出了在two-stream MLP的末端進(jìn)行特征組合和額外的訓(xùn)練損失來(lái)增強(qiáng)注視重定向的功能。

上圖是分別基于GazeNeRF,STED和HeadNeRF的ETH-XGaze生成圖像。所有的人臉都用蒙版來(lái)移除背景。
它清楚地表明,GazeNeRF可以為不同的注視方向和頭部姿勢(shì)生成逼真的面部圖像。STED在生成的人臉圖像中存在identity信息丟失的問(wèn)題,這在表1中定量驗(yàn)證為“identity similarity”。

另外,STED在處理極端的頭部姿勢(shì)(左第二行和右第一行)方面存在困難,因?yàn)樯傻拿娌繒?huì)從目標(biāo)姿勢(shì)偏移。
對(duì)于HeadNeRF,僅以gaze label為輸入條件的單個(gè)MLP的特征映射不足以控制不同注視方向(最后一行)的眼睛外觀。盡管HeadNeRF的大部分結(jié)果可以保留面部identity,但其余的結(jié)果無(wú)法生成細(xì)粒度的眼睛(第二行)。
與這兩種最先進(jìn)的方法相比,GazeNeRF可以生成更好的面部圖像,包括在極端的頭部姿勢(shì)下(從右起中間兩排)。

表2比較了在注視和頭部重定向錯(cuò)誤的程度、LPIPS和identity similarity方面,GazeNeRF與其他最先進(jìn)的方法在ColumbiaGaze、MPIIFaceGaze和GazeCapture數(shù)據(jù)集的表現(xiàn)。
可以看出,GazeNeRF均取得了優(yōu)異的綜合成績(jī),尤其是GazeCapture數(shù)據(jù)集,在Gaze,Head和LPLPS均位列第一,而identity similarity方面僅略微低于HeadNeRF。

表3是GazeNeRF和其他變體在注視和頭部重定向錯(cuò)誤程度、重定向圖像質(zhì)量(SSIM、PSNR、LPIPS和FID)和identity similarity方面的比較。數(shù)據(jù)集是ETH-XGaze。
可以看出,基準(zhǔn)模型vanilla-GazeNeRF在注視誤差方面表現(xiàn)最差。two-stream的注視角和頭部姿態(tài)角誤差較小,這是由于two-stream-MLP結(jié)構(gòu)將整個(gè)面部分為僅面部和眼睛部分。
我們同時(shí)可以看到,在two-stream的基礎(chǔ)上對(duì)眼睛stream應(yīng)用旋轉(zhuǎn)矩陣有利于Two-stream+rotation的角度誤差。另外,添加LF可以極大地改善注視誤差,因?yàn)樗褂昧祟~外的注視估計(jì)器來(lái)最小化生成的圖像與真實(shí)圖像之間的注視相關(guān)不一致性。
在所有消融中,GazeNeRF通過(guò)利用two-stream-MLP結(jié)構(gòu)的組合,對(duì)眼睛stream應(yīng)用旋轉(zhuǎn)矩陣,并使用LF,在注視和頭部姿態(tài)角誤差方面取得了最佳性能。在圖像質(zhì)量方面,GazeNeRF在SSIM和PSNR得分方面達(dá)到了最佳性能。
當(dāng)然,團(tuán)隊(duì)再次強(qiáng)調(diào),目標(biāo)不是提高整體圖像質(zhì)量,而是提高注視重定向的準(zhǔn)確性。
相關(guān)論文:GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields
https://paper.nweon.com/14698
總的來(lái)說(shuō),團(tuán)隊(duì)提出的一個(gè)將3D感知引入注視重定向任務(wù)的方法GazeNeRF。考慮到注視重定向任務(wù)本身的3D性質(zhì),GazeNeRF由two-stream-MLP和對(duì)顯式旋轉(zhuǎn)組成。3D感知設(shè)計(jì)賦予了GazeNeRF在注視重定向任務(wù)方面的優(yōu)勢(shì),并獲得了多個(gè)數(shù)據(jù)集和消融研究的領(lǐng)先性能所證明。
研究人員指出:“我們相信GazeNeRF具有3D感知的優(yōu)勢(shì),在下游應(yīng)用方面具有巨大的潛力?!?/p>
當(dāng)然,他們坦誠(chéng)盡管具有上述優(yōu)點(diǎn),但GazeNeRF具有相同的NeRF模型限制,需要很長(zhǎng)時(shí)間訓(xùn)練。所以,團(tuán)隊(duì)接下來(lái)將把減少訓(xùn)練時(shí)間的負(fù)擔(dān)作為未來(lái)的工作方向。
---
原文鏈接:https://news.nweon.com/112381