一種實時輕量級3D人臉對齊方法

論文鏈接:
https://xueshu.baidu.com/usercenter/paper/show?paperid=1e090pe0h36k0m002a7q06d0at215203&site=xueshu_se
1、摘要
在三維人臉對齊領(lǐng)域,大多數(shù)研究者都集中在提高算法的預(yù)測精度上,而忽視了算法的可移植性。為此,本研究提出了一種實時三維人臉對齊方法,該方法使用一個具有高效反卷積層的編解碼器網(wǎng)絡(luò)。編碼和解碼特征的融合為該網(wǎng)絡(luò)增加了更豐富的特征,同時加強了編解碼階段不同分辨率之間信息的傳遞。在解碼階段,一個高效的反卷積層應(yīng)用L1范數(shù)選擇具有代表性的特征通道,并通過線性運算生成更加豐富的特征從而縮短卷積運算耗時。在標(biāo)準(zhǔn)的AFLW2000-3D和AFLW-LFPA數(shù)據(jù)集上的實驗結(jié)果表明,該算法在保持較低的預(yù)測誤差的同時能夠達到實時的性能。
注1:文末附【人臉人體重建】交流群
注2:整理不易,請點贊支持!
作者:視界預(yù)言家 | 來源:3D視覺工坊微信公眾號
2、介紹
人臉對齊指的是一種預(yù)測面部特征點的方法,用于人臉識別[1,2]、面部美化和頭部姿勢估計等應(yīng)用。傳統(tǒng)的人臉對齊算法使用二維圖像來輸出二維人臉標(biāo)志。然而,這種方法在大姿態(tài)人臉對齊中不穩(wěn)定,魯棒性差。因此,三維人臉對齊逐漸引起了研究者的興趣。本研究的主要目的是提出一種實用的實時三維人臉對齊方法。
論文的研究貢獻如下:
(1)提出了一種稱為EDNet的編解碼網(wǎng)絡(luò),它利用特征增強和特征融合來增加網(wǎng)絡(luò)編碼和解碼區(qū)域之間的信息傳輸。
(2)提出了一種轉(zhuǎn)置卷積層,利用L1范數(shù)選擇和過濾原始輸入特征,利用線性變換生成豐富的特征,使得網(wǎng)絡(luò)是輕量級的同時具有不錯的非線性表達能力。
(3)提出了一種CPU實時三維人臉特征點定位方法,該方法能夠?qū)崿F(xiàn)精度和速度的平衡,更適用于實際應(yīng)用。
3、概述
(1)提出的網(wǎng)絡(luò)結(jié)構(gòu)
論文提出的方法的結(jié)構(gòu)如圖1所示。將人臉的二維圖像輸入到所提出的EDNet中。輸出是UV位置圖[9,5],它表示人臉的三維信息。最后,利用UV圖對三維人臉進行重建,并對地標(biāo)坐標(biāo)進行預(yù)測。

圖1
在編碼階段,第一層是標(biāo)準(zhǔn)卷積層,具有八個濾波器,接著是一系列殘差塊[23],信道逐漸增加。解碼模塊的每個步驟都包括特征圖的上采樣,該特征圖經(jīng)過了所提出的高效反卷積(EF-deconv)層。該層通過線性變換,可以過濾出更具代表性的特征,并生成具有相似特征分布的特征通道,最后對所獲得的特征映射與編碼模塊對應(yīng)輸出的特征映射相結(jié)合。
在第一層EF-deconv中,從編碼模塊中添加了相同大小的特征。這相當(dāng)于特征增強;接下來的三個EF-deconv層執(zhí)行級聯(lián)操作,以增加特征的多層次細粒度。在網(wǎng)絡(luò)的最后三層中,論文不使用EF-deconv層,因為這些網(wǎng)絡(luò)層用于使用UV位置圖恢復(fù)三維面部頂點。因此,如果在網(wǎng)絡(luò)最后三層使用EF-deconv層時,訓(xùn)練過程中網(wǎng)絡(luò)的特征通道會出現(xiàn)紊亂,這使得網(wǎng)絡(luò)難以達到收斂效果。因此,在網(wǎng)絡(luò)的末尾,仍然使用一個通用的轉(zhuǎn)置卷積層進行訓(xùn)練。
(2)反卷積層的實現(xiàn)
EF-deconv層的內(nèi)部實現(xiàn)方式如下:
首先,使用L1正則化將所有特征通道的得分從高到低排序。然后,選擇前半部分得分較高的特征通道輸入到普通的轉(zhuǎn)置卷積層,也即得分較低的通道的權(quán)重置為0。轉(zhuǎn)置卷積層的輸出特性保持不變,再通過線性變換對轉(zhuǎn)置卷積層的輸出特征進行擴展,從而在保持網(wǎng)絡(luò)非線性表達能力的同時縮短該層的計算耗時,最后將二者的特征通道進行結(jié)合作為最終輸出特征。L1正則化通常用于一些特征選擇研究[7,8]。式(1)表示具體操作:

其中Wi,j是第i層反卷積中第j個特征圖的得分,Ni是第i層中特征圖的數(shù)目。K是來自過濾器的輸出特征映射的大小。用于產(chǎn)生其它特征映射的線性變換的操作可以公式化如下:

這里,xi是第i個輸入特征圖,Yij是第i個輸入特征的第j個輸出,而f(I,j)是產(chǎn)生第j個特征的第j個線性運算,Yij。m是輸入特征映射的數(shù)量,n是一個輸入特征映射產(chǎn)生的特征的數(shù)量。該模塊中的線性變換可以用幾種不同的線性運算來實現(xiàn),在實驗部分作者采用1×1和3×3的線性核來比較結(jié)果。

(3)3D 人臉表示

UV空間是從3D空間參數(shù)化的2D圖像平面,如參考文獻[9,5]所提出的. 它可以用來表達三維人臉信息。UV空間用于存儲三維面模型中點的三維坐標(biāo)。因此,x、y和z坐標(biāo)用于替換紋理貼圖中的紅色、綠色和藍色值。因此,位置圖可以表示為pos()=(xi,Yi,Zi),其中i表示面部的第i點的UV坐標(biāo),(xi,Yi,Zi)表示相應(yīng)的3D位置,如圖3所示。建立了基于3DMM[10]的UV坐標(biāo)系,利用300W-LP[3]提供的3DMM參數(shù)的圖像,從二維圖像到三維信息進行端到端的訓(xùn)練。數(shù)據(jù)集的3DMM參數(shù)基于Basel Face model(BFM)[10]。根據(jù)BFM提供的頂點數(shù)據(jù),選擇UV位置圖的大小為128*128。因此,可以記錄包含語義信息的3D面部頂點集的UV位置圖,以端到端的方式訓(xùn)練網(wǎng)絡(luò),并且使用固定的面部索引獲得3D面部特征點坐標(biāo)。
4、實驗

表二顯示,與ESR[14]、3DDFA[3]、SDM[15]和CMD[6]相比,該方法在精度和時間消耗方面具有明顯的優(yōu)勢。例如,與最新版本的CMD相比,論文的算法將時間消耗提高了30%,并且模型更小。同時,定位精度略高于CMD。與PRNet[5]相比,該算法的平均下降了8%,但是時間消耗縮短了5倍,模型大小減小了10倍。論文的網(wǎng)絡(luò)使用較小的圖像輸入尺寸和較少的通道;此外,論文的EF-deconv層使用特征選擇,從而讓參數(shù)數(shù)量減少了一半。因此,該算法實現(xiàn)了預(yù)測精度和時間消耗之間的平衡。
圖5在預(yù)測精度和時間消耗方面更直觀地示出了不同算法的性能之間的比較。更精確、更快的算法更接近原點。與3DDFA[3]、PEN[17]和CMD[6]相比,本文提出的方法在這兩個參數(shù)上都具有優(yōu)勢。與PRNet[5]和DAMDNet[19]相比,論文的方法的時間消耗更低,并且可以在CPU上實時運行。

表四列出了不同面部姿勢的AFLW2000-3D[3]數(shù)據(jù)集上不同算法的結(jié)果。與PEN[19]相比,該方法對[30°、60°]和[60°、90°]更為準(zhǔn)確,誤差降低了13-17%。與早期提出的方法(如ESR[14]、SDM[15]和3DDFA[3])相比,該算法在不同的頭部姿態(tài)下表現(xiàn)出更好的性能。與最近提出的方法(如PEN[17]和DAMDNet[19])相比,該算法具有較小的方差。圖4顯示了所提出算法的最終預(yù)測和人臉重建結(jié)果。對不同姿勢、表情、陰影和其他因素的測試結(jié)果可以清楚地看到,該方法對不同角度的人臉姿態(tài)具有較強的魯棒性。綜上所述,該方法可以在CPU上實時運行,實現(xiàn)了快速的三維人臉對齊,能夠滿足實際應(yīng)用的要求。

圖 4
5、結(jié)論
該文提出了一種可在CPU上實時運行的三維人臉對齊方法,該方法采用了一種輕量級編解碼網(wǎng)絡(luò)EDNet。在特征解碼階段,通過特征融合和高效的反卷積,實現(xiàn)了網(wǎng)絡(luò)預(yù)測精度和時間消耗的完美平衡,更適用于實際產(chǎn)品中的部署和應(yīng)用。
作者:寧欣1,2,3,段鵬飛2,3,李衛(wèi)軍1,2,3,張少林2,3
單位信息:
1.中國科學(xué)院半導(dǎo)體研究所 高速電路與神經(jīng)網(wǎng)絡(luò)實驗室;
2.威富集團認知計算技術(shù)聯(lián)合實驗室;
3.深圳市威富視界有限公司
文章信息:X. Ning, P. Duan, W. Li and S. Zhang, "Real-Time 3D Face Alignment Using an Encoder-Decoder Network With an Efficient Deconvolution Layer," in IEEE Signal Processing Letters, vol. 27, pp. 1944-1948, 2020, doi: 10.1109/LSP.2020.3032277.
備注:作者也是我們「3D視覺從入門到精通」知識星球特邀嘉賓:
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊-人臉人體重建交流群
已建立3D視覺工坊-人臉人體重建微信交流群!想要進人臉人體重建學(xué)習(xí)交流群的同學(xué),可以直接加微信號:CV_LAB。加的時候備注一下:人臉人體重建+學(xué)校+昵稱,即可。然后就可以拉你進群了。
強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。