散文網(wǎng) » 生活 »日常 » 一種實時輕量級3D人臉對齊方法

一種實時輕量級3D人臉對齊方法

2021-03-21 18:16 作者:3D視覺工坊 0人讀過 | 我要投稿

論文鏈接：

https://xueshu.baidu.com/usercenter/paper/show?paperid=1e090pe0h36k0m002a7q06d0at215203&site=xueshu_se

1、摘要

在三維人臉對齊領(lǐng)域，大多數(shù)研究者都集中在提高算法的預(yù)測精度上，而忽視了算法的可移植性。為此，本研究提出了一種實時三維人臉對齊方法，該方法使用一個具有高效反卷積層的編解碼器網(wǎng)絡(luò)。編碼和解碼特征的融合為該網(wǎng)絡(luò)增加了更豐富的特征，同時加強了編解碼階段不同分辨率之間信息的傳遞。在解碼階段，一個高效的反卷積層應(yīng)用L1范數(shù)選擇具有代表性的特征通道，并通過線性運算生成更加豐富的特征從而縮短卷積運算耗時。在標(biāo)準(zhǔn)的AFLW2000-3D和AFLW-LFPA數(shù)據(jù)集上的實驗結(jié)果表明，該算法在保持較低的預(yù)測誤差的同時能夠達到實時的性能。

注1：文末附【人臉人體重建】交流群

注2：整理不易，請點贊支持！

作者：視界預(yù)言家 | 來源：3D視覺工坊微信公眾號

2、介紹

人臉對齊指的是一種預(yù)測面部特征點的方法，用于人臉識別[1,2]、面部美化和頭部姿勢估計等應(yīng)用。傳統(tǒng)的人臉對齊算法使用二維圖像來輸出二維人臉標(biāo)志。然而，這種方法在大姿態(tài)人臉對齊中不穩(wěn)定，魯棒性差。因此，三維人臉對齊逐漸引起了研究者的興趣。本研究的主要目的是提出一種實用的實時三維人臉對齊方法。

論文的研究貢獻如下：

（1）提出了一種稱為EDNet的編解碼網(wǎng)絡(luò)，它利用特征增強和特征融合來增加網(wǎng)絡(luò)編碼和解碼區(qū)域之間的信息傳輸。

（2）提出了一種轉(zhuǎn)置卷積層，利用L1范數(shù)選擇和過濾原始輸入特征，利用線性變換生成豐富的特征，使得網(wǎng)絡(luò)是輕量級的同時具有不錯的非線性表達能力。

（3）提出了一種CPU實時三維人臉特征點定位方法，該方法能夠?qū)崿F(xiàn)精度和速度的平衡，更適用于實際應(yīng)用。

3、概述

（1）提出的網(wǎng)絡(luò)結(jié)構(gòu)

論文提出的方法的結(jié)構(gòu)如圖1所示。將人臉的二維圖像輸入到所提出的EDNet中。輸出是UV位置圖[9,5]，它表示人臉的三維信息。最后，利用UV圖對三維人臉進行重建，并對地標(biāo)坐標(biāo)進行預(yù)測。

圖1

在編碼階段，第一層是標(biāo)準(zhǔn)卷積層，具有八個濾波器，接著是一系列殘差塊[23]，信道逐漸增加。解碼模塊的每個步驟都包括特征圖的上采樣，該特征圖經(jīng)過了所提出的高效反卷積（EF-deconv）層。該層通過線性變換，可以過濾出更具代表性的特征，并生成具有相似特征分布的特征通道，最后對所獲得的特征映射與編碼模塊對應(yīng)輸出的特征映射相結(jié)合。

在第一層EF-deconv中，從編碼模塊中添加了相同大小的特征。這相當(dāng)于特征增強；接下來的三個EF-deconv層執(zhí)行級聯(lián)操作，以增加特征的多層次細粒度。在網(wǎng)絡(luò)的最后三層中，論文不使用EF-deconv層，因為這些網(wǎng)絡(luò)層用于使用UV位置圖恢復(fù)三維面部頂點。因此，如果在網(wǎng)絡(luò)最后三層使用EF-deconv層時，訓(xùn)練過程中網(wǎng)絡(luò)的特征通道會出現(xiàn)紊亂，這使得網(wǎng)絡(luò)難以達到收斂效果。因此，在網(wǎng)絡(luò)的末尾，仍然使用一個通用的轉(zhuǎn)置卷積層進行訓(xùn)練。

（2）反卷積層的實現(xiàn)

EF-deconv層的內(nèi)部實現(xiàn)方式如下：

首先，使用L1正則化將所有特征通道的得分從高到低排序。然后，選擇前半部分得分較高的特征通道輸入到普通的轉(zhuǎn)置卷積層，也即得分較低的通道的權(quán)重置為0。轉(zhuǎn)置卷積層的輸出特性保持不變，再通過線性變換對轉(zhuǎn)置卷積層的輸出特征進行擴展，從而在保持網(wǎng)絡(luò)非線性表達能力的同時縮短該層的計算耗時，最后將二者的特征通道進行結(jié)合作為最終輸出特征。L1正則化通常用于一些特征選擇研究[7,8]。式（1）表示具體操作：

其中Wi，j是第i層反卷積中第j個特征圖的得分，Ni是第i層中特征圖的數(shù)目。K是來自過濾器的輸出特征映射的大小。用于產(chǎn)生其它特征映射的線性變換的操作可以公式化如下：

這里，xi是第i個輸入特征圖，Yij是第i個輸入特征的第j個輸出，而f(I,j)是產(chǎn)生第j個特征的第j個線性運算，Yij。m是輸入特征映射的數(shù)量，n是一個輸入特征映射產(chǎn)生的特征的數(shù)量。該模塊中的線性變換可以用幾種不同的線性運算來實現(xiàn)，在實驗部分作者采用1×1和3×3的線性核來比較結(jié)果。

（3）3D 人臉表示

UV空間是從3D空間參數(shù)化的2D圖像平面，如參考文獻[9,5]所提出的. 它可以用來表達三維人臉信息。UV空間用于存儲三維面模型中點的三維坐標(biāo)。因此，x、y和z坐標(biāo)用于替換紋理貼圖中的紅色、綠色和藍色值。因此，位置圖可以表示為pos（）=（xi，Yi，Zi），其中i表示面部的第i點的UV坐標(biāo)，（xi，Yi，Zi）表示相應(yīng)的3D位置，如圖3所示。建立了基于3DMM[10]的UV坐標(biāo)系，利用300W-LP[3]提供的3DMM參數(shù)的圖像，從二維圖像到三維信息進行端到端的訓(xùn)練。數(shù)據(jù)集的3DMM參數(shù)基于Basel Face model（BFM）[10]。根據(jù)BFM提供的頂點數(shù)據(jù)，選擇UV位置圖的大小為128*128。因此，可以記錄包含語義信息的3D面部頂點集的UV位置圖，以端到端的方式訓(xùn)練網(wǎng)絡(luò)，并且使用固定的面部索引獲得3D面部特征點坐標(biāo)。

4、實驗

表二顯示，與ESR[14]、3DDFA[3]、SDM[15]和CMD[6]相比，該方法在精度和時間消耗方面具有明顯的優(yōu)勢。例如，與最新版本的CMD相比，論文的算法將時間消耗提高了30%，并且模型更小。同時，定位精度略高于CMD。與PRNet[5]相比，該算法的平均下降了8%，但是時間消耗縮短了5倍，模型大小減小了10倍。論文的網(wǎng)絡(luò)使用較小的圖像輸入尺寸和較少的通道；此外，論文的EF-deconv層使用特征選擇，從而讓參數(shù)數(shù)量減少了一半。因此，該算法實現(xiàn)了預(yù)測精度和時間消耗之間的平衡。

圖5在預(yù)測精度和時間消耗方面更直觀地示出了不同算法的性能之間的比較。更精確、更快的算法更接近原點。與3DDFA[3]、PEN[17]和CMD[6]相比，本文提出的方法在這兩個參數(shù)上都具有優(yōu)勢。與PRNet[5]和DAMDNet[19]相比，論文的方法的時間消耗更低，并且可以在CPU上實時運行。

表四列出了不同面部姿勢的AFLW2000-3D[3]數(shù)據(jù)集上不同算法的結(jié)果。與PEN[19]相比，該方法對[30°、60°]和[60°、90°]更為準(zhǔn)確，誤差降低了13-17%。與早期提出的方法（如ESR[14]、SDM[15]和3DDFA[3]）相比，該算法在不同的頭部姿態(tài)下表現(xiàn)出更好的性能。與最近提出的方法（如PEN[17]和DAMDNet[19]）相比，該算法具有較小的方差。圖4顯示了所提出算法的最終預(yù)測和人臉重建結(jié)果。對不同姿勢、表情、陰影和其他因素的測試結(jié)果可以清楚地看到，該方法對不同角度的人臉姿態(tài)具有較強的魯棒性。綜上所述，該方法可以在CPU上實時運行，實現(xiàn)了快速的三維人臉對齊，能夠滿足實際應(yīng)用的要求。

圖 4

5、結(jié)論

該文提出了一種可在CPU上實時運行的三維人臉對齊方法，該方法采用了一種輕量級編解碼網(wǎng)絡(luò)EDNet。在特征解碼階段，通過特征融合和高效的反卷積，實現(xiàn)了網(wǎng)絡(luò)預(yù)測精度和時間消耗的完美平衡，更適用于實際產(chǎn)品中的部署和應(yīng)用。

作者：寧欣1,2,3，段鵬飛2,3，李衛(wèi)軍1,2,3，張少林2,3

單位信息：

1.中國科學(xué)院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實驗室；

2.威富集團認知計算技術(shù)聯(lián)合實驗室；

3.深圳市威富視界有限公司

文章信息：X. Ning, P. Duan, W. Li and S. Zhang, "Real-Time 3D Face Alignment Using an Encoder-Decoder Network With an Efficient Deconvolution Layer," in IEEE Signal Processing Letters, vol. 27, pp. 1944-1948, 2020, doi: 10.1109/LSP.2020.3032277.

備注：作者也是我們「3D視覺從入門到精通」知識星球特邀嘉賓：

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

3D視覺工坊-人臉人體重建交流群

已建立3D視覺工坊-人臉人體重建微信交流群！想要進人臉人體重建學(xué)習(xí)交流群的同學(xué)，可以直接加微信號：CV_LAB。加的時候備注一下：人臉人體重建+學(xué)校+昵稱，即可。然后就可以拉你進群了。

強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號，可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。

標(biāo)簽：