IPM-Net和BeautyGAN誰更好玩?
來源:投稿 作者:小灰灰
編輯:學(xué)姐
論文解讀 [IJCAI-2020]通過身份個性化網(wǎng)絡(luò)(IPM)實(shí)現(xiàn)真實(shí)世界的自動化妝

社交網(wǎng)絡(luò)的不斷發(fā)展也讓人們對美顏技術(shù)提出了更高的要求,在完成圖像美化的同時保證圖像的真實(shí)性是至關(guān)重要的。
本文重點(diǎn)研究現(xiàn)實(shí)世界的自動化妝問題。給定一張非化妝目標(biāo)圖像和一張參考圖像,自動化妝是生成一張人臉圖像,它與參考圖像中的化妝風(fēng)格保持原始身份。在現(xiàn)實(shí)世界的場景中,面部化妝任務(wù)需要一個強(qiáng)大的系統(tǒng)來應(yīng)對環(huán)境變化。
現(xiàn)實(shí)世界中人臉化妝的兩個主要挑戰(zhàn)可以概括如下:
首先,現(xiàn)實(shí)世界圖像中的背景很復(fù)雜。以前的方法也容易改變背景的風(fēng)格;
其次,前景面也容易受到影響。例如,“濃妝”可能會丟失原始身份的區(qū)分信息。
最后評價指標(biāo)的缺失。對于化妝效果的好壞還是依靠志愿者的主觀判斷,缺少客觀的量化指標(biāo)。
為了解決這個挑戰(zhàn),我們引入了一種新的化妝模型,稱為身份保護(hù)化妝網(wǎng)絡(luò)(IPM-Net),它不僅保留了背景,而且保留了原始身份的關(guān)鍵模式。具體來說,我們將人臉圖像分解為兩個不同的信息代碼,即身份內(nèi)容代碼和化妝風(fēng)格代碼。
在推理的時候,我們只需要修改妝容代碼,就可以生成目標(biāo)人物的各種妝容。作者從現(xiàn)實(shí)世界需求出發(fā),探索了完成人臉自動上妝同時保留圖像的真實(shí)性的方法,同時提出了使用FID以及LPIPS來量化人臉自動上妝的效果。
論文標(biāo)題:
Real-World Automatic Makeup via Identity Preservation Makeup Net
論文鏈接: https://www.ijcai.org/proceedings/2020/0091.pdf
論文代碼:https://github.com/huangzhikun1995/IPM-Net
# 本文的創(chuàng)新點(diǎn)
1、我們提出了一種新的自動化妝模型,稱為Identity?。Preservation Makeup Net (IPM-Net), 為了解決現(xiàn)實(shí)世界中自動化妝的兩個問題任務(wù)。我們的方法有效地轉(zhuǎn)移了化妝風(fēng)格將參考圖像轉(zhuǎn)換為目標(biāo)圖像,同時保留研究的背景和關(guān)鍵模式原始身份。
2、該方法能在較短的推理時間內(nèi)實(shí)現(xiàn)可控的化妝轉(zhuǎn)移,我們的模型每秒可以處理 16 張 256*256 的人臉圖像。。它使我們的模型更接近現(xiàn)實(shí)世界的實(shí)踐
3、作為一個小貢獻(xiàn),我們介紹了FID和SSIM對于化妝的真實(shí)性和多樣性進(jìn)行評價。我們的該方法在這兩方面都優(yōu)于其他競爭性方法定性和定量結(jié)果。
# 網(wǎng)絡(luò)結(jié)構(gòu)
2.1 圖像預(yù)處理
我們注意到,自動化妝的目的只是改變目標(biāo)圖像的幾個部分,同時保留大多數(shù)身份內(nèi)容信息。因此,我們建議首先將面部圖像分解為兩個空間(見表1)。身份內(nèi)容空間包含圖像中的個人身份信息和其他應(yīng)保留的詳細(xì)信息?;瘖y風(fēng)格空間是學(xué)習(xí)臉上的化妝風(fēng)格。為了幫助兩種不同的特征提取,我們對輸入圖像進(jìn)行了預(yù)處理。

具體來說,我們?yōu)槊總€人臉定制了一個面具和一個細(xì)粒度紋理。
?

預(yù)處理結(jié)果如圖3所示。給定一個輸入圖像x,我們通過四個步驟生成輸入圖像rx中的身份內(nèi)容:
(1)我們首先通過人臉解析算[1]法獲取mask,?
(2) 為了保留背景,我們將目標(biāo)圖像x和相應(yīng)的掩碼mx相乘,得到背景圖像bx。我們進(jìn)一步將化妝區(qū)域設(shè)置為灰色,但bx會丟失面部紋理信息。
(3) 因此,我們使用微分濾波器[2]提取化妝區(qū)域的紋理,該濾波器僅保留必要的紋理并濾除噪聲信號。此外,我們還增加了面部特征紋理的權(quán)重,以突出面部特征的紋理tx。
(4) 最后,通過添加紋理tx和bx背景來生成身份內(nèi)容輸入圖像rx。
2.2框架

給定目標(biāo)圖像X和相應(yīng)的遮罩mx和紋理tx,通過圖3中描述的預(yù)處理步驟生成身份內(nèi)容輸入圖像rx。如圖2(a)所示,引入身份內(nèi)容編碼器Ei和化妝風(fēng)格編碼器Es以將面部圖像分離為兩個不同的代碼:

2.3 網(wǎng)絡(luò)細(xì)節(jié)
我們的IPM網(wǎng)絡(luò)使用Pytorch框架。我們還使用PaddlePaddle來實(shí)現(xiàn)我們的方法,并達(dá)到類似的性能。我們所有的實(shí)驗(yàn)都是在一個NVIDIA GTX 2080Ti GPU上進(jìn)行的。我們應(yīng)用兩種基本塊,即ConvBlock和ResBlock。ConvBlock包含卷積、批量標(biāo)準(zhǔn)化和ReLU激活層。ResBlock包含兩個ConvBlock,但我們刪除了最后一個激活層。我們在圖2(a)中的網(wǎng)絡(luò)結(jié)構(gòu)是基于這兩個塊構(gòu)建的:
(1)Ei由三個ConvBlock和一個ResBlock組成,以256×64×64的格式輸出身份內(nèi)容代碼Ix。
(2) Es使用三個ConvBlock和三個ResBlock的組合,而在最后添加一個平均池層。目標(biāo)圖像和參考圖像都共享ES,每種化妝風(fēng)格都由一個128維的矢量表示。
(3)G采用ConvBlocks,并利用Adam 融合身份內(nèi)容和化妝風(fēng)格。進(jìn)一步利用上采樣層將圖像重新縮放為輸入圖像形狀。此外,rx被添加到G生成的圖像中,作為剩余連接。
(4) D遵循多尺度鑒別器架構(gòu)。在訓(xùn)練階段,每個圖像的大小調(diào)整為321×321,然后隨機(jī)裁剪為256×256。隨機(jī)水平翻轉(zhuǎn)被用作簡單的數(shù)據(jù)擴(kuò)充。我們采用Adam對整個IPM網(wǎng)絡(luò)進(jìn)行優(yōu)化,λ1=0.5,λ2=0.999,并將學(xué)習(xí)率設(shè)置為0.0001。我們訓(xùn)練我們的模型進(jìn)行1000000次迭代,批量大小設(shè)置為3。
# 實(shí)驗(yàn)結(jié)果
3.1 定性結(jié)果
實(shí)驗(yàn)結(jié)果均在在 Makeup Dataset以及采集自網(wǎng)絡(luò)的圖像進(jìn)行測試。
我們的模型允許用戶調(diào)整不同層次的化妝轉(zhuǎn)移,這更接近現(xiàn)實(shí)世界的實(shí)踐。第一行上的目標(biāo)圖像是通過帶有淡妝的網(wǎng)絡(luò)獲得的。另一張目標(biāo)圖像和兩張參考圖像來自化妝傳輸數(shù)據(jù)集,無需化妝。為了使化妝轉(zhuǎn)換的程度可控,我們部署了一個新的參考化妝風(fēng)格Snew,作為參考化妝風(fēng)格Sy和原始化妝風(fēng)格Sx的加權(quán)和。生成的結(jié)果根據(jù)化妝轉(zhuǎn)移級別從輕到重從左到右排序。

下圖是自動補(bǔ)妝結(jié)果。第一列顯示了三個具有不同背景和不同膚色的目標(biāo)圖像。第一行顯示了13張不同化妝風(fēng)格和姿勢的參考圖片。合成結(jié)果顯示在右下角,每一行和每一列對應(yīng)不同的身份內(nèi)容和化妝風(fēng)格。當(dāng)目標(biāo)圖像的身份信息保留時,合成結(jié)果獲得參考圖像中的鑒別化妝風(fēng)格,例如唇膏和眼影的顏色。

3.2 定量結(jié)果
如下表可見:FID(越低越好)和LPIP(越高越好)的比較。我們評估了化妝圖像的真實(shí)性和多樣性,以及化妝轉(zhuǎn)移時生成的圖像。

FID[4]和LPIPS[5] 曲線隨不同迭代次數(shù)的增加而增加。結(jié)果表明,該方法收斂穩(wěn)定,能逐步提高圖像質(zhì)量。

參考文獻(xiàn)
[1] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In ECCV, 2018.
[2] Yifei Pu, Weixing Wang, Jiliu Zhou, Yiyang Wang, and Huading Jia. Fractional differential approach to de- tecting textural features of digital image and its fractional differ- ential filter implementation. Science in China Series F: Informa- tion Sciences, 51(9):1319–1339, 2008.
[3] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang. Fast and accurate image super-resolution with deep laplacian pyramid networks. TPAMI, 2018.
[4] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In NeurlPS, 2017.
[5] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In ECCV, 2018.
