散文網(wǎng) » 科技 »學(xué)習(xí) » IPM-Net和BeautyGAN誰更好玩？

IPM-Net和BeautyGAN誰更好玩？

2022-04-21 19:07 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿作者：小灰灰

編輯：學(xué)姐

論文解讀 [IJCAI-2020]通過身份個性化網(wǎng)絡(luò)(IPM)實(shí)現(xiàn)真實(shí)世界的自動化妝

社交網(wǎng)絡(luò)的不斷發(fā)展也讓人們對美顏技術(shù)提出了更高的要求，在完成圖像美化的同時保證圖像的真實(shí)性是至關(guān)重要的。

本文重點(diǎn)研究現(xiàn)實(shí)世界的自動化妝問題。給定一張非化妝目標(biāo)圖像和一張參考圖像，自動化妝是生成一張人臉圖像，它與參考圖像中的化妝風(fēng)格保持原始身份。在現(xiàn)實(shí)世界的場景中，面部化妝任務(wù)需要一個強(qiáng)大的系統(tǒng)來應(yīng)對環(huán)境變化。

現(xiàn)實(shí)世界中人臉化妝的兩個主要挑戰(zhàn)可以概括如下：

首先，現(xiàn)實(shí)世界圖像中的背景很復(fù)雜。以前的方法也容易改變背景的風(fēng)格；
其次，前景面也容易受到影響。例如，“濃妝”可能會丟失原始身份的區(qū)分信息。
最后評價指標(biāo)的缺失。對于化妝效果的好壞還是依靠志愿者的主觀判斷，缺少客觀的量化指標(biāo)。

為了解決這個挑戰(zhàn)，我們引入了一種新的化妝模型，稱為身份保護(hù)化妝網(wǎng)絡(luò)（IPM-Net），它不僅保留了背景，而且保留了原始身份的關(guān)鍵模式。具體來說，我們將人臉圖像分解為兩個不同的信息代碼，即身份內(nèi)容代碼和化妝風(fēng)格代碼。

在推理的時候，我們只需要修改妝容代碼，就可以生成目標(biāo)人物的各種妝容。作者從現(xiàn)實(shí)世界需求出發(fā)，探索了完成人臉自動上妝同時保留圖像的真實(shí)性的方法，同時提出了使用FID以及LPIPS來量化人臉自動上妝的效果。

論文標(biāo)題：

Real-World Automatic Makeup via Identity Preservation Makeup Net

論文鏈接: https://www.ijcai.org/proceedings/2020/0091.pdf

論文代碼：https://github.com/huangzhikun1995/IPM-Net

# 本文的創(chuàng)新點(diǎn)

1、我們提出了一種新的自動化妝模型，稱為Identity?。Preservation Makeup Net (IPM-Net), 為了解決現(xiàn)實(shí)世界中自動化妝的兩個問題任務(wù)。我們的方法有效地轉(zhuǎn)移了化妝風(fēng)格將參考圖像轉(zhuǎn)換為目標(biāo)圖像，同時保留研究的背景和關(guān)鍵模式原始身份。

2、該方法能在較短的推理時間內(nèi)實(shí)現(xiàn)可控的化妝轉(zhuǎn)移，我們的模型每秒可以處理 16 張 256*256 的人臉圖像。。它使我們的模型更接近現(xiàn)實(shí)世界的實(shí)踐

3、作為一個小貢獻(xiàn)，我們介紹了FID和SSIM對于化妝的真實(shí)性和多樣性進(jìn)行評價。我們的該方法在這兩方面都優(yōu)于其他競爭性方法定性和定量結(jié)果。

# 網(wǎng)絡(luò)結(jié)構(gòu)

2.1 圖像預(yù)處理

我們注意到，自動化妝的目的只是改變目標(biāo)圖像的幾個部分，同時保留大多數(shù)身份內(nèi)容信息。因此，我們建議首先將面部圖像分解為兩個空間（見表1）。身份內(nèi)容空間包含圖像中的個人身份信息和其他應(yīng)保留的詳細(xì)信息?；瘖y風(fēng)格空間是學(xué)習(xí)臉上的化妝風(fēng)格。為了幫助兩種不同的特征提取，我們對輸入圖像進(jìn)行了預(yù)處理。

具體來說，我們?yōu)槊總€人臉定制了一個面具和一個細(xì)粒度紋理。

?

預(yù)處理結(jié)果如圖3所示。給定一個輸入圖像x，我們通過四個步驟生成輸入圖像rx中的身份內(nèi)容:

（1）我們首先通過人臉解析算[1]法獲取mask,?

（2）為了保留背景，我們將目標(biāo)圖像x和相應(yīng)的掩碼mx相乘，得到背景圖像bx。我們進(jìn)一步將化妝區(qū)域設(shè)置為灰色，但bx會丟失面部紋理信息。

（3）因此，我們使用微分濾波器[2]提取化妝區(qū)域的紋理，該濾波器僅保留必要的紋理并濾除噪聲信號。此外，我們還增加了面部特征紋理的權(quán)重，以突出面部特征的紋理tx。

（4）最后，通過添加紋理tx和bx背景來生成身份內(nèi)容輸入圖像rx。

2.2框架

給定目標(biāo)圖像X和相應(yīng)的遮罩mx和紋理tx，通過圖3中描述的預(yù)處理步驟生成身份內(nèi)容輸入圖像rx。如圖2（a）所示，引入身份內(nèi)容編碼器Ei和化妝風(fēng)格編碼器Es以將面部圖像分離為兩個不同的代碼：

2.3 網(wǎng)絡(luò)細(xì)節(jié)

我們的IPM網(wǎng)絡(luò)使用Pytorch框架。我們還使用PaddlePaddle來實(shí)現(xiàn)我們的方法，并達(dá)到類似的性能。我們所有的實(shí)驗(yàn)都是在一個NVIDIA GTX 2080Ti GPU上進(jìn)行的。我們應(yīng)用兩種基本塊，即ConvBlock和ResBlock。ConvBlock包含卷積、批量標(biāo)準(zhǔn)化和ReLU激活層。ResBlock包含兩個ConvBlock，但我們刪除了最后一個激活層。我們在圖2（a）中的網(wǎng)絡(luò)結(jié)構(gòu)是基于這兩個塊構(gòu)建的：

（1）Ei由三個ConvBlock和一個ResBlock組成，以256×64×64的格式輸出身份內(nèi)容代碼Ix。

（2） Es使用三個ConvBlock和三個ResBlock的組合，而在最后添加一個平均池層。目標(biāo)圖像和參考圖像都共享ES，每種化妝風(fēng)格都由一個128維的矢量表示。

（3）G采用ConvBlocks，并利用Adam 融合身份內(nèi)容和化妝風(fēng)格。進(jìn)一步利用上采樣層將圖像重新縮放為輸入圖像形狀。此外，rx被添加到G生成的圖像中，作為剩余連接。

（4） D遵循多尺度鑒別器架構(gòu)。在訓(xùn)練階段，每個圖像的大小調(diào)整為321×321，然后隨機(jī)裁剪為256×256。隨機(jī)水平翻轉(zhuǎn)被用作簡單的數(shù)據(jù)擴(kuò)充。我們采用Adam對整個IPM網(wǎng)絡(luò)進(jìn)行優(yōu)化，λ1=0.5，λ2=0.999，并將學(xué)習(xí)率設(shè)置為0.0001。我們訓(xùn)練我們的模型進(jìn)行1000000次迭代，批量大小設(shè)置為3。

# 實(shí)驗(yàn)結(jié)果

3.1 定性結(jié)果

實(shí)驗(yàn)結(jié)果均在在 Makeup Dataset以及采集自網(wǎng)絡(luò)的圖像進(jìn)行測試。

我們的模型允許用戶調(diào)整不同層次的化妝轉(zhuǎn)移，這更接近現(xiàn)實(shí)世界的實(shí)踐。第一行上的目標(biāo)圖像是通過帶有淡妝的網(wǎng)絡(luò)獲得的。另一張目標(biāo)圖像和兩張參考圖像來自化妝傳輸數(shù)據(jù)集，無需化妝。為了使化妝轉(zhuǎn)換的程度可控，我們部署了一個新的參考化妝風(fēng)格Snew，作為參考化妝風(fēng)格Sy和原始化妝風(fēng)格Sx的加權(quán)和。生成的結(jié)果根據(jù)化妝轉(zhuǎn)移級別從輕到重從左到右排序。

下圖是自動補(bǔ)妝結(jié)果。第一列顯示了三個具有不同背景和不同膚色的目標(biāo)圖像。第一行顯示了13張不同化妝風(fēng)格和姿勢的參考圖片。合成結(jié)果顯示在右下角，每一行和每一列對應(yīng)不同的身份內(nèi)容和化妝風(fēng)格。當(dāng)目標(biāo)圖像的身份信息保留時，合成結(jié)果獲得參考圖像中的鑒別化妝風(fēng)格，例如唇膏和眼影的顏色。

3.2 定量結(jié)果

如下表可見：FID（越低越好）和LPIP（越高越好）的比較。我們評估了化妝圖像的真實(shí)性和多樣性，以及化妝轉(zhuǎn)移時生成的圖像。

FID[4]和LPIPS[5] 曲線隨不同迭代次數(shù)的增加而增加。結(jié)果表明，該方法收斂穩(wěn)定，能逐步提高圖像質(zhì)量。

參考文獻(xiàn)

[1] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In ECCV, 2018.

[2] Yifei Pu, Weixing Wang, Jiliu Zhou, Yiyang Wang, and Huading Jia. Fractional differential approach to de- tecting textural features of digital image and its fractional differ- ential filter implementation. Science in China Series F: Informa- tion Sciences, 51(9):1319–1339, 2008.

[3] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang. Fast and accurate image super-resolution with deep laplacian pyramid networks. TPAMI, 2018.

[4] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In NeurlPS, 2017.

[5] Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, and Nong Sang. Bisenet: Bilateral segmentation network for real-time semantic segmentation. In ECCV, 2018.

標(biāo)簽：