CVPR2020 | 參數(shù)量減半,北大開(kāi)源全新高效空域轉(zhuǎn)換模塊,還原圖像逼真細(xì)節(jié)

很多圖像生成任務(wù)都需要在空域?qū)斎雸D像進(jìn)行移動(dòng)和重新排列。然而,卷積神經(jīng)網(wǎng)絡(luò)難以進(jìn)行高效的空域轉(zhuǎn)換操作。近日,來(lái)自北大和鵬城實(shí)驗(yàn)室的研究者們提出了一種全新的空域轉(zhuǎn)換模塊Global-Flow Local-Attention。這一模塊將光流和注意力機(jī)制結(jié)合起來(lái),通過(guò)首先提取源圖像與目標(biāo)圖像之間的整體相關(guān)性,得到全局的光流圖。然后利用光流圖,采樣局部的特征塊以進(jìn)行局部的注意力操作。
他們?cè)谌梭w姿態(tài)轉(zhuǎn)換任務(wù)上測(cè)試了提出模型的優(yōu)越性。實(shí)驗(yàn)結(jié)果證明模型可以對(duì)輸入圖像進(jìn)行準(zhǔn)確高效地空域轉(zhuǎn)換:輸出結(jié)果圖像保持了輸入圖像中逼真的細(xì)節(jié)紋理;同時(shí),模型的參數(shù)量不足現(xiàn)有主流方法的一半。

此外文章還將提出的模塊用于Image Animation任務(wù)。通過(guò)輸入連續(xù)的指導(dǎo)信息來(lái)生成逼真的運(yùn)動(dòng)視頻。


Global-Flow Local-Attention模型簡(jiǎn)介

文章所提出的模型架構(gòu)如上圖所示。具體來(lái)說(shuō),模型可以被分為兩個(gè)模塊:全局光流提取器和局部特征渲染器。全局光流提取器用來(lái)提取源圖像和目標(biāo)圖像之間的光流場(chǎng)。而局部特征渲染器則利用提取到的光流場(chǎng)從源圖像中采樣逼真的紋理信息,從而對(duì)目標(biāo)圖像的骨架進(jìn)行渲染,得到結(jié)果圖像。

為了使模型穩(wěn)定地收斂,在局部特征渲染器中,文章沒(méi)有采用傳統(tǒng)的雙線性插值進(jìn)行采樣。而是使用了內(nèi)容感知的局部注意力機(jī)制。這一操作的具體流程如上圖所示。首先,從源特征以及目標(biāo)特征中提取局部的圖像塊。利用局部采樣核預(yù)測(cè)網(wǎng)絡(luò)來(lái)預(yù)測(cè)圖像塊對(duì)之間的注意力系數(shù)。這一系數(shù)被用做采樣參數(shù)來(lái)采樣提取的局部特征塊。以得到最終的采樣結(jié)果。
那么算法的實(shí)際效果如何呢?

作者在兩個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。在客觀指標(biāo)FID和LPIPS上算法都有明顯的優(yōu)勢(shì)。同時(shí)他們也在MTurk平臺(tái)邀請(qǐng)志愿者進(jìn)行了主觀測(cè)試的實(shí)驗(yàn)。JND(Just Noticeable Difference)表示了各個(gè)方法生成的結(jié)果與真實(shí)圖像對(duì)比時(shí)的欺騙率??梢钥吹轿恼绿岢龅乃惴ㄈ〉昧撕芎玫臏y(cè)試結(jié)果。

從不同算法的結(jié)果圖像中可以看出文章所提出的算法不僅能夠生成正確的姿勢(shì),同時(shí)還能夠還原出結(jié)果圖像逼真的紋理信息,例如:衣服上的圖案花紋、鞋帶的樣式等等。

此外,文章還進(jìn)行了詳盡的消融實(shí)驗(yàn)來(lái)驗(yàn)證假設(shè)的正確性。對(duì)比的模型包括:不使用任何Attention模塊(Baseline);使用傳統(tǒng)的Global Attention模塊(Global-Attn);使用光流模塊,但是采用雙線性插值進(jìn)行采樣(Bi-sample)以及完整的模型(Full Model)??梢钥闯?,采用完整Global-Flow Local-Attention模塊的模型(Full Model)取得了最好的性能。

通過(guò)分析消融實(shí)驗(yàn)的主觀結(jié)果圖像可以進(jìn)一步地為這一結(jié)論尋找可能的解釋。Baseline難以恢復(fù)細(xì)節(jié)信息,因?yàn)樗褂靡环N先將原始信息抽象,后擴(kuò)散至局部的方式來(lái)生成結(jié)果圖像。Global-Attn將某一特征與全部的特征計(jì)算相似度并采樣。這樣的采樣方式并不符合該任務(wù)的需求,因此結(jié)果圖像無(wú)法恢復(fù)逼真的細(xì)節(jié)信息。Bi-sample會(huì)因?yàn)殄e(cuò)誤的采樣而導(dǎo)致性能下降。Full Model維持了良好的結(jié)構(gòu)和細(xì)節(jié)信息。
傳遞門(mén)
想要了解更多的細(xì)節(jié)請(qǐng)參看論文:https://arxiv.org/pdf/2003.00696.pdf
同時(shí)作者也開(kāi)源了實(shí)驗(yàn)代碼:https://github.com/RenYurui/Global-Flow-Local-Attention