Meta研究員提出Pose-Guided模型,改善從單圖像合成AR/VR新視圖
查看引用/信息源請點擊:映維網(wǎng)Nweon
pose-guided擴散模型
(映維網(wǎng)Nweon?2023年08月07日)從單個圖像合成新視圖已經(jīng)成為眾多虛擬現(xiàn)實應(yīng)用程序提供沉浸式體驗的基礎(chǔ)問題。然而,大多數(shù)現(xiàn)有技術(shù)只能在有限的camera運動范圍內(nèi)合成新視圖,或者不能在顯著的camera運動下生成一致和高質(zhì)量的新視圖。
所以在名為《Consistent View Synthesis with Pose-Guided Diffusion Models》的論文中,馬里蘭大學(xué)和Meta的研究人員提出了一個pose-guided擴散模型,以從單個圖像中生成一致的long-term新視圖。他們設(shè)計了一個使用極線作為約束的attention層,以促進不同視點之間的聯(lián)系。

從日常照片中提供沉浸感3D體驗吸引了相當(dāng)多的關(guān)注。它是廣泛應(yīng)用的基礎(chǔ)技術(shù),如3D照片,3D asset生成和3D場景導(dǎo)航。值得注意的是,業(yè)界在解決單圖像視圖合成問題方面取得了快速進展。
給定任意的窄視場圖像,相關(guān)框架可以從新視點產(chǎn)生高質(zhì)量的圖像。然而,它們僅限于小camera運動范圍內(nèi)的視點。為了解決camera運動范圍小的限制,業(yè)界提出了long-term single-image view synthesis。

如圖1所示,所述任務(wù)嘗試從單個圖像和一系列camera姿態(tài)生成視頻。請注意,與單圖像視圖合成問題不同,在所述設(shè)置下產(chǎn)生的最后幾幀視頻的視點可能遠(yuǎn)離原始視點。以圖1所示的結(jié)果為例,camera移動到輸入圖像中沒有觀察到的不同房間。
從單個圖像生成long-term single-image view synthesis具有挑戰(zhàn)性,主要有兩個原因。首先,由于大camera運動范圍(例如移動到一個新的房間),需要對輸入圖像中未觀察到的區(qū)域產(chǎn)生大量的新內(nèi)容。其次,視圖合成結(jié)果應(yīng)該在不同視點之間保持一致,特別是在輸入視點中觀察到的區(qū)域。
業(yè)界提出了基于顯式和基于隱式的解決方案來處理所述問題?;陲@式的方法使用“warp and refine”策略。具體來說,首先根據(jù)一定的3D先驗,即單目深度估計,將圖像從輸入翹曲到新的視點。然后設(shè)計了一種基于transformer或基于GAN的生成式模型來改進扭曲圖像。但基于顯式的方案是否成功,這取決于單目深度估計的精度。
為了解決這一限制,有人設(shè)計了一個無幾何的transformer來隱式學(xué)習(xí)輸入和輸出視點之間的三維對應(yīng)關(guān)系。盡管產(chǎn)生了合理的新內(nèi)容,但無法產(chǎn)生跨視點的連貫結(jié)果。
其他人提出的框架則利用自回歸transformer進一步提高一致性。然而,生成一致的、高質(zhì)量的long-term視圖合成結(jié)果依然具有挑戰(zhàn)性。
在研究中,馬里蘭大學(xué)和Meta的研究人員提出了一個基于擴散模型的框架,以用于一致和逼真的long-term新視點合成。其中,所述擴散模型在一系列的內(nèi)容創(chuàng)建應(yīng)用中取得了令人印象深刻的性能,例如文本到圖像的生成。
然而,所述方法只適用于二維圖像,缺乏三維可控性。所以,團隊又開發(fā)了一個具有極域attention層的pose-guided擴散模型。具體而言,在所提出的擴散模型的UNet網(wǎng)絡(luò)中,他們設(shè)計了極域attetion層來關(guān)聯(lián)輸入視圖和輸出視圖特征。根據(jù)camera姿態(tài)信息,對輸出視圖特征圖上的每個像素估計輸入視圖特征圖的極線。由于極線表示候選對應(yīng),研究人員使用它們作為約束來計算輸入和輸出視圖之間的attetion權(quán)重。

上圖是團隊方法的概述。在左邊,pose-guided擴散模型的核心組件是UNet,它將源視圖圖像和camera姿態(tài)作為輸入(紅色字體),并在目標(biāo)視點對圖像進行去噪。
研究人員使用編碼器從源視圖特征中提取特征。他們同時設(shè)計了一種將目標(biāo)視圖與源視圖特征相關(guān)聯(lián)的極域attention,并在UNet網(wǎng)絡(luò)的每個self-attention層之后添加極域attetion層。UNet模型通過極域attention層將源視圖特征和camera參數(shù)作為輸入,預(yù)測去噪后的目標(biāo)視圖圖像。
在右邊,根據(jù)輸入的camera參數(shù),可以將極線作為約束來估計源視圖和目標(biāo)視圖特征之間的attention。

為了評估所提出的方法,團隊對真實世界的Realestate10K和合成的Matterport3D數(shù)據(jù)集進行了廣泛的定量和定性研究。利用極域attetion層,pose-guided擴散模型能夠合成在不可見區(qū)域具有逼真新內(nèi)容,并且與其他視點一致的long-term新視圖。
相關(guān)論文:Consistent View Synthesis with Pose-Guided Diffusion Models
https://paper.nweon.com/14250
總的來說,團隊提出了一種pose-guided擴散模型,以從單幅圖像合成新視圖視頻。所述擴散模型的核心是估計兩個camera視點圖像之間依賴關(guān)系的極域attention。定性和定量結(jié)果表明,所提出的姿pose-guided擴散模型產(chǎn)生的新視圖是真實的(即便視點遠(yuǎn)離輸入視圖),而且不同視點之間保持一致。
---
原文鏈接:https://news.nweon.com/111231