散文網(wǎng) » 生活 »日常 » Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖

2023-08-09 15:56 作者:映維網(wǎng)劉衛(wèi)華 0人讀過 | 我要投稿

查看引用/信息源請點擊：映維網(wǎng)Nweon

pose-guided擴散模型

（映維網(wǎng)Nweon?2023年08月07日）從單個圖像合成新視圖已經(jīng)成為眾多虛擬現(xiàn)實應(yīng)用程序提供沉浸式體驗的基礎(chǔ)問題。然而，大多數(shù)現(xiàn)有技術(shù)只能在有限的camera運動范圍內(nèi)合成新視圖，或者不能在顯著的camera運動下生成一致和高質(zhì)量的新視圖。

所以在名為《Consistent View Synthesis with Pose-Guided Diffusion Models》的論文中，馬里蘭大學(xué)和Meta的研究人員提出了一個pose-guided擴散模型，以從單個圖像中生成一致的long-term新視圖。他們設(shè)計了一個使用極線作為約束的attention層，以促進不同視點之間的聯(lián)系。

從日常照片中提供沉浸感3D體驗吸引了相當(dāng)多的關(guān)注。它是廣泛應(yīng)用的基礎(chǔ)技術(shù)，如3D照片，3D asset生成和3D場景導(dǎo)航。值得注意的是，業(yè)界在解決單圖像視圖合成問題方面取得了快速進展。

給定任意的窄視場圖像，相關(guān)框架可以從新視點產(chǎn)生高質(zhì)量的圖像。然而，它們僅限于小camera運動范圍內(nèi)的視點。為了解決camera運動范圍小的限制，業(yè)界提出了long-term single-image view synthesis。

如圖1所示，所述任務(wù)嘗試從單個圖像和一系列camera姿態(tài)生成視頻。請注意，與單圖像視圖合成問題不同，在所述設(shè)置下產(chǎn)生的最后幾幀視頻的視點可能遠(yuǎn)離原始視點。以圖1所示的結(jié)果為例，camera移動到輸入圖像中沒有觀察到的不同房間。

從單個圖像生成long-term single-image view synthesis具有挑戰(zhàn)性，主要有兩個原因。首先，由于大camera運動范圍（例如移動到一個新的房間），需要對輸入圖像中未觀察到的區(qū)域產(chǎn)生大量的新內(nèi)容。其次，視圖合成結(jié)果應(yīng)該在不同視點之間保持一致，特別是在輸入視點中觀察到的區(qū)域。

業(yè)界提出了基于顯式和基于隱式的解決方案來處理所述問題?；陲@式的方法使用“warp and refine”策略。具體來說，首先根據(jù)一定的3D先驗，即單目深度估計，將圖像從輸入翹曲到新的視點。然后設(shè)計了一種基于transformer或基于GAN的生成式模型來改進扭曲圖像。但基于顯式的方案是否成功，這取決于單目深度估計的精度。

為了解決這一限制，有人設(shè)計了一個無幾何的transformer來隱式學(xué)習(xí)輸入和輸出視點之間的三維對應(yīng)關(guān)系。盡管產(chǎn)生了合理的新內(nèi)容，但無法產(chǎn)生跨視點的連貫結(jié)果。

其他人提出的框架則利用自回歸transformer進一步提高一致性。然而，生成一致的、高質(zhì)量的long-term視圖合成結(jié)果依然具有挑戰(zhàn)性。

在研究中，馬里蘭大學(xué)和Meta的研究人員提出了一個基于擴散模型的框架，以用于一致和逼真的long-term新視點合成。其中，所述擴散模型在一系列的內(nèi)容創(chuàng)建應(yīng)用中取得了令人印象深刻的性能，例如文本到圖像的生成。

然而，所述方法只適用于二維圖像，缺乏三維可控性。所以，團隊又開發(fā)了一個具有極域attention層的pose-guided擴散模型。具體而言，在所提出的擴散模型的UNet網(wǎng)絡(luò)中，他們設(shè)計了極域attetion層來關(guān)聯(lián)輸入視圖和輸出視圖特征。根據(jù)camera姿態(tài)信息，對輸出視圖特征圖上的每個像素估計輸入視圖特征圖的極線。由于極線表示候選對應(yīng)，研究人員使用它們作為約束來計算輸入和輸出視圖之間的attetion權(quán)重。

上圖是團隊方法的概述。在左邊，pose-guided擴散模型的核心組件是UNet，它將源視圖圖像和camera姿態(tài)作為輸入（紅色字體），并在目標(biāo)視點對圖像進行去噪。

研究人員使用編碼器從源視圖特征中提取特征。他們同時設(shè)計了一種將目標(biāo)視圖與源視圖特征相關(guān)聯(lián)的極域attention，并在UNet網(wǎng)絡(luò)的每個self-attention層之后添加極域attetion層。UNet模型通過極域attention層將源視圖特征和camera參數(shù)作為輸入，預(yù)測去噪后的目標(biāo)視圖圖像。

在右邊，根據(jù)輸入的camera參數(shù)，可以將極線作為約束來估計源視圖和目標(biāo)視圖特征之間的attention。

為了評估所提出的方法，團隊對真實世界的Realestate10K和合成的Matterport3D數(shù)據(jù)集進行了廣泛的定量和定性研究。利用極域attetion層，pose-guided擴散模型能夠合成在不可見區(qū)域具有逼真新內(nèi)容，并且與其他視點一致的long-term新視圖。

相關(guān)論文：Consistent View Synthesis with Pose-Guided Diffusion Models

https://paper.nweon.com/14250

總的來說，團隊提出了一種pose-guided擴散模型，以從單幅圖像合成新視圖視頻。所述擴散模型的核心是估計兩個camera視點圖像之間依賴關(guān)系的極域attention。定性和定量結(jié)果表明，所提出的姿pose-guided擴散模型產(chǎn)生的新視圖是真實的（即便視點遠(yuǎn)離輸入視圖），而且不同視點之間保持一致。

---
原文鏈接：https://news.nweon.com/111231

標(biāo)簽：

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖

本文作者的其他文章

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Meta研究員提出Pose-Guided模型，改善從單圖像合成AR/VR新視圖的評論 (共條)