最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Meta研究員提出Pose-Guided模型,改善從單圖像合成AR/VR新視圖

2023-08-09 15:56 作者:映維網(wǎng)劉衛(wèi)華  | 我要投稿

查看引用/信息源請點擊:映維網(wǎng)Nweon

pose-guided擴散模型

映維網(wǎng)Nweon?2023年08月07日)從單個圖像合成新視圖已經(jīng)成為眾多虛擬現(xiàn)實應(yīng)用程序提供沉浸式體驗的基礎(chǔ)問題。然而,大多數(shù)現(xiàn)有技術(shù)只能在有限的camera運動范圍內(nèi)合成新視圖,或者不能在顯著的camera運動下生成一致和高質(zhì)量的新視圖。

所以在名為《Consistent View Synthesis with Pose-Guided Diffusion Models》的論文中,馬里蘭大學(xué)和Meta的研究人員提出了一個pose-guided擴散模型,以從單個圖像中生成一致的long-term新視圖。他們設(shè)計了一個使用極線作為約束的attention層,以促進不同視點之間的聯(lián)系。

從日常照片中提供沉浸感3D體驗吸引了相當(dāng)多的關(guān)注。它是廣泛應(yīng)用的基礎(chǔ)技術(shù),如3D照片,3D asset生成和3D場景導(dǎo)航。值得注意的是,業(yè)界在解決單圖像視圖合成問題方面取得了快速進展。

給定任意的窄視場圖像,相關(guān)框架可以從新視點產(chǎn)生高質(zhì)量的圖像。然而,它們僅限于小camera運動范圍內(nèi)的視點。為了解決camera運動范圍小的限制,業(yè)界提出了long-term single-image view synthesis。

如圖1所示,所述任務(wù)嘗試從單個圖像和一系列camera姿態(tài)生成視頻。請注意,與單圖像視圖合成問題不同,在所述設(shè)置下產(chǎn)生的最后幾幀視頻的視點可能遠(yuǎn)離原始視點。以圖1所示的結(jié)果為例,camera移動到輸入圖像中沒有觀察到的不同房間。

從單個圖像生成long-term single-image view synthesis具有挑戰(zhàn)性,主要有兩個原因。首先,由于大camera運動范圍(例如移動到一個新的房間),需要對輸入圖像中未觀察到的區(qū)域產(chǎn)生大量的新內(nèi)容。其次,視圖合成結(jié)果應(yīng)該在不同視點之間保持一致,特別是在輸入視點中觀察到的區(qū)域。

業(yè)界提出了基于顯式和基于隱式的解決方案來處理所述問題?;陲@式的方法使用“warp and refine”策略。具體來說,首先根據(jù)一定的3D先驗,即單目深度估計,將圖像從輸入翹曲到新的視點。然后設(shè)計了一種基于transformer或基于GAN的生成式模型來改進扭曲圖像。但基于顯式的方案是否成功,這取決于單目深度估計的精度。

為了解決這一限制,有人設(shè)計了一個無幾何的transformer來隱式學(xué)習(xí)輸入和輸出視點之間的三維對應(yīng)關(guān)系。盡管產(chǎn)生了合理的新內(nèi)容,但無法產(chǎn)生跨視點的連貫結(jié)果。

其他人提出的框架則利用自回歸transformer進一步提高一致性。然而,生成一致的、高質(zhì)量的long-term視圖合成結(jié)果依然具有挑戰(zhàn)性。

在研究中,馬里蘭大學(xué)和Meta的研究人員提出了一個基于擴散模型的框架,以用于一致和逼真的long-term新視點合成。其中,所述擴散模型在一系列的內(nèi)容創(chuàng)建應(yīng)用中取得了令人印象深刻的性能,例如文本到圖像的生成。

然而,所述方法只適用于二維圖像,缺乏三維可控性。所以,團隊又開發(fā)了一個具有極域attention層的pose-guided擴散模型。具體而言,在所提出的擴散模型的UNet網(wǎng)絡(luò)中,他們設(shè)計了極域attetion層來關(guān)聯(lián)輸入視圖和輸出視圖特征。根據(jù)camera姿態(tài)信息,對輸出視圖特征圖上的每個像素估計輸入視圖特征圖的極線。由于極線表示候選對應(yīng),研究人員使用它們作為約束來計算輸入和輸出視圖之間的attetion權(quán)重。

上圖是團隊方法的概述。在左邊,pose-guided擴散模型的核心組件是UNet,它將源視圖圖像和camera姿態(tài)作為輸入(紅色字體),并在目標(biāo)視點對圖像進行去噪。

研究人員使用編碼器從源視圖特征中提取特征。他們同時設(shè)計了一種將目標(biāo)視圖與源視圖特征相關(guān)聯(lián)的極域attention,并在UNet網(wǎng)絡(luò)的每個self-attention層之后添加極域attetion層。UNet模型通過極域attention層將源視圖特征和camera參數(shù)作為輸入,預(yù)測去噪后的目標(biāo)視圖圖像。

在右邊,根據(jù)輸入的camera參數(shù),可以將極線作為約束來估計源視圖和目標(biāo)視圖特征之間的attention。

為了評估所提出的方法,團隊對真實世界的Realestate10K和合成的Matterport3D數(shù)據(jù)集進行了廣泛的定量和定性研究。利用極域attetion層,pose-guided擴散模型能夠合成在不可見區(qū)域具有逼真新內(nèi)容,并且與其他視點一致的long-term新視圖。

相關(guān)論文:Consistent View Synthesis with Pose-Guided Diffusion Models

https://paper.nweon.com/14250

總的來說,團隊提出了一種pose-guided擴散模型,以從單幅圖像合成新視圖視頻。所述擴散模型的核心是估計兩個camera視點圖像之間依賴關(guān)系的極域attention。定性和定量結(jié)果表明,所提出的姿pose-guided擴散模型產(chǎn)生的新視圖是真實的(即便視點遠(yuǎn)離輸入視圖),而且不同視點之間保持一致。


---
原文鏈接:https://news.nweon.com/111231


Meta研究員提出Pose-Guided模型,改善從單圖像合成AR/VR新視圖的評論 (共 條)

分享到微博請遵守國家法律
阳山县| 洛隆县| 政和县| 通榆县| 闸北区| 廉江市| 民丰县| 普安县| 石嘴山市| 云浮市| 庆城县| 保山市| 平泉县| 昌平区| 塔城市| 会同县| 澄迈县| 兴业县| 云浮市| 呼图壁县| 水城县| 长沙市| 婺源县| 马鞍山市| 进贤县| 丹阳市| 阿尔山市| 沭阳县| 禹州市| 定兴县| 康保县| 龙南县| 临泽县| 崇礼县| 嫩江县| 偏关县| 嵩明县| 安宁市| 闽清县| 台湾省| 瑞安市|