Meta等研究員提出從視頻重建動態(tài)輻射場的算法RoDynRF
查看引用/信息源請點(diǎn)擊:映維網(wǎng)Nweon
不需要精確的camera姿勢作為輸入
(映維網(wǎng)Nweon?2023年07月21日)視頻捕獲并保存了生活中眾多值得紀(jì)念的時(shí)刻。但在查看普通視頻時(shí),我們是從固定的視點(diǎn)感知場景,之后無法交互式地導(dǎo)航場景。動態(tài)視圖合成技術(shù)旨在從任意camera角度和視點(diǎn)創(chuàng)建動態(tài)場景的逼真新視圖。這種系統(tǒng)對于虛擬現(xiàn)實(shí)等創(chuàng)新應(yīng)用至關(guān)重要。
動態(tài)輻射場重建方法旨在模擬動態(tài)場景的時(shí)變結(jié)構(gòu)和外觀。然而,現(xiàn)有的方法都假定通過運(yùn)動構(gòu)造SfM算法能夠可靠地估計(jì)出精確的camera姿態(tài)。但所述方法并不一定可靠,因?yàn)镾fM算法經(jīng)常失敗,或者在具有高度動態(tài)對象,次優(yōu)紋理表面和旋轉(zhuǎn)camera運(yùn)動等具有挑戰(zhàn)性的視頻中產(chǎn)生錯誤的姿態(tài)。
在《Robust Dynamic Radiance Fields》的論文中,Meta,臺灣大學(xué),韓國科學(xué)技術(shù)院和馬里蘭大學(xué)的研究人員提出了一種從視頻重建動態(tài)輻射場的算法RoDynRF。不需要精確的camera姿勢作為輸入,它可通過聯(lián)合估計(jì)靜態(tài)和動態(tài)輻射場以及camera參數(shù)(姿態(tài)和焦距)來解決這一魯棒性問題。大量的定量和定性實(shí)驗(yàn)都證明了所述方法的魯棒性,而且研究結(jié)果顯示了比目前最先進(jìn)的動態(tài)視圖合成方法更好的性能。

動態(tài)視圖合成系統(tǒng)可以實(shí)現(xiàn)自由視點(diǎn)視頻,并允許用戶與視頻序列進(jìn)行交互,從而能夠促進(jìn)諸如虛擬現(xiàn)實(shí)等下游應(yīng)用。動態(tài)視圖合成系統(tǒng)通常依賴于昂貴且費(fèi)力的設(shè)置,例如固定的多攝像頭捕獲平臺,并從多個(gè)攝像頭同時(shí)捕獲。
但隨著技術(shù)的進(jìn)步,業(yè)界現(xiàn)在已經(jīng)能夠從單個(gè)立體或RGB攝像頭生成動態(tài)的新視圖。盡管特定方法可以處理非結(jié)構(gòu)化視頻輸入,但它們通常需要通過SfM系統(tǒng)估計(jì)精確的camera姿態(tài)。
當(dāng)然,近來出現(xiàn)了一系列針對非結(jié)構(gòu)化視頻的動態(tài)視圖合成方法,以及基于可變形場的新方法。然而,所述技術(shù)同樣需要通過COLMAP等SfM系統(tǒng)來估計(jì)精確的camera姿態(tài)。
SfM系統(tǒng)對諸多問題并不具有魯棒性,例如低光條件下的噪點(diǎn)圖像、用戶引起的運(yùn)動模糊或場景中的動態(tài)對象,如人、汽車和動物。
由于SfM系統(tǒng)的魯棒性問題,現(xiàn)有的動態(tài)視圖合成方法不適合一系列具有挑戰(zhàn)性的視頻。所以,由Meta,臺灣大學(xué),韓國科學(xué)技術(shù)院和馬里蘭大學(xué)組成的團(tuán)隊(duì)介紹了一種從視頻重建動態(tài)輻射場的算法RoDynRF。
與現(xiàn)有的方法不同,它不需要精確的camera姿勢作為輸入。他們優(yōu)化camera姿態(tài)和兩個(gè)輻射場,建模靜態(tài)和動態(tài)元素。另外,所述方法包括一個(gè)從coarse-to-fine的策略和極域幾何,以排除移動像素、變形場、時(shí)間相關(guān)的外觀模型和正則化損失,從而提高一致性。

上圖給出了團(tuán)隊(duì)提出的框架。給定一個(gè)N幀的輸入視頻序列,所述方法共同優(yōu)化了camera姿態(tài)、焦距、靜態(tài)和動態(tài)輻射場。他們分別用顯式神經(jīng)體素Vs和Vd來表示靜態(tài)和動態(tài)部分。靜態(tài)輻射場負(fù)責(zé)重建靜態(tài)場景并估計(jì)camera姿態(tài)和焦距。同時(shí),動態(tài)輻射場的目標(biāo)是模擬視頻中的場景動態(tài)。
進(jìn)一步講,研究人員用靜態(tài)和動態(tài)輻射場對動態(tài)場景進(jìn)行建模。靜態(tài)輻射場以采樣坐標(biāo)(x, y, z)和觀測方向d作為輸入,預(yù)測密度σs和顏色cs。請注意,靜態(tài)部分的密度與時(shí)間和觀察方向不變。因此,使用查詢特征的總和作為密度,而不是使用MLP。
他們只計(jì)算靜態(tài)區(qū)域的損失。計(jì)算的梯度不僅反向傳播到靜態(tài)體素場和mlp,而且反向傳播到camera參數(shù)。動態(tài)輻射場取采樣坐標(biāo)和時(shí)間t,得到正則空間中的變形坐標(biāo)(x′,y′,z′)。
然后,利用動態(tài)體素場的變形坐標(biāo)查詢特征,并將特征與時(shí)間索引一起傳遞給時(shí)間相關(guān)的shallow MLP,得到動態(tài)部分的顏色cd、密度σd和非剛性md。
在volume rendering之后,可以得到靜態(tài)部分和動態(tài)部分的RGB圖像C{s,d}和深度圖d {s,d},以及非剛性掩碼Md。最后,研究人員計(jì)算了每幀重構(gòu)的損失。注意,這里只包括每幀損失。



大量的定量和定性實(shí)驗(yàn)都證明了所述方法的魯棒性,而且研究結(jié)果顯示了比目前最先進(jìn)的動態(tài)視圖合成方法更好的性能。例如,Table 3中報(bào)告了PSNR和LPIPS。研究人員提出的方法比最先進(jìn)的方法表現(xiàn)得更好。另外,即便沒有COLMAP姿勢,所述方法依然可以獲得與使用COLMAP姿態(tài)相當(dāng)?shù)慕Y(jié)果。
他們同時(shí)遵循DyCheck的評估協(xié)議,對iPhone數(shù)據(jù)集進(jìn)行定量評估。Table 4中報(bào)告了掩碼的PSNR和SSIM,并表明團(tuán)隊(duì)的方法與現(xiàn)有方法的性能相當(dāng)。
相關(guān)論文:
Robust Dynamic Radiance Fields
https://paper.nweon.com/14564
我們提出了健壯的動態(tài)輻射場,用于隨意捕獲的單目視頻的時(shí)空合成,而不需要相機(jī)姿勢作為輸入。通過提出的模型設(shè)計(jì),我們證明了我們的方法可以從各種具有挑戰(zhàn)性的視頻中重建精確的動態(tài)輻射場。我們通過與最先進(jìn)的廣泛的定量和定性比較來驗(yàn)證所提出方法的有效性。
---
原文鏈接:https://news.nweon.com/110538