最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

融合ToF+NeRF,Meta提出T?RF,實(shí)現(xiàn)更優(yōu)動(dòng)態(tài)場(chǎng)景視圖合成

2022-03-10 09:28 作者:映維網(wǎng)劉衛(wèi)華  | 我要投稿

查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon

視點(diǎn)合成

映維網(wǎng)Nweon?2022年03月09日)新視點(diǎn)合成(Novel-View Synthesis;NVS)的目標(biāo)是從新視點(diǎn)逼真地渲染圖像,并且長(zhǎng)期以來都是計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要挑戰(zhàn)。

給定從不同視點(diǎn)拍攝的大量圖像,系統(tǒng)可以推斷場(chǎng)景的幾何結(jié)構(gòu)和外觀,并以新camera姿勢(shì)合成圖像。與NVS相關(guān)的一個(gè)問題是,它需要一組來自不同視角的不同圖像以準(zhǔn)確地表示場(chǎng)景。這可能涉及在靜態(tài)環(huán)境中移動(dòng)單個(gè)攝像頭,或使用大型多攝像頭系統(tǒng)從不同角度捕獲動(dòng)態(tài)事件。

單目視頻序列中的動(dòng)態(tài)NV技術(shù)展示了令人信服的結(jié)果,但由于具有不適定性,它們出現(xiàn)了各種視覺偽影。這需要在動(dòng)態(tài)場(chǎng)景的深度和運(yùn)動(dòng)方面引入先驗(yàn)知識(shí)。同時(shí),移動(dòng)設(shè)備現(xiàn)在搭載了帶有顏色和深度傳感器的攝像系統(tǒng),例如微軟的HoloLens,以及iPhone和iPad Pro中的前后RGBD攝像系統(tǒng)。

深度傳感器可以使用立體光或結(jié)構(gòu)光,或者越來越精確的飛行時(shí)間測(cè)量原理。盡管深度傳感技術(shù)比以往任何時(shí)候都更加普遍,但一系列的NVS技術(shù)目前都沒有利用這種額外的視覺信息源。為了提高NVS性能,卡內(nèi)基梅隆大學(xué)、布朗大學(xué)、康納爾大學(xué)、巴斯大學(xué)和Meta的研究人員提出了T?RF。

這是一種利用顏色和飛行時(shí)間圖像的場(chǎng)景外觀隱式神經(jīng)表示。與僅使用彩色攝像頭相比,它可以減少靜態(tài)NVS問題設(shè)置所需的圖像數(shù)量。另外,附加的深度信息令單目動(dòng)態(tài)NVS問題更容易處理,因?yàn)樗苯泳幋a有關(guān)場(chǎng)景幾何體的信息。最重要的是,團(tuán)隊(duì)沒有直接使用深度,而是使用通常用于推導(dǎo)深度的相量圖像形式的“原生”ToF數(shù)據(jù)。這種方式更為準(zhǔn)確,因?yàn)樗试S優(yōu)化以正確處理超出傳感器明確范圍的幾何體、反射率低的對(duì)象,以及受多徑干擾影響的區(qū)域,從而實(shí)現(xiàn)更好的動(dòng)態(tài)場(chǎng)景視圖合成。

1. 用于ToF圖像的Neural Volumes Rendering

Neural Volumes是一種用于學(xué)習(xí)、渲染和驅(qū)動(dòng)動(dòng)態(tài)對(duì)象的方法(動(dòng)態(tài)對(duì)象使用外向內(nèi)攝影頭裝備捕獲)。由于統(tǒng)一的體素網(wǎng)格是用來模擬場(chǎng)景,這一方法適用于對(duì)象,而不是場(chǎng)景。由于場(chǎng)景的大部分都是由空的空間組成,所以Neural Volumes使用一個(gè)扭曲場(chǎng)來最大化可用分辨率的效用。然而,這種方法的有效性受到扭曲分辨率和網(wǎng)絡(luò)以無監(jiān)督方式學(xué)習(xí)復(fù)雜逆扭曲的能力的限制。

Neural Radiance Fields(NeRF)則使用緊湊表示法解決分辨率問題。另外,NeRF只處理靜態(tài)場(chǎng)景。另一個(gè)挑戰(zhàn)是運(yùn)行時(shí),因?yàn)槎鄬痈兄鳎∕LP)必須沿著camera光線在每個(gè)采樣點(diǎn)進(jìn)行評(píng)估。要合成單個(gè)高分辨率圖像,這將導(dǎo)致數(shù)十億次MLP評(píng)估,導(dǎo)致渲染時(shí)間非常慢,大約每幀30秒。

簡(jiǎn)單來說,三角形網(wǎng)格很難對(duì)頭發(fā)等薄結(jié)構(gòu)進(jìn)行建模。在合理的內(nèi)存預(yù)算下,Neural Volumes等體三維表示的分辨率太低,而Neural Radiance Fields等高分辨率隱式表示的實(shí)時(shí)應(yīng)用速度太慢。

假設(shè)一個(gè)靜態(tài)場(chǎng)景,神經(jīng)網(wǎng)絡(luò)Fθ:(xt,ωo)→ (σ(xt),Ls(xt,ωo))。其中,位置xt,方向ωo,點(diǎn)xt處的密度σ(xt),沿ωo方向穿過xt的光線的輻射度Ls(xt,ωo)。體積密度函數(shù)σ(xt)控制每個(gè)點(diǎn)的不透明度σ(xt)。大值表示不透明區(qū)域,小值表示透明區(qū)域,這允許表示三維結(jié)構(gòu)。

輻射函數(shù)Ls(xt,ωo)表示在ωo方向的點(diǎn)xt處散射的光,并表征不同材料的視覺外觀。這兩個(gè)函數(shù)一起可用于渲染任何給定camera姿勢(shì)的場(chǎng)景圖像。研究人員的關(guān)鍵洞察是,NeRFs可以擴(kuò)展到建模(并從中學(xué)習(xí))ToF攝像頭的原始圖像。

NeRF優(yōu)化需要Neural Volumes Rendering:給定camera的姿勢(shì),通過追蹤光線穿過體積并計(jì)算沿每條光線觀察到的輻射來生成圖像:

泛化ToF攝像頭的Neural Volumes Rendering程序需要兩個(gè)變量。首先,由于TOF攝像頭使用有源光源來照明場(chǎng)景,所以必須考慮場(chǎng)景的照明條件隨著camera的位置而改變的事實(shí)。團(tuán)隊(duì)推導(dǎo)了場(chǎng)景的外觀,以響應(yīng)將點(diǎn)光源與camera并置的情況。然后,團(tuán)隊(duì)將Volumes Rendering積分?jǐn)U展到ToF攝像頭捕獲的模型圖像。與瞬態(tài)渲染框架和神經(jīng)瞬態(tài)場(chǎng)中采用的方法類似,研究人員在積分中加入了路徑長(zhǎng)度重要性函數(shù),可以對(duì)不同類型的ToF攝像頭建模。

為了簡(jiǎn)單起見,我們假設(shè)函數(shù)L(x,ωo)是單色,即它在單個(gè)波長(zhǎng)上輸出輻射。稍后,為紅光、綠光、藍(lán)光和紅外光(IR)的輸出值建模。LRGB值對(duì)應(yīng)于從環(huán)境照明散射到彩色攝像頭的輻射,而LToF對(duì)應(yīng)于具有主動(dòng)照明的ToF攝像頭進(jìn)行的測(cè)量。

2. 并置點(diǎn)光源

理想的ToF攝像頭只對(duì)來自并置紅外點(diǎn)光源的光作出響應(yīng),而不對(duì)任何環(huán)境照明作出響應(yīng)。在這個(gè)假設(shè)下,團(tuán)隊(duì)將輻射率Ls(xt,ωo)建模為光源位置的函數(shù):

請(qǐng)注意,散射相位函數(shù)還取決于局部表面著色法線n(xt)。對(duì)于x處的點(diǎn)光源(即與相機(jī)并置),每個(gè)場(chǎng)景點(diǎn)僅從一個(gè)方向照亮。因此,入射輻射度是:

當(dāng)代入方程1和方程3時(shí),得到的正演模型為:

這個(gè)表達(dá)式類似于方程1,但有兩個(gè)關(guān)鍵區(qū)別:平方透射項(xiàng)和由點(diǎn)光源引起的平方反比衰減。與NeRF類似,可以再次使用求積對(duì)上述積分進(jìn)行數(shù)值近似,并通過訓(xùn)練只依賴于位置和方向的神經(jīng)網(wǎng)絡(luò)來恢復(fù)體積參數(shù)(σ(xt),Is(xt,ωo))。

3. 連續(xù)波飛行時(shí)間模型

ToF攝像頭利用光的傳播時(shí)間來計(jì)算距離。并置的點(diǎn)光源將人造光信號(hào)發(fā)送到環(huán)境中,ToF傳感器測(cè)量光響應(yīng)反射所需的時(shí)間。假設(shè)光速不變,c≈ 3·108 m/s,這個(gè)時(shí)間信息決定了行進(jìn)的距離。

ToF攝像頭的真實(shí)感模擬包括在渲染方程中引入路徑長(zhǎng)度重要性函數(shù),可以很容易地應(yīng)用于等式5中的積分:

其中函數(shù)W(d)加權(quán)長(zhǎng)度為d的光路的貢獻(xiàn)。請(qǐng)注意,光的傳播距離是camera原點(diǎn)x和場(chǎng)景點(diǎn)xt之間距離的兩倍。函數(shù)W(d)可用于表示多種ToF攝像頭,包括脈沖ToF傳感器和連續(xù)波ToF(C-ToF)傳感器。這里,由于團(tuán)隊(duì)提出的系統(tǒng)使用C-ToF傳感器進(jìn)行成像,因此使用相量W(d)=exp i 2πdf C對(duì)圖像進(jìn)行建模。注意,因?yàn)楹瘮?shù)W(d)為復(fù)數(shù),所以輻射LToF(x,ωo)會(huì)產(chǎn)生復(fù)數(shù)的相量圖像。實(shí)際上,相量圖像是通過捕獲四個(gè)線性組合的實(shí)值圖像來創(chuàng)建。

與ToF推導(dǎo)的深度形成對(duì)比。ToF攝像頭通常通過假設(shè)每一條光線只有一個(gè)點(diǎn)x反射光來恢復(fù)深度:

在現(xiàn)實(shí)場(chǎng)景中,一條射線的多個(gè)點(diǎn)都可能對(duì)信號(hào)產(chǎn)生影響,從而產(chǎn)生稱為多徑干擾的相量輻射值的線性組合。這可能會(huì)降低C-ToF攝像頭深度測(cè)量的質(zhì)量。

例如,在深度邊緣周圍,一個(gè)像素將來自距離攝像頭兩個(gè)不同距離的表面的信號(hào)進(jìn)行積分,從而產(chǎn)生“飛行像素”偽影,即與兩個(gè)距離都不對(duì)應(yīng)的3D點(diǎn)。在對(duì)半透明或鏡面反射對(duì)象成像時(shí)會(huì)出現(xiàn)類似的偽影,其中兩個(gè)或多個(gè)曲面為一個(gè)像素貢獻(xiàn)光。所以,通過方程6使用相量圖像優(yōu)化NeRFs比通過方程7使用導(dǎo)出的深度映射具有明顯的優(yōu)勢(shì)。

4. 優(yōu)化動(dòng)態(tài)ToF+NeRF=T?RF

  • Dynamic Neural Radiance Fields:使用相量圖像的一個(gè)關(guān)鍵優(yōu)勢(shì)是,可以從單個(gè)視圖中捕獲場(chǎng)景幾何體,從而能夠從可能移動(dòng)的彩色攝像頭和C-ToF攝像頭對(duì)中實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景的高保真度新視點(diǎn)合成。為了支持Dynamic Neural Radiance Fields,團(tuán)隊(duì)使用兩個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)量值進(jìn)行建模。

  • 損失函數(shù):給定一組在不同時(shí)間點(diǎn)捕獲的場(chǎng)景彩色圖像和相量圖像,研究人員從所有像素集中采樣一組camera光線,并最小化渲染圖像和測(cè)量像素值之間的總平方誤差。

  • camera姿勢(shì)優(yōu)化:在過去的研究中中,COLMAP用于恢復(fù)NVS的camera姿勢(shì)。然而,即使掩蓋了動(dòng)態(tài)區(qū)域,COLMAP都無法恢復(fù)一系列真實(shí)場(chǎng)景的精確camera姿勢(shì)。另外,COLMAP僅恢復(fù)未知比例的camera姿態(tài),而ToF圖像形成模型假設(shè)場(chǎng)景比例已知。所以對(duì)于真實(shí)場(chǎng)景,團(tuán)隊(duì)在訓(xùn)練循環(huán)中從零開始優(yōu)化camera姿勢(shì)。

  • 射線取樣:許多物理攝像頭系統(tǒng)沒有并置的彩色和ToF攝像頭。所以為了訓(xùn)練模型,研究人員通過體三維追蹤單獨(dú)的光線,以進(jìn)行顏色和ToF測(cè)量。他們?cè)诿看蔚薪惶媸褂妙伾珦p失和ToF損失。另外,與NeRF一樣,在沿射線采樣點(diǎn)時(shí)使用分層隨機(jī)抽樣。

5. 實(shí)驗(yàn)

在實(shí)驗(yàn)中,團(tuán)隊(duì)提出的模型需要12-24小時(shí)收斂,每幀需要3-5秒生成一個(gè)新視點(diǎn)(256×256)。

對(duì)于靜態(tài)場(chǎng)景,除了RGB,其集成了原始ToF測(cè)量,從而允許T?RF能夠從較少的輸入視圖重建靜態(tài)場(chǎng)景,并在相同數(shù)量的輸入視圖中實(shí)現(xiàn)比標(biāo)準(zhǔn)NeRF更高的視覺保真度。

表2對(duì)浴室和臥室這兩個(gè)合成序列進(jìn)行了定量比較,它可以僅從2個(gè)和4個(gè)輸入視圖進(jìn)行重建。為了能夠在10個(gè)保持視圖進(jìn)行比較,團(tuán)隊(duì)對(duì)兩種方法都使用ground truth camera姿勢(shì)。只有兩個(gè)輸入視圖,T?RF添加的相量監(jiān)控比NeRF更好地再現(xiàn)場(chǎng)景。對(duì)于四個(gè)視圖,NeRF和T?RF產(chǎn)生了可比的RGB結(jié)果,但后者的深度重建要精確得多(圖5)。

對(duì)于動(dòng)態(tài)場(chǎng)景。團(tuán)隊(duì)將表3中的合成動(dòng)態(tài)序列Dinopar的重建質(zhì)量與30個(gè)ground truth hold-out視圖和深度映射進(jìn)行了比較。與使用深度估計(jì)(NSFF和VideoNeRF)的方法相比,T?RF可以產(chǎn)生更好的深度和RGB視圖。

盡管T?RF PSNR略低于NSFF,但T?RF的感知LPIPS指標(biāo)顯著低于NSFF。與使用ToF衍生深度(NSFF+ToF、VideoNeRF+ToF)的相同方法相比,T?RF都能產(chǎn)生更好的深度和RGB重建。對(duì)于真實(shí)場(chǎng)景,圖6顯示了結(jié)果和比較。

可以看到,VideoNeRF+ToF在深度邊界附近顯示出更強(qiáng)的不一致偽影和扭曲邊緣,并且無法從深度映射中恢復(fù)。NSFF存在嚴(yán)重的重影和拉伸偽影,對(duì)結(jié)果質(zhì)量產(chǎn)生負(fù)面影響。團(tuán)隊(duì)的結(jié)果顯示了最高的視覺質(zhì)量和最精確的深度映射。

6. 局限性與未來研究

團(tuán)隊(duì)將ToF傳感器引入RGB神經(jīng)輻射場(chǎng),通過融合兩種傳感模式的優(yōu)點(diǎn)來提高質(zhì)量。但是,ToF傳感同樣帶來了一定的限制。C-ToF傳感在更大范圍的場(chǎng)景中很困難;另外,對(duì)于每次測(cè)量,C-ToF傳感器需要在不同時(shí)間快速捕獲四個(gè)或更多圖像,這可能會(huì)導(dǎo)致快速移動(dòng)對(duì)象產(chǎn)生偽影。

即使使用ToF數(shù)據(jù),以掠射角度成像的對(duì)象或既暗(低反射率)又動(dòng)態(tài)的對(duì)象依然難以重建,例如深色頭發(fā)。同時(shí),神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)態(tài)場(chǎng)景建模的能力有限,這限制了動(dòng)態(tài)序列的持續(xù)時(shí)間。這是當(dāng)前一系列神經(jīng)動(dòng)態(tài)場(chǎng)景方法的局限性。

整合ToF數(shù)據(jù)可以提高準(zhǔn)確性,但僅限于可檢測(cè)到主動(dòng)照明的場(chǎng)景。實(shí)際上,與傳統(tǒng)的基于圖像的渲染相比,當(dāng)前的神經(jīng)方法在優(yōu)化和渲染方面的計(jì)算成本更高。例如,團(tuán)隊(duì)的模型需要GPU優(yōu)化數(shù)小時(shí)(12-24小時(shí))。

相關(guān)論文:T?RF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis

總的來說,論文的貢獻(xiàn)包括:

  • 用于原生連續(xù)波ToF圖像的基物神經(jīng)體繪制模型

  • 一種利用彩色和連續(xù)波ToF傳感器信息優(yōu)化動(dòng)態(tài)場(chǎng)景神經(jīng)輻射場(chǎng)的方法

  • 對(duì)合成場(chǎng)景和真實(shí)場(chǎng)景的定量和定性評(píng)估顯示,在少數(shù)輸入視圖和兩條動(dòng)態(tài)場(chǎng)景基線情況下,視圖合成優(yōu)于NeRF。

---
原文鏈接:https://news.nweon.com/95056


融合ToF+NeRF,Meta提出T?RF,實(shí)現(xiàn)更優(yōu)動(dòng)態(tài)場(chǎng)景視圖合成的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
萨迦县| 承德县| 夏河县| 浦东新区| 南宁市| 鹿泉市| 仙桃市| 泸水县| 措美县| 泰兴市| 炉霍县| 兴文县| 邵阳市| 汉中市| 天津市| 全椒县| 陆河县| 台中市| 独山县| 揭西县| 志丹县| 朝阳县| 尉氏县| 长沙县| 弥勒县| 郧西县| 睢宁县| 含山县| 武宁县| 泰和县| 萍乡市| 招远市| 江西省| 太湖县| 通榆县| 包头市| 阿合奇县| 增城市| 磐安县| 平定县| 盐山县|