最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

arxiv最新 I LEAP:一種不需要相機(jī)姿態(tài)的稀疏視圖三維建模方法

2023-10-17 21:34 作者:3D視覺(jué)工坊  | 我要投稿


作者:小張Tt ?| 來(lái)源:3D視覺(jué)工坊

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」可獲取論文、項(xiàng)目、代碼鏈接。

添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細(xì)分群。

攝像機(jī)姿態(tài)對(duì)于多視角三維建模是否必要?現(xiàn)有的方法主要假設(shè)可以獲得準(zhǔn)確的攝像機(jī)姿態(tài)。雖然這個(gè)假設(shè)對(duì)于密集視圖可能成立,但對(duì)于稀疏視圖,準(zhǔn)確估計(jì)攝像機(jī)姿態(tài)常常是困難的。作者的分析顯示,噪聲估計(jì)的姿態(tài)會(huì)導(dǎo)致現(xiàn)有稀疏視圖三維建模方法的性能下降。為了解決這個(gè)問(wèn)題,作者提出了LEAP,一種新穎的無(wú)姿態(tài)方法,挑戰(zhàn)了攝像機(jī)姿態(tài)不可或缺的普遍觀念。LEAP舍棄了基于姿態(tài)的操作,從數(shù)據(jù)中學(xué)習(xí)幾何知識(shí)。LEAP配備了一個(gè)神經(jīng)體積,該體積在場(chǎng)景之間共享,并且通過(guò)參數(shù)化編碼幾何和紋理先驗(yàn)。對(duì)于每個(gè)輸入的場(chǎng)景,作者通過(guò)按特征相似性驅(qū)動(dòng)的方式聚合2D圖像特征來(lái)更新神經(jīng)體積。更新后的神經(jīng)體積被解碼為輻射場(chǎng),從而可以從任意視點(diǎn)合成新的視圖。通過(guò)對(duì)物體為中心和場(chǎng)景級(jí)別的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),作者展示了LEAP在使用最先進(jìn)的姿態(tài)估計(jì)器預(yù)測(cè)的姿態(tài)時(shí)顯著優(yōu)于先前的方法。值得注意的是,LEAP的性能與使用真實(shí)姿態(tài)的先前方法相當(dāng),同時(shí)比PixelNeRF運(yùn)行速度快400倍。作者還展示了LEAP泛化到新的物體類別和場(chǎng)景,并且學(xué)習(xí)的知識(shí)與極線幾何密切相關(guān)。

讀者理解:

  • LEAP方法:一種新的三維建模方法,可以從稀疏的視圖中重建高質(zhì)量的三維模型,而不需要知道相機(jī)的姿態(tài)(位置和方向)。這種方法利用了深度神經(jīng)網(wǎng)絡(luò)和幾何約束,可以處理任意數(shù)量和分布的視圖,甚至是單張圖片。

與現(xiàn)有的三維建模方法相比,LEAP有以下優(yōu)勢(shì):


  • 不需要相機(jī)姿態(tài)信息,可以處理任意視角的圖片。


  • 可以從極少量的視圖中重建出高質(zhì)量的三維模型,甚至是單張圖片。


  • 可以處理不同尺度、不同光照、不同背景的圖片,具有很強(qiáng)的泛化能力。


  • 可以實(shí)現(xiàn)實(shí)時(shí)的三維建模,只需要幾秒鐘就可以生成三維模型。

LEAP實(shí)驗(yàn):作者在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括ShapeNet、PASCAL3D+、Pix3D和自采集數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,LEAP在三維重建質(zhì)量、運(yùn)行速度和泛化能力方面都優(yōu)于現(xiàn)有的方法。作者還展示了一些LEAP生成的三維模型的可視化效果。

本文介紹了一種基于神經(jīng)輻射場(chǎng)的3D建模方法LEAP,其與傳統(tǒng)方法不同的是摒棄了使用攝像機(jī)姿態(tài)的操作,并通過(guò)學(xué)習(xí)數(shù)據(jù)中與姿態(tài)相關(guān)的幾何知識(shí)和表示來(lái)進(jìn)行建模。LEAP使用神經(jīng)音量來(lái)初始化輻射場(chǎng),并通過(guò)聚合方式更新神經(jīng)音量。而在聚合2D圖像特征時(shí),LEAP采用注意力機(jī)制而非攝像機(jī)姿態(tài)來(lái)確定待聚合的像素。此外,LEAP還通過(guò)多視角編碼器來(lái)提高非規(guī)范視角圖像特征的一致性。訓(xùn)練中,LEAP使用真實(shí)的攝像機(jī)姿態(tài)生成2D渲染圖像,并通過(guò)2D重建損失進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明LEAP在多種數(shù)據(jù)集上表現(xiàn)出了優(yōu)越的性能、快速的推理速度、強(qiáng)大的泛化能力以及易解釋的先驗(yàn)知識(shí)。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞透視覺(jué)三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。

本文主要介紹了兩個(gè)與NeRF(Neural Radiance Fields)相關(guān)的工作,分別是針對(duì)稀疏視角輸入的NeRF變體和稀疏視角相機(jī)姿態(tài)估計(jì)。針對(duì)NeRF的稀疏視角輸入,有兩種不同的方法:一種是針對(duì)特定場(chǎng)景的NeRF,通過(guò)從頭開(kāi)始優(yōu)化輻射場(chǎng)來(lái)實(shí)現(xiàn);另一種是通用的NeRF變體,通過(guò)預(yù)測(cè)2D圖像特征條件下的輻射場(chǎng)來(lái)實(shí)現(xiàn)。然而,這些方法在推理3D點(diǎn)之間關(guān)聯(lián)性和假設(shè)獲取地面真實(shí)相機(jī)姿態(tài)方面存在一些局限性。而LEAP方法具有3D推理能力,在沒(méi)有姿態(tài)的情況下可以處理圖像。稀疏視角相機(jī)姿態(tài)估計(jì)是一個(gè)具有挑戰(zhàn)性的問(wèn)題,相比于密集視角,由于圖像之間的最小或缺失重疊,對(duì)于準(zhǔn)確的相機(jī)姿態(tài)估計(jì)來(lái)說(shuō),跨視角對(duì)應(yīng)線索的形成十分困難。除了傳統(tǒng)的基于密集視角的相機(jī)姿態(tài)估計(jì)技術(shù)的局限性外,還有一些方法通過(guò)引入能量模型、多視圖信息和預(yù)訓(xùn)練模型等方法來(lái)提高姿態(tài)估計(jì)的準(zhǔn)確性。然而,LEAP方法不需要專門(mén)的相機(jī)姿態(tài)估計(jì)模塊,不受相機(jī)姿態(tài)估計(jì)的影響,可以更接近使用地面真實(shí)姿態(tài)的結(jié)果。對(duì)于沒(méi)有準(zhǔn)確或沒(méi)有相機(jī)姿態(tài)的NeRF建模,有一些方法通過(guò)將相機(jī)姿態(tài)作為可調(diào)參數(shù),并與輻射場(chǎng)一起進(jìn)行優(yōu)化來(lái)解決該問(wèn)題。而LEAP方法通過(guò)3D感知的設(shè)計(jì)和基于特征相似性的2D-3D信息映射來(lái)消除對(duì)相機(jī)姿態(tài)的依賴,從而得到與使用地面真實(shí)姿態(tài)更接近的結(jié)果。

本文介紹了LEAP方法的任務(wù)形式化和概述。給定一組k個(gè)場(chǎng)景的2D圖像觀測(cè)值,表示為{ |i = 1,..., k},LEAP預(yù)測(cè)了一個(gè)神經(jīng)輻射場(chǎng),可以從任意目標(biāo)視點(diǎn)合成一張2D圖像。需要注意的是,在我們的稀疏源視圖設(shè)置中,由于寬基線相機(jī)拍攝的視圖數(shù)量通常小于5,并且這些視圖在推理過(guò)程中沒(méi)有任何相關(guān)的相機(jī)姿態(tài)信息。

LEAP首先從所有視角提取2D圖像特征,使用一個(gè)DINOv2初始化的ViT作為特征提取器,以建??缫暯窍嚓P(guān)性。然后,LEAP引入了一個(gè)可學(xué)習(xí)的神經(jīng)體積,對(duì)幾何和紋理先驗(yàn)進(jìn)行編碼,并在所有場(chǎng)景中充當(dāng)初始的3D表示。對(duì)于每個(gè)場(chǎng)景,LEAP通過(guò)查詢多視圖特征,將2D信息映射到3D領(lǐng)域,更新了神經(jīng)體積,并預(yù)測(cè)了輻射場(chǎng)。具體來(lái)說(shuō),LEAP通過(guò)多視圖圖像編碼器實(shí)現(xiàn)了對(duì)規(guī)范視圖選擇的感知,并通過(guò)捕捉交叉視角相關(guān)性來(lái)改善特征的一致性。接下來(lái),LEAP引入了一個(gè)2D-3D信息映射模塊,使用Transformer層對(duì)特征進(jìn)行更新和整合,并進(jìn)行了多次的2D-3D信息映射,以粗到細(xì)的方式重建對(duì)象的潛在體積。最后,LEAP使用更新后的神經(jīng)體積預(yù)測(cè)了基于體素的神經(jīng)輻射場(chǎng),然后利用體積渲染技術(shù)生成渲染圖像和對(duì)象掩碼??傮w來(lái)說(shuō),LEAP的模型架構(gòu)可以在沒(méi)有姿態(tài)信息的情況下,通過(guò)特征一致性和2D-3D信息映射來(lái)實(shí)現(xiàn)對(duì)場(chǎng)景的建模和圖像合成。

LEAP通過(guò)光度損失函數(shù)在沒(méi)有任何3D監(jiān)督的情況下對(duì)渲染結(jié)果和輸入之間進(jìn)行訓(xùn)練。首先定義了應(yīng)用于RGB圖像的損失函數(shù)LI,其中 = (?, ) + (?, )。其中L_{mse}I_{i}(?分別表示原始圖像和渲染后的圖像,λp是用于平衡損失函數(shù)的超參數(shù),Lp是感知損失函數(shù)(Johnson等,2016)。然后定義了應(yīng)用于密度掩模的損失函數(shù)LM,即 = (?, ),其中?和分別表示原始和渲染后的密度掩模。最終損失函數(shù)定義為L(zhǎng) = + ?,其中是用于平衡權(quán)重的超參數(shù)。如果掩模不可用,則只使用 。推斷和評(píng)估。在推斷過(guò)程中,LEAP在不依賴于任何姿態(tài)的情況下預(yù)測(cè)輻射場(chǎng)。為了評(píng)估新視角合成的質(zhì)量,作者使用測(cè)試相機(jī)姿態(tài)在特定視點(diǎn)下渲染輻射場(chǎng)。

本文介紹了LEAP方法在不同類型的數(shù)據(jù)集上進(jìn)行的評(píng)估實(shí)驗(yàn),并給出了實(shí)現(xiàn)細(xì)節(jié)和數(shù)據(jù)集說(shuō)明。在實(shí)驗(yàn)中,LEAP表現(xiàn)出相對(duì)于其他基線模型的更好性能,包括更高的PSNR和更低的LPIPS值。此外,LEAP還展示了強(qiáng)大的泛化能力,能夠適應(yīng)不同幾何和紋理特性的對(duì)象。LEAP還在場(chǎng)景級(jí)別數(shù)據(jù)集上取得了較好的結(jié)果,在性能上超過(guò)了PixelNeRF和與SPARF相媲美。該研究還進(jìn)行了消融實(shí)驗(yàn),探索了LEAP模型中各個(gè)組成部分的影響,并對(duì)LEAP的解釋進(jìn)行了可視化展示。結(jié)果表明,LEAP方法有效地利用多視角信息進(jìn)行3D建模。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞透視覺(jué)三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》

本文提出了一種名為L(zhǎng)EAP的無(wú)姿勢(shì)方法,用于從一組非定姿稀疏視圖圖像進(jìn)行三維建模。通過(guò)適當(dāng)設(shè)置三維坐標(biāo)并聚合二維圖像特征,LEAP展示了令人滿意的新視角合成質(zhì)量。在我們的實(shí)驗(yàn)中,LEAP在從物體居中到場(chǎng)景級(jí)別,從合成圖像到真實(shí)圖像,以及從小規(guī)模到大規(guī)模數(shù)據(jù)的范圍內(nèi),與使用估計(jì)姿勢(shì)或噪聲姿勢(shì)的先前基于姿勢(shì)的方法相比,始終表現(xiàn)出更好的性能。LEAP還與使用基準(zhǔn)真實(shí)姿勢(shì)的先前方法的版本取得了可比較的結(jié)果。此外,LEAP展示了強(qiáng)大的泛化能力,快速推理速度和可解釋的學(xué)習(xí)知識(shí)。


arxiv最新 I LEAP:一種不需要相機(jī)姿態(tài)的稀疏視圖三維建模方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
收藏| 荣昌县| 峡江县| 东方市| 旬阳县| 云南省| 靖安县| 高安市| 白朗县| 英吉沙县| 信宜市| 蒙自县| 色达县| 资中县| 视频| 苏尼特左旗| 松桃| 睢宁县| 永春县| 新兴县| 泰来县| 麟游县| 调兵山市| 奉化市| 揭阳市| 开江县| 旅游| 多伦县| 涪陵区| 丰城市| 靖宇县| 合水县| 汝城县| 白城市| 略阳县| 海原县| 西藏| 额济纳旗| 师宗县| 昌宁县| 阳春市|