NeRF革新?PF-LRM:Transformer引領(lǐng)的稀疏NeRF模型—三維重建的未來(lái)
作者:小張Tt | 來(lái)源:3D視覺工坊
在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf、項(xiàng)目鏈接
本研究提出了PF-LRM模型,用于從未姿態(tài)處理的少數(shù)圖像中快速重建三維對(duì)象。該模型利用自注意力模塊進(jìn)行信息交換,預(yù)測(cè)每個(gè)視圖的粗略點(diǎn)云,并通過(guò)可微分的透視n點(diǎn)(PnP)求解器獲取相機(jī)姿態(tài)。經(jīng)過(guò)在約100萬(wàn)個(gè)對(duì)象的多視圖姿態(tài)數(shù)據(jù)上訓(xùn)練,PF-LRM表現(xiàn)出強(qiáng)大的泛化能力,并在未見數(shù)據(jù)集上在姿態(tài)預(yù)測(cè)準(zhǔn)確性和三維重建質(zhì)量方面顯著優(yōu)于基線方法。該模型還可應(yīng)用于文本/圖像到三維任務(wù),并具有快速的前向推理能力。
讀者理解:
PF-LRM 與其他方法相比的優(yōu)勢(shì)在于其高度可擴(kuò)展性和強(qiáng)大的跨數(shù)據(jù)集泛化能力。PF-LRM 方法使用自注意力塊在 3D 對(duì)象令牌和 2D 圖像令牌之間交換信息,從而實(shí)現(xiàn)高度可擴(kuò)展性。此外,當(dāng)在大量多視角數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),PF-LRM 顯示出強(qiáng)大的跨數(shù)據(jù)集泛化能力,并在各種評(píng)估數(shù)據(jù)集上的姿勢(shì)預(yù)測(cè)準(zhǔn)確性和 3D 重建質(zhì)量方面優(yōu)于基線方法。
該文章的主要貢獻(xiàn)是:
提出了 PF-LRM 方法,該方法可以從少量未定位圖像中重建 3D 對(duì)象
同時(shí)在 1.3 秒內(nèi)在單個(gè) A100 GPU 上估計(jì)相機(jī)姿態(tài)。
1 引言
本研究提出了PF-LRM,一種用于同時(shí)預(yù)測(cè)相機(jī)姿態(tài)、物體形狀和外觀的類別無(wú)關(guān)方法。該方法使用了三面體NeRF表示,并采用了新穎的可擴(kuò)展單流Transformer模型,在2D和3D令牌之間進(jìn)行全面的信息交換。通過(guò)在大規(guī)模數(shù)據(jù)集上訓(xùn)練,PF-LRM在稀疏輸入情況下能夠穩(wěn)健地重建準(zhǔn)確的姿態(tài)和逼真的3D物體,超越了基線方法。該模型在不需要直接3D監(jiān)督的情況下訓(xùn)練,并且能夠推廣到未見數(shù)據(jù)集,并處理2-4個(gè)無(wú)姿態(tài)輸入圖像,實(shí)現(xiàn)了姿態(tài)估計(jì)和新視角合成的最新結(jié)果。模型還展示了在文本/圖像到3D等領(lǐng)域的潛在應(yīng)用。這里也推薦工坊推出的新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。

2 相關(guān)工作
本研究對(duì)比了在3D重建領(lǐng)域的相關(guān)工作。NeRF技術(shù)最初需要大量的帶姿態(tài)圖像進(jìn)行準(zhǔn)確重建,而近期的研究嘗試通過(guò)正則化策略或從大量數(shù)據(jù)集中學(xué)習(xí)先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)稀疏視圖NeRF重建。相比之下,本方法能夠高效地從稀疏視圖中重建三面體NeRF,并在推理過(guò)程中恢復(fù)未知的相對(duì)相機(jī)姿態(tài)。結(jié)構(gòu)從運(yùn)動(dòng)(SfM)技術(shù)在視圖間找到2D特征匹配,但在極度稀疏的輸入視圖下,特征匹配變得非常具有挑戰(zhàn)性,而本方法依賴于來(lái)自大量數(shù)據(jù)的形狀先驗(yàn)知識(shí)成功地解決了相機(jī)注冊(cè)的問(wèn)題。神經(jīng)姿態(tài)預(yù)測(cè)方法直接回歸相機(jī)姿態(tài),而我們的方法則聯(lián)合推理相機(jī)姿態(tài)和3D形狀,取得了顯著的改進(jìn)。與其他采用兩階段預(yù)測(cè)流程的方法不同,我們的方法使用單階段推理流程同時(shí)恢復(fù)相機(jī)姿態(tài)和3D NeRF重建,通過(guò)預(yù)測(cè)粗略點(diǎn)云和使用PnP求解器進(jìn)行姿態(tài)估計(jì),適用于稀疏視圖輸入并獲得更準(zhǔn)確的結(jié)果。

3 方法
本文旨在從未知相機(jī)姿態(tài)的一組圖像中重建3D對(duì)象的模型并估計(jì)每個(gè)圖像的姿態(tài)。采用Transformer模型處理標(biāo)記化的輸入圖像和三面體NeRF,其中NeRF令牌代表用于神經(jīng)渲染的三面體NeRF,而圖像塊令牌用于通過(guò)可微的PnP求解器估計(jì)每個(gè)視圖的粗略點(diǎn)云以進(jìn)行姿態(tài)估計(jì)。

單流Transformer方法采用預(yù)訓(xùn)練的DINO Vision Transformer對(duì)輸入圖像進(jìn)行標(biāo)記化處理,并通過(guò)單流多模態(tài)Transformer對(duì)圖像和三面體NeRF進(jìn)行標(biāo)記化處理。該方法的設(shè)計(jì)靈感源自于LRM及其后續(xù)工作,但采用了單流架構(gòu),實(shí)現(xiàn)了圖像令牌和NeRF令牌之間的信息交換,以預(yù)測(cè)一致的NeRF和用于相機(jī)估計(jì)的每個(gè)視圖粗略幾何,而先前的方法采用編碼-解碼設(shè)計(jì)。
通過(guò)神經(jīng)可微分體積渲染監(jiān)督學(xué)習(xí)NERF模型的形狀和外觀,使用了體積渲染來(lái)生成三面體NeRF在新視角下的圖像。這一渲染過(guò)程由數(shù)學(xué)公式表達(dá),其中采用L2和VGG-based LPIPS損失函數(shù)來(lái)監(jiān)督神經(jīng)渲染的重建效果,以優(yōu)化形狀與外觀的學(xué)習(xí)過(guò)程。
通過(guò)可微分PNP求解器進(jìn)行姿態(tài)預(yù)測(cè)的方法。該方法利用NeRF tokens上下文化的每個(gè)視圖圖像塊標(biāo)記來(lái)估計(jì)相機(jī)的相對(duì)姿態(tài),通過(guò)MLP預(yù)測(cè)了每個(gè)圖像塊標(biāo)記對(duì)應(yīng)的3D點(diǎn)位置和置信度。通過(guò)實(shí)施一系列損失函數(shù),特別是可微分PNP損失,從而穩(wěn)定并提高了姿態(tài)預(yù)測(cè)的準(zhǔn)確性。
最終的訓(xùn)練目標(biāo)是由多個(gè)損失項(xiàng)組合而成,其中包括渲染損失以及各個(gè)與粗略幾何預(yù)測(cè)、不透明度預(yù)測(cè)和可微分PNP損失相關(guān)的損失項(xiàng)。Transformer模型采用36個(gè)自注意力層,并通過(guò)特定的處理方式來(lái)減少在其中使用的tokens數(shù)量。優(yōu)化器采用AdamW,初始學(xué)習(xí)率為零,隨著訓(xùn)練步驟的進(jìn)行逐漸增加并按余弦調(diào)度衰減。此模型的訓(xùn)練需要大量的GPU資源,并使用了一些技術(shù)來(lái)優(yōu)化模型訓(xùn)練過(guò)程中的內(nèi)存使用。
4 實(shí)驗(yàn)
訓(xùn)練數(shù)據(jù)集包括了Objaverse和MVImgNet的多視角定位圖像,而評(píng)估數(shù)據(jù)集涵蓋了多個(gè)數(shù)據(jù)集,如OmniObject3D、GSO、ABO、CO3D和DTU。本文使用多種指標(biāo)對(duì)模型的性能進(jìn)行評(píng)估,涉及相對(duì)姿態(tài)估計(jì)和重建質(zhì)量方面的度量。同時(shí),還對(duì)PF-LRM模型與其他基線方法在姿態(tài)估計(jì)和重建質(zhì)量上的表現(xiàn)進(jìn)行了對(duì)比分析。
在姿態(tài)預(yù)測(cè)質(zhì)量方面,本文的模型在OmniObjects3D、ABO、GSO、CO3D和DTU等未知數(shù)據(jù)集上取得了出色的成果。相比基線方法(FORGE、HLoc和RelPose++),本文的模型在各項(xiàng)度量指標(biāo)下都取得了顯著的優(yōu)勢(shì)。作者特別關(guān)注了不同方法在跨數(shù)據(jù)集泛化能力方面的表現(xiàn),這反映了它們?cè)趯?shí)際應(yīng)用中的性能。對(duì)于OmniObjects3D、GSO和ABO數(shù)據(jù)集,作者相對(duì)FORGE獲得了平均14.6倍的旋轉(zhuǎn)誤差減少率,相對(duì)HLoc和RelPose++分別為15.3倍和14.7倍。本文的模型在處理非信息性白色背景輸入圖像時(shí)表現(xiàn)出色,相比較其他方法,能夠取得更準(zhǔn)確的姿態(tài)估計(jì)結(jié)果。在CO3D和DTU數(shù)據(jù)集上,也展現(xiàn)出比RelPose++和FORGE更好的泛化能力。在重建質(zhì)量方面,本文的模型在OmniObjects3D、GSO和ABO數(shù)據(jù)集上表現(xiàn)出色,平均PSNR為24.8,遠(yuǎn)遠(yuǎn)超過(guò)基線方法FORGE的13.4。本文的模型能夠產(chǎn)生高質(zhì)量的重建,并且在渲染NeRF時(shí)與實(shí)際輸入圖像相匹配。相比之下,基線方法FORGE在這一目標(biāo)上表現(xiàn)不佳,顯示出PSNR較低的趨勢(shì)。
通過(guò)對(duì)可變數(shù)量的輸入視圖進(jìn)行測(cè)試,作者的模型展現(xiàn)了一定程度的魯棒性,在減少視圖數(shù)量的情況下性能有所下降,但降低的幅度是可以接受的。然而,當(dāng)輸入的分割掩模非常嘈雜時(shí),我們的模型性能明顯下降,這與CO3D數(shù)據(jù)集提供的不準(zhǔn)確掩??赡軐?duì)模型性能造成負(fù)面影響一致。
在消融研究中,通過(guò)對(duì)模型進(jìn)行不同設(shè)置的訓(xùn)練與評(píng)估,得出了一些重要結(jié)論。首先,較大模型相較于較小模型,在姿態(tài)預(yù)測(cè)準(zhǔn)確性和NeRF重建質(zhì)量方面表現(xiàn)出更優(yōu)異的結(jié)果。其次,移除NeRF預(yù)測(cè)會(huì)導(dǎo)致訓(xùn)練的不穩(wěn)定性,而移除姿態(tài)預(yù)測(cè)會(huì)顯著影響模型對(duì)3D重建的學(xué)習(xí)能力。消融實(shí)驗(yàn)強(qiáng)調(diào)了模型規(guī)模和關(guān)鍵預(yù)測(cè)任務(wù)對(duì)模型性能的影響,為深入理解模型行為和性能提供了有益的見解。
本文模型在文本/圖像到3D生成應(yīng)用中展現(xiàn)了廣泛的應(yīng)用前景,能夠利用少量未姿態(tài)化的圖像或文本快速實(shí)現(xiàn)高質(zhì)量的3D重建。其兩階段3D生成流程具有靈活性,可根據(jù)需求在文本到圖像和圖像到3D之間選擇合適的生成路徑。這里也推薦工坊推出的新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。


5 總結(jié)
本研究提出了一種基于Transformer的重建模型,能夠聯(lián)合估計(jì)攝像機(jī)參數(shù)并重建高質(zhì)量的3D形狀,通過(guò)自注意力機(jī)制實(shí)現(xiàn)了NeRF重建和穩(wěn)健的姿態(tài)估計(jì)。模型在多視圖數(shù)據(jù)集上訓(xùn)練表現(xiàn)優(yōu)異,相對(duì)基線方法在姿態(tài)預(yù)測(cè)和重建質(zhì)量方面有較大優(yōu)勢(shì),并且在文本/圖像到3D生成等應(yīng)用中具備潛在應(yīng)用前景。
