ICCV 2023 I NeRF新突破,從NeRF到transformers!
本研究關(guān)注跨場景通用的 NeRF 模型,其能夠合成未見過場景的新視圖。現(xiàn)有嘗試采用端到端的“神經(jīng)化”架構(gòu),用性能卓越的神經(jīng)網(wǎng)絡(luò)替換場景表示和渲染模塊,以實現(xiàn)前向推理合成新視圖。然而,這些架構(gòu)仍然不能很好地適應(yīng)不同類型的場景。作者提出了借鑒大型語言模型中的強(qiáng)大專家混合(MoE)思想,通過平衡整體模型容量和個例專業(yè)化,來增強(qiáng)這些架構(gòu)的通用性。作者在通用 NeRF 架構(gòu) GNT 的基礎(chǔ)上引入了 MoE,并進(jìn)一步定制了共享的永久專家和幾何感知一致性損失。這些定制化措施有助于提高跨場景一致性和空間平滑度,這對于通用視圖合成至關(guān)重要。作者的模型命名為 GNT-MOVE,在未見過的場景中表現(xiàn)出卓越的泛化能力,無論是在零樣本還是少樣本情況下,都取得了最先進(jìn)的結(jié)果。
本文引入了Mixture-of-Experts (MoE)思想并將其定制為通用的神經(jīng)輻射場 (NeRF)框架,形成了GNT-MOVE模型。該模型通過MoE transformers顯著提高了復(fù)雜場景上的可泛化新視角合成能力。為了適應(yīng)可泛化的NeRF,作者引入了共享的永久Expert以實現(xiàn)跨場景渲染的一致性,并通過幾何感知的空間一致性目標(biāo)來提高視圖間的空間平滑性。實驗證明了GNT-MOVE在跨場景泛化上的有效性,包括零樣本和少樣本的設(shè)置。該模型在多場景訓(xùn)練時實現(xiàn)了最先進(jìn)的性能,具有更好的零樣本泛化和一致的強(qiáng)大的少樣本泛化能力。這里也推薦「3D視覺工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實戰(zhàn)》。
GNT-MOVE主要貢獻(xiàn)可以總結(jié)如下:
提出了一種受LLM啟發(fā)的NeRF框架,稱為GNT-MOVE,通過引入Experts混合(MoE) transformers,顯著推動了復(fù)雜場景上可泛化新視角合成的前沿。
為了將MoE量身定制為可泛化的NeRF,引入了一個共享的永久Expert來實現(xiàn)跨場景渲染的一致性,并引入了一個幾何感知的空間一致性目標(biāo)來實現(xiàn)視圖間的空間平滑性。
在復(fù)雜場景基準(zhǔn)測試中進(jìn)行的實驗證明了GNT-MOVE在跨場景泛化上的有效性,包括零樣本和少樣本的設(shè)置。
NeRF是一種基于神經(jīng)輻射場的模型,可以通過體素渲染在新視圖合成方面取得出色的性能。然而,原始的NeRF需要在每個新場景中重新訓(xùn)練,而且對于跨場景泛化的應(yīng)用有限。為了解決這個問題,有一些工作通過引入卷積編碼器和共享的MLP來模擬不同對象,而另一類工作則采用Transformer結(jié)構(gòu)并結(jié)合極線約束實現(xiàn)了實時的新視圖合成。作者的方法也基于Transformer,并定制了MoE思想,以在跨場景泛化和場景特定化之間取得平衡,并可以模擬多樣復(fù)雜的場景和呈現(xiàn)更加逼真的結(jié)果。Mixture-of-Experts(MoE)是一種根據(jù)學(xué)習(xí)或臨時路由策略,通過組合子模型進(jìn)行輸入相關(guān)計算的方法。MoE在多個領(lǐng)域有廣泛的成功應(yīng)用,并且最近的進(jìn)展提出了稀疏門控的MoE方法,以在不犧牲推理成本的情況下擴(kuò)大語言模型的容量,并促進(jìn)具有不同功能的不同模塊的組合泛化。這有助于發(fā)揮非常潛在的組合式未見泛化能力,并實現(xiàn)出色的準(zhǔn)確性和效率的平衡。
作者:小張Tt ?| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復(fù)「原論文」即可獲取論文pdf和代碼。
添加微信:dddvisiona,備注:自動駕駛,拉你入群。文末附行業(yè)細(xì)分群。
GNT是一種純統(tǒng)一的基于Transformer的架構(gòu),通過兩個階段的轉(zhuǎn)換器來實時重構(gòu)NeRFs。視圖轉(zhuǎn)換器根據(jù)相鄰視圖的對極線信息預(yù)測每個點的特征,射線轉(zhuǎn)換器在射線上組合特征來計算顏色。MoE層包含多個專家和一個路由器,通過路由器的選擇將特定數(shù)量的專家的輸出加權(quán)求和。該方法具有很好的性能,適用于其他基于Transformer的NeRFs。
在本節(jié)中,作者使用MoE層來擴(kuò)展GNT模型。主要流程如圖1所示。作者的設(shè)計原則是對原始的GNT模型進(jìn)行必要且最小程度的修改,以保留其標(biāo)準(zhǔn)化的架構(gòu)和易用性。
在視覺領(lǐng)域,作者提出了一種混合視圖專家的方法,在基本流程中應(yīng)用了MoE模塊。通過利用UNet從2D圖像中提取幾何、外觀和局部光傳輸信息,并結(jié)合視圖變換器,作者能夠估計出點級渲染參數(shù)。為了根據(jù)渲染屬性特定定制不同的組件,作者在視圖變換器中使用了稀疏激活的MoE層。在訓(xùn)練過程中,作者通過稀疏路由的變異系數(shù)對專家選擇進(jìn)行了正則化,以平衡和多樣化地使用專家。這種方法的優(yōu)勢在于能夠更好地捕捉不同視圖間的細(xì)微差別,并避免表示崩潰。這個方法對于NeRF的應(yīng)用尤為適用。
本文針對在MoE和NeRF中缺乏跨場景一致性和空間平滑性的問題進(jìn)行了研究。為了解決這個問題,作者引入了兩個層次的定制化,即共享的永久專家和幾何感知的空間一致性。在架構(gòu)層面,作者通過引入一個共享的永久專家來提升跨場景一致性。這個專家負(fù)責(zé)在不同場景之間融合共同知識。在目標(biāo)層面,作者提出了一個空間一致性目標(biāo),通過鼓勵接近空間的點選擇相似的專家,并使用幾何距離對專家選擇進(jìn)行重新加權(quán)。通過這兩個定制化,作者提高了MoE和NeRF之間的平衡,從而使NeRF能夠更好地跨場景泛化和特化。
在本研究中,作者通過引入Mixture-of-Experts(MoE)和其他定制設(shè)計,改進(jìn)了GNT-MOVE方法,使其在跨場景泛化方面取得了顯著的進(jìn)展。作者的方法在零樣本和少樣本設(shè)置下都表現(xiàn)出色,不僅在標(biāo)準(zhǔn)數(shù)據(jù)集上,而且在具有復(fù)雜材料和光效果的挑戰(zhàn)性數(shù)據(jù)集上都表現(xiàn)出色。實驗結(jié)果顯示,GNT-MOVE比標(biāo)準(zhǔn)GNT具有更好的性能,尤其在挑戰(zhàn)性的場景和光照條件下。作者還通過可視化專家選擇和深度圖等方式展示了他們的方法的有效性??偟膩碚f,該研究為通用新視圖合成任務(wù)提供了一種強(qiáng)大且有效的方法,具有潛力應(yīng)用于各種復(fù)雜的視覺場景。這里也推薦「3D視覺工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實戰(zhàn)》。
本研究引入了一個大規(guī)模的基于部件的跨類別物體操作基準(zhǔn)PartManip,包括六項真實環(huán)境中的任務(wù)。為了解決可泛化的基于視覺的策略學(xué)習(xí)問題,作者首先介紹了一種經(jīng)過精心設(shè)計的基于狀態(tài)的部件感知專家學(xué)習(xí)方法,然后是一個合理的從狀態(tài)到視覺的蒸餾過程,以及一種域泛化技術(shù),以提高跨類別泛化能力。通過廣泛的仿真實驗,作者證明了我們的方法在先前工作中的卓越性能。作者還在實際世界中展示了其性能。
如果大家對3D視覺某一個細(xì)分方向想系統(tǒng)學(xué)習(xí)[從理論、代碼到實戰(zhàn)],推薦3D視覺精品課程學(xué)習(xí)網(wǎng)址:www.3dcver.com