NeRFLiX,NeRF新高度!
論文題目:NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer
作者:zhoukun(SSE, CUHK-Shenzhen)等人
論文鏈接:https://arxiv.org/abs/2303.06919
項目主頁:https://redrock303.github.io/nerflix/
本文作者:小張It | 來源:微信公眾號「3D視覺工坊」
本文介紹了一種名為NeRFLiX的方法,它提出了一種NeRF風(fēng)格的降級建模方法,并構(gòu)建了大規(guī)模的訓(xùn)練數(shù)據(jù),可將現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于消除NeRF固有的渲染偽影,提高合成質(zhì)量,并提出了一種視角間聚合框架,將尖端NeRF模型的性能推向新的高度,從而產(chǎn)生高度逼真的合成視圖。
1 前言
Neural radiance fields (NeRF)是一種可以在不同視點產(chǎn)生逼真圖像的技術(shù),逐漸成為了新視點合成領(lǐng)域中的熱門。隨著它的成功,出現(xiàn)了許多相似的方法,可以將性能提升到更高水平。然而,NeRF的一個前提是準確地校準訓(xùn)練照片的相機設(shè)置,但在實踐中很難精確地校準相機姿態(tài)。此外,NeRF的簡化場景表示方式也會導(dǎo)致一些局限性,例如生動的幾何形狀、照明、物體材料等因素難以表示。因此,高級的NeRF模型可能會產(chǎn)生一些顯著的失真,包括模糊、噪點、細節(jié)缺失等,我們將其稱為“NeRF-style degradations”。
本文旨在研究模擬大規(guī)模NeRF風(fēng)格成對數(shù)據(jù)的可行性,以開辟訓(xùn)練NeRF-agnostic修復(fù)器以改善NeRF渲染幀的可能性。為此,我們提出了一種新的退化模擬器,可以模擬典型的NeRF風(fēng)格圖像退化,同時提出了三種基本的退化類型。通過構(gòu)建大規(guī)模的數(shù)據(jù)集,我們驗證了開發(fā)NeRF-agnostic修復(fù)模型的可行性。
簡而言之,作者提出了一種不受 NeRF 約束的修復(fù)器(稱為 NeRFLiX),它學(xué)習(xí)了一種基于退化驅(qū)動的視角混合技術(shù)。作者的貢獻可以總結(jié)為以下幾點:
通用增強器:NeRFLiX 功能強大且適應(yīng)性強,可以消除 NeRF 的偽影并恢復(fù)清晰的細節(jié),將尖端的 NeRF 模型的性能推向了全新的水平。
NeRF 渲染退化模擬器:我們開發(fā)了一種 NeRF 風(fēng)格的退化模擬器(NDS),構(gòu)建了大量成對數(shù)據(jù),幫助深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來提高 NeRF 渲染圖像的質(zhì)量。
視角混合技術(shù):基于我們構(gòu)建的 NDS,我們進一步提出了一種能夠混合高質(zhì)量相鄰視角以實現(xiàn)更有效恢復(fù)的基線技術(shù)。
訓(xùn)練時間加速:我們展示了 NeRFLiX 如何使得 NeRF 模型可以在訓(xùn)練時間減少 50% 的情況下產(chǎn)生更好的結(jié)果。
2 預(yù)備知識
渲染涉及三個主要步驟:
射線投射。為了渲染特定視角中目標像素的顏色,NeRF利用相機的校準參數(shù)π通過該像素生成射線r(o,d),其中o,d是相機中心和射線方向。
射線行進。由于穿過神經(jīng)輻射場表示的3D場景的選定射線沿著它的移動,一組3D點沿著選定的射線被采樣。NeRF模型對3D場景進行編碼并預(yù)測這些點的顏色和密度。
輻射累積。像素顏色是通過積分采樣的3D點的預(yù)測輻射特征而提取的。
可以看到建立2D照片和3D場景之間的關(guān)系需要相機校準。不幸的是,精確校準相機姿態(tài)非常具有挑戰(zhàn)性。同時,包括非線性針孔相機模型和形狀-輻射模糊性等固有限制,導(dǎo)致NeRF模型仍然合成出不滿意的新測試視角。
3 方法
3.1 NeRF-Style Degradation Simulator (NDS)
在這一部分,作者提出了一個通用的NeRF退化模擬器,以生成與NeRF-rendered圖像 visually 和 statistically 相似的大規(guī)模訓(xùn)練數(shù)據(jù)集來解決偽影問題。對于目標視角 I,設(shè)計了三種退化方式:分散的高斯噪聲 (SGN),重定位 (Re-Pos.) 和各向異性模糊 (A-Blur)。為了處理由于各種情況下的不平衡的監(jiān)督視角,使用區(qū)域的自適應(yīng)策略。利用模擬生成的圖像和真實的NeRF-rendered圖像的視覺相似性來驗證該模擬器。
3.2 ?Inter-viewpoint Mixer (IVM)
在這一部分,作者提出了一個混合遞歸的視角間“混合器”,逐漸融合兩個高質(zhì)量參考視角的像素級和補丁級內(nèi)容,實現(xiàn)更有效的視角間聚合,從而解決了NeRF樣式視角渲染的偽影問題。該框架包括三個模塊,即特征提取、混合視角間聚合和重建。通過監(jiān)督學(xué)習(xí)使所得到的增強視角 I^更接近于目標視角??。
3.3. View Selection
在視圖選擇階段,需要選擇與渲染視圖I有最大重疊部分的兩個參考視圖{Ir1,Ir2}來進行視點間的信息聚合。因此,作者提出了一種基于針孔相機模型的視圖選擇策略。將3D場景近似為一個球體,擺放攝像機來拍攝景象。當光線射到球體上時,會產(chǎn)生一組交點。用Φi = {pi0,pi1,...,piMi}和Φj = {pj0,pj1,...,pjMj}表示第i個和第j個相機的3D點集。對于第i個視圖的第mi個交點pi,我們在視圖j中搜索其最近的點p i→j mi,用L2距離計算匹配成本Ci→j,然后通過Ci?j = Ci→j + Cj→i得到視圖i和j之間的彼此匹配成本。根據(jù)最小彼此匹配成本來選擇兩個參考視圖{Ir1,Ir2},用于增強NeRF渲染的視圖I的質(zhì)量。
歡迎關(guān)注微信公眾號「3D視覺工坊」,加群/文章投稿/課程主講,請加微信:dddvisiona,添加時請備注:加群/投稿/主講申請
4 實驗
4.1 模型訓(xùn)練
在本研究中,作者通過采用IVM框架,結(jié)合隨機剪裁、翻轉(zhuǎn)和旋轉(zhuǎn)增強等方法以及針對復(fù)雜運動的全局偏移,訓(xùn)練了一個單一的IVM模型來解決三維運動重建的問題。我們采用Adam優(yōu)化器進行訓(xùn)練,并使用余弦退火策略進行學(xué)習(xí)率衰減。
4.2 評估
本研究在LLFF、Tanks and Temples和Noisy LLFF Synthetic三個數(shù)據(jù)集上開展實驗。評估指標采用PSNR、SSIM和LPIPS。其中,PSNR和SSIM越高表示圖像質(zhì)量越好;LPIPS越低表示感知距離誤差越小。
4.3 ?SOTA NeRF模型的改進
4.4 ?NeRF模型的訓(xùn)練加速
該研究展示了使用NeRFLiX方法進行NeRF模型訓(xùn)練加速的可能性,即使將訓(xùn)練時間縮短50%,也能產(chǎn)生優(yōu)秀的渲染結(jié)果。具體而言,該方法可以優(yōu)化兩個SOTA NeRF模型的渲染圖像,并將Plenoxels的訓(xùn)練時間從24分鐘減少到了10分鐘。這一方法的應(yīng)用將使NeRF模型更加實用,并且提高渲染的效率。
4.5 ?消融研究
作者在LLFF 數(shù)據(jù)集上,通過NeRF風(fēng)格的降級模擬器和視角混合器的設(shè)計,來提高光場圖像的質(zhì)量。在模擬質(zhì)量方面,使用t-SNE進行可視化,結(jié)果表明提出的NeRF-style degradation simulator在分布上更接近真實的圖像。在實驗過程中,所采用的所有降級對系統(tǒng)性能都是有益的。此外,作者開發(fā)了視角選擇策略和混合循環(huán)多視角聚合,以應(yīng)對不同視角的差異。在實驗中證明了這種策略和聚合方法的有效性,并證明了所提出的方法的強大性。
5 總結(jié)
作者提出了 NeRFLiX,這是一種通用的 NeRF 無關(guān)的高質(zhì)量神經(jīng)視圖合成恢復(fù)范式。作者系統(tǒng)地分析了 NeRF 渲染管道,并引入了 NeRF 風(fēng)格降級的概念。為了消除 NeRF 風(fēng)格的偽影,我們提出了一種新穎的 NeRF 風(fēng)格降級模擬器,并構(gòu)建了一個大規(guī)模的模擬數(shù)據(jù)集。受益于的模擬數(shù)據(jù)集,作者演示了如何訓(xùn)練 SOTA 深度神經(jīng)網(wǎng)絡(luò)以消除 NeRF 偽影。為了進一步恢復(fù) NeRF 渲染幀中缺失的細節(jié),作者提出了一種能夠聚合從自由視點捕獲的多視圖幀的視角間混合器。此外,作者開發(fā)了一種視圖選擇方案,以選擇最相關(guān)的參考幀,從而在實現(xiàn)卓越結(jié)果的同時大大減輕計算負擔(dān)。廣泛的實驗驗證了 NeRFLiX 的有效性。
論文提出的 NeRFLiX 方法是一種非常有前途的方法,可以從多個視角合成高質(zhì)量的圖像。這個方法可以去除圖像中的降級,并且可以將高度相關(guān)的高質(zhì)量訓(xùn)練圖像融合在一起,從而推動 NeRF 模型的性能到全新的水平,并產(chǎn)生高度逼真的合成視圖。此外,NeRFLiX 還提出了一種新穎的 NeRF 風(fēng)格降級模擬器和一個大規(guī)模的模擬數(shù)據(jù)集,以及一個能夠聚合從自由視點捕獲的多視圖幀的視角間混合器。這些創(chuàng)新點都為 NeRF 模型的性能提升做出了重要貢獻。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
添加小助理微信:dddvisiona, 進入—>3D視覺工坊—NeRF—技術(shù)交流群