arXiv最新NeRF文章 l 混合神經(jīng)輻射場(chǎng)中的零樣本物體生成和混合
作者:小張Tt?| 來(lái)源:3D視覺(jué)工坊
在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。
添加微信:CV3d007,備注:NeRF,拉你入群。文末附行業(yè)細(xì)分群。
Blended-NeRF是一個(gè)強(qiáng)大而靈活的框架,用于編輯NeRF場(chǎng)景中的特定興趣區(qū)域。該框架利用預(yù)訓(xùn)練的語(yǔ)言-圖像模型和現(xiàn)有NeRF場(chǎng)景上初始化的3D MLP模型,根據(jù)文本提示或圖像塊合成并混合對(duì)象到原始場(chǎng)景中的指定區(qū)域。使用3D ROI框?qū)崿F(xiàn)局部編輯,并通過(guò)體積混合技術(shù)將合成內(nèi)容與現(xiàn)有場(chǎng)景融合。為了獲得逼真且一致的結(jié)果,該框架使用幾何先驗(yàn)和3D增強(qiáng)技術(shù)提高視覺(jué)保真度。在定性和定量測(cè)試中,Blended-NeRF展示了比基準(zhǔn)方法更大的靈活性和多樣性的逼真多視圖一致結(jié)果。此外,該框架適用于多種3D編輯應(yīng)用。
近年來(lái),在神經(jīng)隱式表示領(lǐng)域取得了重要的進(jìn)展,特別是對(duì)于3D場(chǎng)景的隱式表示。NeRFs是一種基于MLP的神經(jīng)模型,可以通過(guò)體積渲染從有限數(shù)量的觀測(cè)生成高質(zhì)量的圖像。然而,編輯NeRF表示的場(chǎng)景是具有挑戰(zhàn)性的,因?yàn)閳?chǎng)景是以隱式方式編碼的,而不是以顯式方式表示。此外,在NeRF表示的場(chǎng)景中混合新對(duì)象也是具有挑戰(zhàn)性的,需要在隱式表示的基礎(chǔ)上保持多個(gè)視角之間的一致性。與在圖像中進(jìn)行局部編輯不同,現(xiàn)有的方法主要集中在局部部分的移除、顏色變化和形狀轉(zhuǎn)移等簡(jiǎn)單操作上。本文提出了一種基于ROI的NeRF場(chǎng)景編輯方法,通過(guò)文本提示或圖像修補(bǔ)來(lái)引導(dǎo)。該方法具有通用性,可以應(yīng)用于任何實(shí)際場(chǎng)景中的任何區(qū)域,并生成自然且與現(xiàn)有場(chǎng)景無(wú)縫融合的結(jié)果。為了實(shí)現(xiàn)局部編輯,我們利用預(yù)訓(xùn)練的語(yǔ)言-圖像模型和現(xiàn)有的NeRF模型,結(jié)合深度信息和體積混合方法,實(shí)現(xiàn)了對(duì)指定區(qū)域的編輯。為了獲得更逼真、自然且一致的結(jié)果,我們還引入了增強(qiáng)和先驗(yàn),如深度正則化、姿態(tài)采樣和方向依賴(lài)的提示。經(jīng)過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證,我們的方法在各種真實(shí)3D場(chǎng)景的編輯應(yīng)用中取得了良好的效果。
神經(jīng)隱式表示在計(jì)算機(jī)視覺(jué)和圖形學(xué)領(lǐng)域中得到了廣泛的應(yīng)用,包括2D和3D。其優(yōu)點(diǎn)之一是能夠捕捉復(fù)雜多樣的模式,并提供底層場(chǎng)景的連續(xù)表示。與高分辨率2D圖像的顯式表示,或者3D中的網(wǎng)格和點(diǎn)云相比,神經(jīng)隱式表示具有獨(dú)立于分辨率的緊湊性。NeRFs通過(guò)多層感知機(jī)(MLP)的權(quán)重學(xué)習(xí)將3D場(chǎng)景表示為連續(xù)體積和輻射場(chǎng)。給定3D位置??和視角(??,??),NeRF在??處輸出密度??和顏色??。因此,可以通過(guò)沿視線(xiàn)??(??)積累每個(gè)像素的顏色和密度來(lái)渲染場(chǎng)景的新視圖,使用近似的經(jīng)典體渲染方程的積分規(guī)則。通過(guò)將輸入嵌入高維空間中使用高頻正弦位置編碼??(??),可以更好地?cái)M合數(shù)據(jù)中的高頻變動(dòng)。最近的工作利用了對(duì)比表示學(xué)習(xí)的進(jìn)展,利用文本輸入可以實(shí)現(xiàn)對(duì)生成對(duì)象內(nèi)容的簡(jiǎn)單而靈活的控制。
給定一個(gè)由NeRF模型F0θ表示的現(xiàn)有3D場(chǎng)景和一個(gè)定位在場(chǎng)景內(nèi)部的3D興趣區(qū)域(ROI)盒子B,作者的目標(biāo)是根據(jù)用戶(hù)提供的文本提示或圖像補(bǔ)丁修改ROI內(nèi)的場(chǎng)景,得到一個(gè)修改后的場(chǎng)景。 ⊙ B應(yīng)與用戶(hù)提示一致,并且在盒子外與匹配( ⊙ (1?B) = ⊙ (1?B))。為了實(shí)現(xiàn)ROI內(nèi)的編輯,作者使用原始場(chǎng)景模型F0θ的權(quán)重初始化一個(gè)3D MLP模型FGθ,并使用預(yù)訓(xùn)練的語(yǔ)言圖像模型(如CLIP)將權(quán)重調(diào)整到給定的提示。作者通過(guò)GUI和原始NeRF模型F0θ的輸出深度圖來(lái)實(shí)現(xiàn)在任何區(qū)域進(jìn)行局部編輯。使用給定的ROI盒子,可以分解輻射場(chǎng),然后通過(guò)對(duì)和中的每個(gè)相機(jī)射線(xiàn)??上的采樣來(lái)執(zhí)行原始輻射場(chǎng)和編輯后輻射場(chǎng)的無(wú)縫體積混合。同時(shí),作者提出增強(qiáng)和先驗(yàn)方法來(lái)獲得更真實(shí)和自然的結(jié)果,包括透射率和深度正則化、背景增強(qiáng)、姿態(tài)采樣和方向依賴(lài)提示。整個(gè)方法的概述如圖1a所示。詳細(xì)描述了3D對(duì)象生成和混合過(guò)程,并介紹了模型目標(biāo)和先驗(yàn)方法,以及在場(chǎng)景中放置3D盒子的圖形界面。
本文提出了一種基于圖像和文本驅(qū)動(dòng)的3D合成和混合方法。給定一個(gè)由NeRF模型表示的3D場(chǎng)景、一個(gè)ROI框??和一個(gè)攝像機(jī)姿態(tài),作者使用和的副本作為生成框內(nèi)內(nèi)容的起始點(diǎn)。剩余的場(chǎng)景通過(guò)只渲染位于??內(nèi)的采樣點(diǎn)的射線(xiàn)來(lái)保留。的訓(xùn)練受到語(yǔ)言-圖像模型(如CLIP)的指導(dǎo),以使生成的框內(nèi)內(nèi)容與用戶(hù)提供的文本提示或圖像補(bǔ)丁對(duì)齊。為了獲得平滑混合的結(jié)果,作者使用相同的射線(xiàn)查詢(xún)和兩個(gè)模型。對(duì)于ROI外的采樣點(diǎn),作者使用推斷的密度和顏色,而對(duì)于ROI內(nèi)的采樣點(diǎn),作者使用兩個(gè)輻射場(chǎng)的結(jié)果進(jìn)行混合。的優(yōu)化通過(guò)將用戶(hù)提供的文本提示??與生成框內(nèi)的渲染視圖????????的余弦相似度最小化來(lái)進(jìn)行。在優(yōu)化過(guò)程中,作者只使用位于??內(nèi)的3D采樣點(diǎn)進(jìn)行渲染。訓(xùn)練后,通過(guò)使用相同的射線(xiàn)查詢(xún)和,將ROI內(nèi)外的場(chǎng)景進(jìn)行混合。為了實(shí)現(xiàn)平滑混合,作者使用距離平滑算子和alpha合成密度和顏色。在對(duì)象插入/替換模式下,使用進(jìn)行訓(xùn)練,并在訓(xùn)練后進(jìn)行混合。在對(duì)象混合模式下,將原始的和編輯后的場(chǎng)進(jìn)行查詢(xún),并混合各個(gè)采樣點(diǎn)的顏色和密度。最終生成混合圖像的????????用于訓(xùn)練,并在訓(xùn)練后進(jìn)行混合。
根據(jù)先前的研究和實(shí)驗(yàn)證明,在視覺(jué)領(lǐng)域中僅使用相似性損失建立的場(chǎng)景表示過(guò)于不受約束,作者通過(guò)引入先驗(yàn)和增強(qiáng)方法改進(jìn)了結(jié)果的真實(shí)性。通過(guò)采樣不同的攝像機(jī)姿態(tài)和改變背景,以及根據(jù)當(dāng)前視角的提示,作者能夠更好地描述物體的幾何形狀和視覺(jué)特征。透射損失和深度損失幫助生成更真實(shí)和具有體積感的場(chǎng)景。生成器的最終目標(biāo)函數(shù)是相似性損失、透射損失和深度損失的加權(quán)和。有關(guān)實(shí)現(xiàn)細(xì)節(jié)和超參數(shù)的更多信息,請(qǐng)參考補(bǔ)充材料。
為了指定ROI并對(duì)場(chǎng)景進(jìn)行分解,作者引入了一個(gè)圖形界面,可以將一個(gè)軸對(duì)齊的3D盒子定位到場(chǎng)景中。通過(guò)給定盒子的中心位置和軸尺寸,使用原始的NeRF模型從相機(jī)位置渲染場(chǎng)景。然后,使用相機(jī)矩陣將3D盒子的邊緣投影到圖像平面上。為了提供關(guān)于盒子在場(chǎng)景中位置的直觀反饋,利用場(chǎng)景的深度圖去除部分被場(chǎng)景遮擋的盒子邊緣。用戶(hù)可以通過(guò)移動(dòng)盒子和修改尺寸以精確和直觀的方式指定ROI,并能夠從任意視角檢查位置。
在本文中,作者首先定性和定量地比較了作者的方法與基準(zhǔn)Volumetric Disentanglement for 3D Scene Manipulation。接著,展示了作者建議的先驗(yàn)和增強(qiáng)對(duì)提升模型的保真度和視覺(jué)質(zhì)量的效果。最后,展示了作者的框架所支持的幾個(gè)應(yīng)用。
在本節(jié)中,作者定性比較了作者的方法與Volumetric Disentanglement。盡管作者使用了項(xiàng)目頁(yè)面提供的示例進(jìn)行比較,作者的結(jié)果在顏色和文本對(duì)齊方面展現(xiàn)出了更豐富和自然的特性。為了定量評(píng)估,作者使用了CLIP Direction相似度、CLIP Direction一致性和LPIPS這三個(gè)度量指標(biāo)。結(jié)果表明,作者的模型在所有指標(biāo)上都優(yōu)于基準(zhǔn)模型,說(shuō)明作者的生成對(duì)象更好地與輸入文本描述匹配,并且從所有視角看更加一致,而且作者的方法成功地保持了場(chǎng)景的其他部分不變。
在這一部分中,作者通過(guò)使用R-Precision分?jǐn)?shù)來(lái)衡量生成的圖像與真實(shí)描述的對(duì)齊程度,展示了作者提出的增強(qiáng)和先驗(yàn)的重要性。作者選擇了COCO數(shù)據(jù)集中的一部分樣本作為真實(shí)標(biāo)簽,并通過(guò)在llff蕨類(lèi)場(chǎng)景的空白區(qū)域插入合成的對(duì)象來(lái)進(jìn)行測(cè)試。結(jié)果發(fā)現(xiàn),方向依賴(lài)的提示對(duì)結(jié)果的改善作用不大,可能是由于場(chǎng)景的前向特性所致。當(dāng)渲染受限于相機(jī)位置和視角,并且沒(méi)有使用作者提出的深度先驗(yàn)時(shí),結(jié)果會(huì)變差。在視覺(jué)上的比較也證明了這個(gè)結(jié)論,插入新對(duì)象時(shí),使用作者提出的深度先驗(yàn)可以生成更具體積感、更自然和一致的對(duì)象。更多細(xì)節(jié)請(qǐng)參考補(bǔ)充材料。
本節(jié)展示了作者的框架在幾個(gè)3D編輯場(chǎng)景中的應(yīng)用可行性。通過(guò)放置ROI框并使用文本提示,作者可以合成新對(duì)象并將其融入原始場(chǎng)景。作者還展示了使用訓(xùn)練過(guò)程來(lái)替換現(xiàn)有對(duì)象和在ROI內(nèi)混合原始對(duì)象和生成對(duì)象的方法。另外,作者利用特定的層訓(xùn)練和凍結(jié)過(guò)程實(shí)現(xiàn)紋理編輯,并使用特定公式實(shí)現(xiàn)無(wú)縫混合效果。通過(guò)這些應(yīng)用,作者展示了框架的適用性和編輯效果。
在本文中,作者引入了一種新穎的方法,通過(guò)利用語(yǔ)言-圖像模型來(lái)引導(dǎo)生成過(guò)程,并引入了新的先驗(yàn)知識(shí)、增強(qiáng)和體積混合技術(shù),實(shí)現(xiàn)了將新對(duì)象無(wú)縫地融入現(xiàn)有的NeRF場(chǎng)景。通過(guò)測(cè)試不同場(chǎng)景和文本提示,作者驗(yàn)證了我們的框架在多個(gè)編輯應(yīng)用中的適用性。但作者的方法存在一些限制,包括目前無(wú)法同時(shí)編輯場(chǎng)景中的多個(gè)對(duì)象以及ROI場(chǎng)景形狀的局限性。作者也指出了可能出現(xiàn)的偽影問(wèn)題,并提到了未來(lái)將結(jié)合擴(kuò)散模型來(lái)進(jìn)一步提高生成對(duì)象質(zhì)量的工作??傮w而言,作者的框架為實(shí)現(xiàn)自然且一致的編輯結(jié)果提供了一種有效的解決方案。
目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。
大家可以添加小助理微信: CV3d007,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。