散文網(wǎng) » 科技 »學(xué)習(xí) » 大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理！（中）

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

2023-11-10 21:09 作者:3D視覺(jué)工坊 0人讀過(guò) | 我要投稿

作者：泡椒味的口香糖 ?| 來(lái)源：計(jì)算機(jī)視覺(jué)工坊

添加微信：dddvisiona，備注：三維重建，拉你入群。文末附行業(yè)細(xì)分群。

0. 筆者個(gè)人體會(huì)

上一篇文章我們介紹了僅優(yōu)化NeRF和僅優(yōu)化位姿的NeRF SLAM方案，本文將介紹位姿和NeRF聯(lián)合優(yōu)化的相關(guān)工作，也是NeRF SLAM最主要的方向。下一篇文章我們將介紹物體級(jí)NeRF SLAM和雷達(dá)NeRF SLAM的方案。

前情回顧：為避免生硬的翻譯原文，本文針對(duì)每篇文章的介紹將以四個(gè)問(wèn)題來(lái)進(jìn)行，分別是這篇文章希望解決什么問(wèn)題？核心思想是什么？具體如何實(shí)現(xiàn)？有什么效果？當(dāng)然筆者水平有限，如果有理解不當(dāng)?shù)牡胤綒g迎各位讀者批評(píng)指正~

計(jì)算機(jī)視覺(jué)工坊

，贊3

1. 目錄

還是先放一個(gè)目錄列舉本文都介紹了哪些方案。

僅優(yōu)化NeRF

0、NeRF

1、Point-NeRF

2、NeRF-SLAM

僅優(yōu)化位姿

3、iNeRF

4、NeRF-Loc

5、NeRF-VINS（未開(kāi)源）

位姿和NeRF聯(lián)合優(yōu)化

6、iMAP

7、BARF

8、NeRF--

9、NICE-SLAM

10、Vox-Fusion

11、NoPe-NeRF

12、RoDynRF

13、DIM-SLAM

14、Orbeez-SLAM

15、GO-SLAM

16、NICER-SLAM（未開(kāi)源）

17、Co-SLAM

物體級(jí)NeRF SLAM

18、RO-MAP

19、vMAP

LiDAR NeRF SLAM

20、LiDAR-NeRF

21、IR-MCL

22、NeRF-LOAM

23、LONER

4. 位姿和NeRF聯(lián)合優(yōu)化

6、iMAP

標(biāo)題：iMAP: Implicit Mapping and Positioning in Real-Time

作者：Edgar Sucar, Shikun Liu, Joseph Ortiz, Andrew J. Davison

機(jī)構(gòu)：帝國(guó)理工學(xué)院

來(lái)源：ICCV 2021

原文鏈接：https://arxiv.org/abs/2103.12352

代碼鏈接：https://github.com/tymoteuszb/implicit-slam

這篇文章希望解決什么問(wèn)題？

驗(yàn)證MLP可以作為RGBD SLAM的唯一場(chǎng)景表征。

核心思想是什么？

基于RGBD跟蹤，同時(shí)優(yōu)化NeRF和位姿。

具體如何實(shí)現(xiàn)？

第一個(gè)既優(yōu)化NeRF又優(yōu)化位姿的NeRF SLAM方案，分為跟蹤和建圖兩個(gè)線程。首先輸入RGBD進(jìn)行跟蹤，基于關(guān)鍵幀生成一個(gè)記憶庫(kù)，然后進(jìn)行位姿和場(chǎng)景的聯(lián)合優(yōu)化。損失函數(shù)也包括光度損失和深度損失兩部分，后面很多工作也都是使用這兩個(gè)損失。

具體的關(guān)鍵幀選取策略，是用逆渲染深度與RGBD獲取的深度值比對(duì)，超過(guò)一定閾值則認(rèn)為是關(guān)鍵幀。

效果如何？

這項(xiàng)工作比較早了，驗(yàn)證了NeRF在SLAM建圖中可以進(jìn)行很好的空洞補(bǔ)全（新視圖合成）。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

定位精度對(duì)比，由于工作很早，所以精度較差，遠(yuǎn)不如ORB-SLAM2這些傳統(tǒng)方法。但iMAP這個(gè)框架很有開(kāi)創(chuàng)性。

7、BARF

標(biāo)題：BARF: Bundle-Adjusting Neural Radiance Fields

作者：Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, Simon Lucey

機(jī)構(gòu)：卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院、阿德萊德大學(xué)

來(lái)源：ICCV 2021

原文鏈接：https://arxiv.org/abs/2104.06405

代碼鏈接：https://github.com/chenhsuanlin/bundle-adjusting-NeRF

官方主頁(yè)：https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/

這篇文章希望解決什么問(wèn)題？

傳統(tǒng)的NeRF訓(xùn)練需要非常精確的位姿，并且NeRF SLAM反向傳播優(yōu)化位姿時(shí)，對(duì)位姿初值很敏感，容易陷入局部最優(yōu)。

核心思想是什么？

光滑信號(hào)相較復(fù)雜信號(hào)更容易找到全局最優(yōu)解，所以優(yōu)化過(guò)程如果能平滑一些，就不容易陷入局部最優(yōu)。

具體如何實(shí)現(xiàn)？

這篇文章是很早將BA引入NeRF SLAM的工作，給定不完美的位姿也可以訓(xùn)練NeRF。主要工作是應(yīng)用傳統(tǒng)圖像對(duì)齊理論來(lái)聯(lián)合優(yōu)化位姿和NeRF，并且提出一個(gè)由粗到精的策略來(lái)優(yōu)化位姿，使其對(duì)位置編碼的噪聲不敏感。

這個(gè)由粗到精實(shí)際上是通過(guò)w這個(gè)彈性正則化項(xiàng)來(lái)實(shí)現(xiàn)的，也就是優(yōu)化過(guò)程中它會(huì)不斷變化，實(shí)際上也就是使網(wǎng)絡(luò)更加平滑。

效果如何？

先看看位置編碼的影響，具體做法就是將圖片分塊，分別渲染再拼接。對(duì)比原始NeRF的位置編碼，不加位置編碼的效果，還有BARF的效果。

下面這個(gè)實(shí)驗(yàn)也是位置編碼的影響，給定不完美位姿，b是原始NeRF的效果，c是驗(yàn)證BARF由粗到精優(yōu)化的效果，證明不會(huì)陷入局部最優(yōu)。

定量對(duì)比，各項(xiàng)指標(biāo)（包括定位和建圖）都實(shí)現(xiàn)了比較好的提升。

8、NeRF--

標(biāo)題：NeRF--: Neural Radiance Fields Without Known Camera Parameters

作者：Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu

機(jī)構(gòu)：牛津大學(xué)

原文鏈接：https://arxiv.org/abs/2102.07064

代碼鏈接：https://github.com/ActiveVisionLab/nerfmm

官方主頁(yè)：https://nerfmm.active.vision/

這篇文章希望解決什么問(wèn)題？

沒(méi)有相機(jī)參數(shù)（包括內(nèi)參和位姿），只有RGB圖像時(shí)無(wú)法訓(xùn)練NeRF。

核心思想是什么？

將相機(jī)內(nèi)參、外參（位姿）設(shè)置成可學(xué)習(xí)的參數(shù)，其余部分與NeRF步驟相同。

具體如何實(shí)現(xiàn)？

將相機(jī)內(nèi)參和外參設(shè)置為可學(xué)習(xí)的參數(shù)，在訓(xùn)練時(shí)先將相機(jī)參數(shù)設(shè)為一個(gè)固定的初始化值，通過(guò)這個(gè)相機(jī)參數(shù)和并根據(jù)NeRF射線積分，從而獲得對(duì)應(yīng)點(diǎn)的體密度和RGB，獲得完整圖像后計(jì)算光度誤差。NeRF--可以未知相機(jī)的RGB圖像來(lái)端到端地訓(xùn)練整個(gè)pipeline。

此外，為了提高模型的效果，可以重復(fù)優(yōu)化相機(jī)內(nèi)參，即將訓(xùn)練完后的相機(jī)內(nèi)參保存為新的初始化值，重新訓(xùn)練。

效果如何？

在不知內(nèi)參和位姿的情況下，也可以達(dá)到與NeRF相當(dāng)?shù)闹亟ㄐЧ?，恢?fù)的位姿也和COLMAP持平。

9、NICE-SLAM

標(biāo)題：Neural Implicit Scalable Encoding for SLAM

作者：Zihan Zhu, Songyou Peng, Viktor Larsson, Weiwei Xu, Hujun Bao, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys

機(jī)構(gòu)：浙江大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、隆德大學(xué)、MPI、阿姆斯特丹大學(xué)、微軟

來(lái)源：CVPR 2022

原文鏈接：https://arxiv.org/abs/2112.12130

代碼鏈接：https://github.com/cvg/nice-slam

官方主頁(yè)：https://pengsongyou.github.io/nice-slam

這篇文章希望解決什么問(wèn)題？

1、場(chǎng)景重建過(guò)于平滑，丟失高頻細(xì)節(jié)

2、大場(chǎng)景存在網(wǎng)絡(luò)遺忘問(wèn)題（iMAP）

核心思想是什么？

通過(guò)引入基于特征網(wǎng)格的層次場(chǎng)景表達(dá)，嵌入多層位置信息（使用多個(gè)MLP組合多分辨率空間網(wǎng)格），并使用預(yù)訓(xùn)練的幾何先驗(yàn)實(shí)現(xiàn)大尺度室內(nèi)場(chǎng)景重建

具體如何實(shí)現(xiàn)？

NICE-SLAM分為T(mén)racking和Mapping兩部分，Tracking根據(jù)輸入的RGBD信息估計(jì)位姿，Mapping生成RGB和Depth來(lái)做深度和光度損失。

Mapping包含Mid & Fine-level、Coarse-level、Color-level。首先由Mid Level進(jìn)行重建，然后使用Fine level進(jìn)行refine精細(xì)化。Mid level優(yōu)化網(wǎng)格特征，F(xiàn)ine level捕獲更小的高頻幾何細(xì)節(jié)。Coarse-level用來(lái)捕捉高層的幾何場(chǎng)景，例如墻，地板，等具有幾何結(jié)構(gòu)的物體（可以保證Tracking不會(huì)太差），用于預(yù)測(cè)未觀測(cè)到的幾何特征，還有外插的能力（未見(jiàn)視角的合成）。Color-level儲(chǔ)存顏色信息，用于生成場(chǎng)景中更為細(xì)致的顏色表征，從而提高在追蹤線程的準(zhǔn)確度。

效果如何？

畢竟是NeRF SLAM最經(jīng)典的文章，效果必然很好，缺點(diǎn)就是太慢了。當(dāng)然在很多場(chǎng)景上也會(huì)被其他NeRF SLAM方法拉出來(lái)打。

軌跡精度的對(duì)比，可以發(fā)現(xiàn)還是不如ORB-SLAM2這些傳統(tǒng)方法。

10、Vox-Fusion

標(biāo)題：Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation

作者：Xingrui Yang, Hai Li, Hongjia Zhai, Yuhang Ming, Yuqian Liu, Guofeng Zhang

機(jī)構(gòu)：浙江大學(xué)、布里斯托爾大學(xué)、SenseTime

來(lái)源：ISMAR 2022

原文鏈接：https://arxiv.org/abs/2210.15858

代碼鏈接：https://github.com/zju3dv/Vox-Fusion

官方主頁(yè)：https://yangxingrui.com/vox-fusion/

這篇文章希望解決什么問(wèn)題？

傳統(tǒng)的NeRF使用單個(gè)MLP，所以難以表達(dá)幾何細(xì)節(jié)，并且很難擴(kuò)展到大場(chǎng)景。

核心思想是什么？

將NeRF與稀疏體素網(wǎng)格結(jié)合，使用八叉樹(shù)結(jié)合莫頓碼實(shí)現(xiàn)體素的快速分配和檢索。

具體如何實(shí)現(xiàn)？

Vox-Fusion將體密度更改為了體素，存儲(chǔ)的是SDF和RGB。Vox-Fusion由三部分組成：1、體渲染，將場(chǎng)景編碼為MLP和嵌入向量，并輸出給定像素的渲染顏色和SDF值；2、跟蹤過(guò)程，將RGB-D作為輸入，并通過(guò)微分優(yōu)化相機(jī)姿態(tài)；3、建圖過(guò)程，重構(gòu)場(chǎng)景的幾何形狀。

有什么效果？

Vox-Fusion支持場(chǎng)景的動(dòng)態(tài)擴(kuò)展，這就意味著它不需要像之前的NeRF一樣先預(yù)定義地圖大小，而是可以像SLAM一樣增量得去構(gòu)建地圖。

相較于iMap和NICE-SLAM，各項(xiàng)指標(biāo)都有了全面的提升。主要對(duì)比的點(diǎn)是Vox-Fusion使用更大的分辨率也可以得到更多的高頻細(xì)節(jié)。

定性對(duì)比，即使使用比NICE-SLAM更大的分辨率，還是對(duì)桌腿、花這種更細(xì)小的物體重建效果更好，而NICE-SLAM對(duì)這些高頻細(xì)節(jié)不敏感。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

軌跡精度對(duì)比，相對(duì)NICE-SLAM有所提升。

11、NoPe-NeRF

標(biāo)題：NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior

作者：Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu

機(jī)構(gòu)：牛津大學(xué)

來(lái)源：CVPR 2023 Highlight

原文鏈接：https://arxiv.org/abs/2212.07388

代碼鏈接：https://github.com/ActiveVisionLab/nope-nerf/

官方主頁(yè)：https://nope-nerf.active.vision/

也是NeRF很經(jīng)典的文章。

這篇文章希望解決什么問(wèn)題？

和NeRF---類似，也是沒(méi)有先驗(yàn)位姿時(shí)無(wú)法訓(xùn)練NeRF，尤其是在劇烈相機(jī)運(yùn)動(dòng)時(shí)。

核心思想是什么？

引入無(wú)畸變單目深度先驗(yàn)，先驗(yàn)是通過(guò)在訓(xùn)練期間校正比例和平移參數(shù)生成的，從而能夠約束連續(xù)幀之間的相對(duì)姿態(tài)。

具體怎么做呢？

NoPe-NeRF的輸入是RGB序列，首先從單目深度估計(jì)網(wǎng)絡(luò)（DPT）生成單目深度圖，并重建點(diǎn)云，然后優(yōu)化NeRF、相機(jī)位姿、深度失真參數(shù)。訓(xùn)練主要也是依靠單目深度估計(jì)的深度圖和渲染出來(lái)的深度圖做損失。

具體來(lái)說(shuō)，無(wú)畸變深度圖提供了兩個(gè)約束條件。通過(guò)在無(wú)畸變深度圖中反投影出的兩個(gè)點(diǎn)云距離的來(lái)提供相鄰圖像的相對(duì)姿態(tài)，從而約束全局姿態(tài)估計(jì)。然后通過(guò)將無(wú)畸變深度視為表面，使用基于表面的光度一致性來(lái)約束相對(duì)姿態(tài)估計(jì)。

有什么效果？

這個(gè)圖很經(jīng)典啊，很多公眾號(hào)都拿這個(gè)圖當(dāng)封面。一方面表達(dá)了NoPe-NeRF可以聯(lián)合優(yōu)化位姿和NeRF，一方面表達(dá)了性能超越了其他SOTA方案。

做SLAM的話更關(guān)心位姿，所以這里再放一個(gè)和其他方案的軌跡精度對(duì)比。

12、RoDynRF

標(biāo)題：Robust Dynamic Radiance Fields

作者：Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang

機(jī)構(gòu)：Meta、國(guó)立臺(tái)灣大學(xué)、KAIST、馬里蘭大學(xué)

來(lái)源：CVPR 2023

原文鏈接：https://arxiv.org/abs/2301.02239

代碼鏈接：https://github.com/facebookresearch/robust-dynrf

官方主頁(yè)：https://robust-dynrf.github.io/

本身這篇文章研究的是動(dòng)態(tài)NeRF，但是和NeR--一樣都可以在沒(méi)有位姿和內(nèi)參的情況下聯(lián)合優(yōu)化位姿和NeRF，所以也算是NeRF SLAM的一種。

這篇文章希望解決什么問(wèn)題？

1、傳統(tǒng)的NeRF基于靜態(tài)環(huán)境假設(shè)

2、動(dòng)態(tài)環(huán)境下由SfM估計(jì)的位姿不準(zhǔn)確

核心思想是什么？

聯(lián)合優(yōu)化靜態(tài)、動(dòng)態(tài)輻射場(chǎng)和相機(jī)參數(shù)（位姿和焦距）。

具體怎么做呢？

用靜態(tài)和動(dòng)態(tài)輻射場(chǎng)分別建模靜態(tài)和動(dòng)態(tài)場(chǎng)景。靜態(tài)輻射場(chǎng)就是一個(gè)普通的NeRF，使用坐標(biāo)和方向作為輸入，并預(yù)測(cè)體密度和顏色。靜態(tài)部分的密度不隨時(shí)間和觀察方向而變化，因此可以使用查詢特征的總和作為密度（而不是使用MLP），靜態(tài)區(qū)域loss同時(shí)優(yōu)化靜態(tài)體素場(chǎng)和相機(jī)參數(shù)。動(dòng)態(tài)輻射場(chǎng)取采樣坐標(biāo)和時(shí)間t，得到正則空間中的變形坐標(biāo)。然后利用這些變形坐標(biāo)對(duì)動(dòng)態(tài)體素場(chǎng)中的特征進(jìn)行查詢，并將特征隨時(shí)間指數(shù)傳遞給隨時(shí)間變化的淺層MLP，得到動(dòng)態(tài)部分的顏色、密度和非剛性。最后在體渲染之后，從靜態(tài)和動(dòng)態(tài)部分以及非剛性Mask獲得RGB圖像和深度圖。

有什么效果？

使用的設(shè)備是一塊NVIDIA V100GPU，訓(xùn)練了28小時(shí)。隨意捕捉一組帶動(dòng)態(tài)目標(biāo)的視頻，就可以在不知相機(jī)參數(shù)的情況下進(jìn)行動(dòng)態(tài)NeRF重建。

由于是SLAM總結(jié)，所以這里放了和其他方案的定位軌跡精度，可以發(fā)現(xiàn)其他SOTA方案都無(wú)法處理動(dòng)態(tài)場(chǎng)景。

13、DIM-SLAM

標(biāo)題：Dense RGB SLAM with Neural Implicit Maps

作者：Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan

機(jī)構(gòu)：香港科技大學(xué)、阿里巴巴、西蒙·弗雷澤大學(xué)

來(lái)源：ICLR 2023

原文鏈接：https://arxiv.org/abs/2301.08930

代碼鏈接：https://github.com/HKUST-3DV/DIM-SLAM

官方主頁(yè)：https://poptree.github.io/DIM-SLAM/

作者宣稱這是第一個(gè)具有神經(jīng)隱式建圖表示的稠密RGB SLAM，因?yàn)闆](méi)有使用深度信息。

這篇文章希望解決什么問(wèn)題？

沒(méi)有深度信息只有RGB的情況下訓(xùn)練NeRF。

核心思想是什么？

引入一個(gè)分層的特征體積來(lái)輔助隱式地圖解碼器，融合不同尺度的形狀線索以促進(jìn)地圖重建。同時(shí)通過(guò)匹配渲染和輸入視頻幀來(lái)同時(shí)優(yōu)化相機(jī)運(yùn)動(dòng)和神經(jīng)隱式地圖。

具體怎么做呢？

DIM-SLAM是一個(gè)完全RGB的SLAM系統(tǒng)，不需要任何單目深度估計(jì)和光流預(yù)訓(xùn)練模型（這個(gè)還是挺亮眼的），就能同時(shí)優(yōu)化場(chǎng)景和相機(jī)位姿，相機(jī)位姿的精度甚至超過(guò)了一些RGB-D SLAM方法。

NeRF在沒(méi)有深度監(jiān)督的情況下難以收斂，為了解決這個(gè)問(wèn)題，DIM-SLAM引入了一個(gè)分層的特征體素以提高場(chǎng)景表示能力。DIM-SLAM在給定攝像機(jī)姿態(tài)的情況下，對(duì)多尺度特征沿射線進(jìn)行采樣，并通過(guò)MLP解碼器將多尺度特征計(jì)算出每個(gè)像素的深度和顏色。這樣，通過(guò)將所呈現(xiàn)的圖像與觀察到的圖像進(jìn)行匹配，可以同時(shí)求解相機(jī)位姿和三維場(chǎng)景建圖。

還是用了一個(gè)warping損失來(lái)提高精度。

有什么效果？

運(yùn)行設(shè)備是兩塊NVIDIA 2080Ti GPU。作為僅RGB方法，建圖精度可以媲美RGBD方法。

看看定位精度的定量對(duì)比，已經(jīng)可以媲美ORB-SLAM2這種傳統(tǒng)方法和DROID-SLAM這種學(xué)習(xí)方法。

14、Orbeez-SLAM

標(biāo)題：Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

作者：Chi-Ming Chung, Yang-Che Tseng, Ya-Ching Hsu, Xiang-Qian Shi, Yun-Hung Hua, Jia-Fong Yeh, Wen-Chin Chen, Yi-Ting Chen, Winston H. Hsu

機(jī)構(gòu)：國(guó)立臺(tái)灣大學(xué)

原文鏈接：https://arxiv.org/abs/2209.13274

代碼鏈接：https://github.com/MarvinChung/Orbeez-SLAM

這篇文章希望解決什么問(wèn)題？

很多NeRF SLAM需要針對(duì)每個(gè)新場(chǎng)景重新訓(xùn)練，實(shí)際應(yīng)用要求SLAM具備泛化性。

核心思想是什么？

傳統(tǒng)SLAM可以在NeRF訓(xùn)練初期提供較為準(zhǔn)確的位姿，使得沒(méi)有深度信息也可以快速收斂。

具體怎么做呢？

個(gè)人感覺(jué)是傳統(tǒng)SLAM和NeRF結(jié)合很好的一篇文章，使用的是ORB-SLAM2和Instant-NGP的組合方案，同樣不需要深度信息。跟蹤和建圖同時(shí)運(yùn)行，首先使用ORB-SLAM2進(jìn)行跟蹤，如果定位精度較高并且建圖線程不繁忙則添加為關(guān)鍵幀，再用關(guān)鍵幀和位姿去優(yōu)化NeRF（Instant-NGP）。

還提供了一種新的射線采樣方法。

有什么效果？

運(yùn)行設(shè)備是Intel i7-9700 CPU和一塊NVIDIA RTX3090 GPU，可以在線訓(xùn)練。

定位精度對(duì)比，這個(gè)不太好，本身就是ORB-SLAM2提供的初始位姿，優(yōu)化后還不如ORB2了。

15、GO-SLAM

標(biāo)題：GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction

作者：Youmin Zhang, Fabio Tosi, Stefano Mattoccia, Matteo Poggi

機(jī)構(gòu)：博洛尼亞大學(xué)

來(lái)源：ICCV 2023

原文鏈接：https://arxiv.org/abs/2309.02436

代碼鏈接：https://github.com/youmi-zym/GO-SLAM

官方主頁(yè)：https://youmi-zym.github.io/projects/GO-SLAM/

這篇文章希望解決什么問(wèn)題？

NeRF SLAM定位精度低。

核心思想是什么？

使用BA和回環(huán)來(lái)優(yōu)化位姿。

具體怎么做呢？

GO-SLAM本身是基于DROID-SLAM和Instant-NGP的組合，主要工作是引入了BA和回環(huán)模塊。GO-SLAM由三個(gè)并行線程組成：前端跟蹤、后端跟蹤，以及實(shí)例建圖。GO-SLAM的前端跟蹤線程是直接用的DROID-SLAM的跟蹤模塊，后面訓(xùn)練過(guò)程也是直接調(diào)的DROID-SLAM的預(yù)訓(xùn)練權(quán)重，只不過(guò)加入了新的回環(huán)和BA優(yōu)化。然后使用RAFT來(lái)計(jì)算新一幀相對(duì)于最后一個(gè)關(guān)鍵幀的光流，如果平均流大于閾值，則創(chuàng)建新關(guān)鍵幀。后端跟蹤線程的重點(diǎn)是通過(guò)全BA生成全局一致的位姿和深度預(yù)測(cè)。最后，實(shí)例建圖線程根據(jù)最新的位姿信息實(shí)時(shí)更新三維重建。GO-SLAM的輸入可以是單目雙目，還可以是RGB-D，非常的通用！

GO-SLAM主要還是基于NeRF進(jìn)行稠密重建，可以發(fā)現(xiàn)相較于NICE-SLAM這些SOTA方案，GO-SLAM重建場(chǎng)景的全局一致性更好，這主要是因?yàn)樗肓嘶丨h(huán)和全局BA來(lái)優(yōu)化累計(jì)誤差。

還有在EuRoC數(shù)據(jù)集上的定性重建結(jié)果。相較于DROID-SLAM，GO-SLAM的重建效果更加干凈！

軌跡精度對(duì)比，在TUM、EuRoC、ScanNet三個(gè)數(shù)據(jù)集都對(duì)比了ATE，出于篇幅限制只放一個(gè)TUM的。

16、NICER-SLAM

標(biāo)題：NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM

作者：Zihan Zhu, Songyou Peng, Viktor Larsson, Zhaopeng Cui, Martin R. Oswald, Andreas Geiger, Marc Pollefeys

機(jī)構(gòu)：ETHZ、MPI、隆德大學(xué)、浙江大學(xué)、阿姆斯特丹大學(xué)、烏賓根大學(xué)、微軟

原文鏈接：https://arxiv.org/abs/2302.03594

這篇文章希望解決什么問(wèn)題？

RGB數(shù)據(jù)沒(méi)有深度信息，無(wú)法產(chǎn)生高質(zhì)量的NeRF渲染結(jié)果。

核心思想是什么？

引入單目深度估計(jì)進(jìn)行監(jiān)督，還為SDF表征建立分層神經(jīng)隱式編碼。

具體如何實(shí)現(xiàn)？

NICER-SLAM以RGB流作為輸入，并輸出相機(jī)位姿，以及學(xué)習(xí)的幾何和顏色的分層場(chǎng)景表示。實(shí)際上是在NICE-SLAM的基礎(chǔ)上引入單目深度估計(jì)，同時(shí)融合了重建、顏色、位姿、光流、warping-loss、深度、Eikonal Loss損失。

其實(shí)這篇文章的啟發(fā)意義不大，但是證明了引入各種各種的損失可以提升性能。

效果如何？

重建效果對(duì)比，在只是用RGB的方法里效果不錯(cuò)，甚至和RGBD方法持平。

相機(jī)跟蹤結(jié)果，在RGB里好像也沒(méi)達(dá)到最優(yōu)。

17、Co-SLAM

標(biāo)題：Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM

作者：Hengyi Wang, Jingwen Wang, Lourdes Agapito

機(jī)構(gòu)：倫敦大學(xué)學(xué)院

來(lái)源：CVPR 2023

原文鏈接：https://arxiv.org/abs/2304.14377

代碼鏈接：https://github.com/HengyiWang/Co-SLAM

官方主頁(yè)：https://hengyiwang.github.io/projects/CoSLAM

這篇文章希望解決什么問(wèn)題？

1、Instant-NPG雖然訓(xùn)練速度很快，但是因?yàn)樗褂昧斯＞幋a，所以在空間很多位置都不連續(xù)。

2、傳統(tǒng)的NeRF在大場(chǎng)景面臨遺忘問(wèn)題。

核心思想是什么？

1、使用one-blob編碼提高哈希編碼的連續(xù)性。

2、在所有關(guān)鍵幀上采樣來(lái)訓(xùn)練NeRF，而不是像NICE-SLAM那樣維護(hù)一個(gè)關(guān)鍵幀列表。

具體如何實(shí)現(xiàn)？

首先將傳統(tǒng)NeRF中的體密度改為T(mén)SDF，訓(xùn)練也是聯(lián)合優(yōu)化NeRF和相機(jī)位姿。

Co-SLAM的輸入是RGBD序列，進(jìn)行射線采樣和跟蹤獲得位姿。傳統(tǒng)的Instant-NGP是先建立網(wǎng)格，將采樣點(diǎn)輸入并在哈希表中檢索，再輸給MLP進(jìn)行渲染。為了將離散的哈希表轉(zhuǎn)換成連續(xù)的，這里引入了obe-blob編碼（實(shí)際上是將連通區(qū)域編碼成相同的數(shù)值），后面將編碼的點(diǎn)再過(guò)一遍MLP。

效果如何？

運(yùn)行設(shè)備是i7-12700K CPU和RTX 3090ti GPU，運(yùn)行速率是5-13 Hz。

定量結(jié)果對(duì)比，各項(xiàng)指標(biāo)都很好，運(yùn)行速度也提高很多。

軌跡精度的對(duì)比，相比NICE-SLAM精度有所提升，但還是不如傳統(tǒng)的ORB-SLAM2。

總結(jié)：在NeRF SLAM應(yīng)用里，位姿和NeRF聯(lián)合優(yōu)化是最主要的方向，這方面的文章非常多。

3D視覺(jué)細(xì)分群成立啦！

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群，包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向。
細(xì)分群包括：
[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群；
[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群；
[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。
[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。
[無(wú)人機(jī)方向]四旋翼建模、無(wú)人機(jī)飛控等。
除了這些，還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。
大家可以添加小助理微信: dddvisiona，備注：加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群

標(biāo)簽：

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

0. 筆者個(gè)人體會(huì)

1. 目錄

4. 位姿和NeRF聯(lián)合優(yōu)化

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

0. 筆者個(gè)人體會(huì)

1. 目錄

4. 位姿和NeRF聯(lián)合優(yōu)化

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校┑脑u(píng)論 (共 條) 分享到微博請(qǐng)遵守國(guó)家法律

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校┑脑u(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校┑脑u(píng)論 (共條)

分享到微博請(qǐng)遵守國(guó)家法律

大盤(pán)點(diǎn)！22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校┑脑u(píng)論 (共條)