大盤點(diǎn)!22項(xiàng)開源NeRF SLAM頂會(huì)方案整理!(下)
作者:泡椒味的口香糖 ?| 來(lái)源:計(jì)算機(jī)視覺工坊
添加微信:dddvisiona,備注:SLAM,拉你入群。文末附行業(yè)細(xì)分群。
大盤點(diǎn)!22項(xiàng)開源NeRF、SLAM頂會(huì)方案整理?。ㄉ希?/a>
大盤點(diǎn)!22項(xiàng)開源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/a>
0. 筆者個(gè)人體會(huì)
上兩篇文章我們介紹了僅優(yōu)化NeRF、僅優(yōu)化位姿、位姿和NeRF聯(lián)合優(yōu)化的NeRF SLAM相關(guān)工作。本文我們將介紹物體級(jí)NeRF SLAM和雷達(dá)NeRF SLAM的方案。
前情回顧:為避免生硬的翻譯原文,本文針對(duì)每篇文章的介紹將以四個(gè)問(wèn)題來(lái)進(jìn)行,分別是這篇文章希望解決什么問(wèn)題?核心思想是什么?具體如何實(shí)現(xiàn)?有什么效果?當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎各位讀者批評(píng)指正~
1. 目錄
還是先放一個(gè)目錄列舉本文都介紹了哪些方案。
僅優(yōu)化NeRF
0、NeRF
1、Point-NeRF
2、NeRF-SLAM
僅優(yōu)化位姿
3、iNeRF
4、NeRF-Loc
5、NeRF-VINS(未開源)
位姿和NeRF聯(lián)合優(yōu)化
6、iMAP
7、BARF
8、NeRF--
9、NICE-SLAM
10、Vox-Fusion
11、NoPe-NeRF
12、RoDynRF
13、DIM-SLAM
14、Orbeez-SLAM
15、GO-SLAM
16、NICER-SLAM(未開源)
17、Co-SLAM
物體級(jí)NeRF SLAM
18、RO-MAP
19、vMAP
LiDAR NeRF SLAM
20、LiDAR-NeRF
21、IR-MCL
22、NeRF-LOAM
23、LONER
5. 物體級(jí)NeRF SLAM
18、RO-MAP
標(biāo)題:RO-MAP: Real-Time Multi-Object Mapping with Neural Radiance Fields
作者:Xiao Han, Houxuan Liu, Yunchao Ding, Lu Yang
機(jī)構(gòu):電子科技大學(xué)
原文鏈接:https://arxiv.org/abs/2304.05735
代碼鏈接:https://github.com/XiaoHan-Git/RO-MAP
第一個(gè)3D先驗(yàn)自由單目多對(duì)象建圖pipeline!
這篇文章希望解決什么問(wèn)題?
物體級(jí)地圖不夠稠密。
核心思想是什么?
每個(gè)目標(biāo)都單獨(dú)訓(xùn)練一個(gè)MLP,建立物體級(jí)NeRF地圖。
具體如何實(shí)現(xiàn)?
整個(gè)框架分為物體級(jí)SLAM和物體級(jí)NeRF兩部分。物體級(jí)SLAM基于ORB-SLAM2實(shí)現(xiàn),識(shí)別目標(biāo)沒有使用學(xué)習(xí)方法,而是使用一種輕量級(jí)的手工方法來(lái)定位。還采用一種基于稀疏點(diǎn)云的語(yǔ)義信息和統(tǒng)計(jì)信息的方法來(lái)自動(dòng)關(guān)聯(lián)多視圖觀測(cè)與目標(biāo)地標(biāo)。在估計(jì)了物體級(jí)SLAM的邊界框和相機(jī)姿態(tài)后,就可以NeRF學(xué)習(xí)物體的稠密幾何形狀。每當(dāng)檢測(cè)到一個(gè)新的對(duì)象實(shí)例,初始化一個(gè)新的NeRF模型(Instant-NGP)。注意,這里的NeRF不重建整個(gè)場(chǎng)景,而是只表示單個(gè)對(duì)象,也就是可以使用輕量級(jí)網(wǎng)絡(luò)加快訓(xùn)練速度。

效果如何?
NeRF建圖的定量對(duì)比,因?yàn)槭褂昧薔eRF所以建圖質(zhì)量明顯比ColMap好。

定性的重建效果對(duì)比。

運(yùn)行時(shí)間的對(duì)比,運(yùn)行設(shè)備是Intel Xeon 6154 CPU和一塊NVIDIA RTX 4090 GPU。因?yàn)闆]有使用學(xué)習(xí)方法來(lái)檢測(cè)目標(biāo),所以物體級(jí)SLAM耗時(shí)比較小,主要計(jì)算量還是在NeRF。對(duì)于單個(gè)物體,一次迭代需要0.7ms,平均每個(gè)對(duì)象需要2700次迭代訓(xùn)練,時(shí)間約為2秒。
整體運(yùn)行幀率為22至25赫茲。

19、vMAP
標(biāo)題:vMAP: Vectorised Object Mapping for Neural Field SLAM
作者:Xin Kong, Shikun Liu, Marwan Taher, Andrew J. Davison
機(jī)構(gòu):帝國(guó)理工學(xué)院
來(lái)源:CVPR 2023
原文鏈接:https://arxiv.org/abs/2302.01838
代碼鏈接:https://github.com/kxhit/vMAP
官方主頁(yè):https://kxhit.github.io/vMAP
也是一篇開源的物體級(jí)NeRF SLAM方案,同樣是為每個(gè)目標(biāo)單獨(dú)分配一個(gè)MLP。
這篇文章希望解決什么問(wèn)題?
物體級(jí)地圖不夠稠密。
核心思想是什么?
每個(gè)目標(biāo)都單獨(dú)訓(xùn)練一個(gè)MLP,建立物體級(jí)NeRF地圖。
具體如何實(shí)現(xiàn)?
vMAP的輸入包括RGB圖像、深度圖、位姿、實(shí)例分割結(jié)果。位姿由ORB-SLAM3計(jì)算,實(shí)例分割由Detic計(jì)算,再根據(jù)實(shí)例分割區(qū)域?qū)GB和深度圖進(jìn)行采樣,之后就可以使用NeRF進(jìn)行訓(xùn)練和渲染。注意還需要執(zhí)行一個(gè)幀間對(duì)象關(guān)聯(lián),包括語(yǔ)義一致性關(guān)聯(lián)(類別相同)和空間一致性關(guān)聯(lián)(位置相同),用來(lái)判斷是否是同一個(gè)物體。

效果如何?
實(shí)驗(yàn)設(shè)備是i7-11700K CPU和一塊Nvidia RTX 3090 GPU,定量對(duì)比實(shí)驗(yàn)驗(yàn)證了重建精度,*代表他們重新訓(xùn)練的模型。

定性重建效果,感興趣的讀者可以運(yùn)行一下代碼,可以分別觀察帶背景或者不帶背景的重建效果。

6. LiDAR NeRF SLAM
20、LiDAR-NeRF
標(biāo)題:LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields
作者:Tang Tao, Longfei Gao, Guangrun Wang, Yixing Lao, Peng Chen, Hengshuang Zhao, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu
機(jī)構(gòu):中山大學(xué)、阿里巴巴、牛津大學(xué)、香港大學(xué)、EPFL
來(lái)源:https://arxiv.org/abs/2304.10406
原文鏈接:https://arxiv.org/abs/2304.10406
代碼鏈接:https://github.com/tangtaogo/lidar-nerf
官方主頁(yè):https://tangtaogo.github.io/lidar-nerf-website/
這篇文章希望解決什么問(wèn)題?
希望能夠從任意的新視點(diǎn)渲染三維點(diǎn)云,但模擬器不夠真實(shí),傳統(tǒng)的NeRF不能直接應(yīng)用到雷達(dá)。
核心思想是什么?
提出第一個(gè)可微框架用于LiDAR新視圖合成;提出一種結(jié)構(gòu)正則化方法,以有效保持局部結(jié)構(gòu)細(xì)節(jié),從而引導(dǎo)模型更精確的幾何估計(jì);建立NeRF-MVL數(shù)據(jù)集,以評(píng)估以對(duì)象為中心的新LiDAR視圖合成。
具體如何實(shí)現(xiàn)?
首先將LiDAR點(diǎn)云轉(zhuǎn)換為Range圖像,在不同的視圖中會(huì)突出顯示一個(gè)對(duì)象以便于可視化。然后在每個(gè)偽像素上生成距離、強(qiáng)度和射線下降概率的三維表示。我們利用多視圖一致性的三維場(chǎng)景,以幫助我們的網(wǎng)絡(luò)產(chǎn)生準(zhǔn)確的幾何形狀。注意,LiDAR-NeRF還會(huì)學(xué)習(xí)LiDAR模型的物理性質(zhì),例如地面主要表現(xiàn)為連續(xù)的直線。

理論上,LiDAR-NeRF可以應(yīng)用到所有自動(dòng)駕駛LiDAR數(shù)據(jù)集。但目前大多數(shù)數(shù)據(jù)集都只有場(chǎng)景級(jí)的LiDAR觀測(cè),這篇文章對(duì)應(yīng)的提出了以對(duì)象為中心的數(shù)據(jù)NeRF-MVL用于新視圖合成。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
NeRF-MVL使用帶有多個(gè)LiDAR的自動(dòng)駕駛車輛來(lái)收集,車輛在一個(gè)正方形的路徑上繞著物體行駛兩次,一個(gè)大正方形,一個(gè)小正方形,還標(biāo)注了常見的9個(gè)目標(biāo)。

效果如何?
定量對(duì)比,分別是KITTI-360和他們的自建數(shù)據(jù)集NeRF-MVL,LiDAR-NeRF在所有指標(biāo)上都優(yōu)于baseline。

21、IR-MCL
標(biāo)題:IR-MCL: Implicit Representation-Based Online Global Localization
作者:Haofei Kuang, Xieyuanli Chen, Tiziano Guadagnino, Nicky Zimmerman, Jens Behley, Cyrill Stachniss
機(jī)構(gòu):波恩大學(xué)
來(lái)源:RAL 2023
原文鏈接:https://arxiv.org/abs/2210.03113
代碼鏈接:https://github.com/PRBonn/ir-mcl
這篇文章希望解決什么問(wèn)題?
傳統(tǒng)2D地圖表達(dá)不夠細(xì)膩,定位精度低。
核心思想是什么?
提出一種神經(jīng)占據(jù)場(chǎng),將NeRF擴(kuò)展到機(jī)器人定位任務(wù)中的2D地圖。
具體如何實(shí)現(xiàn)?
利用一組已知準(zhǔn)確姿態(tài)的2D激光掃描來(lái)訓(xùn)練,根據(jù)每個(gè)樣本的姿態(tài)和2D雷達(dá)內(nèi)參計(jì)算得到激光雷達(dá)每條射線的方向,接著在每條射線上均勻采樣N個(gè)空間點(diǎn)。之后,NeRF將采樣得到的每個(gè)空間點(diǎn)作為輸入,并輸出該空間點(diǎn)所對(duì)應(yīng)的占據(jù)概率。對(duì)每條射線利用光線投射算法根據(jù)采樣點(diǎn)深度及其占據(jù)概率渲染得到深度值。最終,估計(jì)出當(dāng)前機(jī)器人姿態(tài)下可能會(huì)觀測(cè)到的2D激光掃描,通過(guò)計(jì)算幾何損失以及對(duì)預(yù)測(cè)的占據(jù)概率添加正則化來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)。

基于該隱式地圖,計(jì)算渲染掃描和真實(shí)掃描之間的相似性,并將其集成到MCL系統(tǒng)中就可以進(jìn)行定位。

效果如何?
和其他方法定位效果的對(duì)比,可以看出IR-MCL的定位精度很高。

與現(xiàn)有MCL的對(duì)比,IR-MCL不光在定位精度上達(dá)到了SOTA,還能更快的收斂。

22、NeRF-LOAM
標(biāo)題:NeRF-LOAM: Neural Implicit Representation for Large-Scale Incremental LiDAR Odometry and Mapping
作者:Junyuan Deng, Xieyuanli Chen, Songpengcheng Xia, Zhen Sun, Guoqing Liu, Wenxian Yu, Ling Pei
機(jī)構(gòu):上海交通大學(xué)、國(guó)防科技大學(xué)
來(lái)源:ICCV 2023
原文鏈接:https://arxiv.org/abs/2303.10709
代碼鏈接:https://github.com/JunyuanDeng/NeRF-LOAM
應(yīng)該是真正意義上的第一個(gè)LiDAR NeRF SLAM。
這篇文章希望解決什么問(wèn)題?
現(xiàn)有LiDAR SLAM更關(guān)注定位精度而不是建圖質(zhì)量,NeRF側(cè)重室內(nèi)場(chǎng)景,對(duì)LiDAR這種室外增量大場(chǎng)景效果不好。
核心思想是什么?
1.基于Lidar數(shù)據(jù) 采用隱式神經(jīng)方式計(jì)算里程計(jì)和建圖
2.結(jié)合SFD模塊采用動(dòng)態(tài)生成和key-scans優(yōu)化策略
3.online聯(lián)合優(yōu)化 不需要預(yù)訓(xùn)練適應(yīng)不同環(huán)境
具體如何實(shí)現(xiàn)?
NeRF-LOAM主要基于他們提出的神經(jīng)符號(hào)距離函數(shù)(Neural SDF),該函數(shù)將激光雷達(dá)點(diǎn)分離為地面和非地面點(diǎn),以減少z軸漂移,同時(shí)優(yōu)化里程和體素嵌入,并最終生成環(huán)境的稠密光滑網(wǎng)格地圖。

NeRF-LOAM由神經(jīng)里程計(jì)、神經(jīng)建圖和網(wǎng)格重建三個(gè)模塊組成,前兩個(gè)部分作為前端和后端并行運(yùn)行 第三個(gè)部分單獨(dú)運(yùn)行以獲得全局網(wǎng)格地圖和細(xì)化的掃描位姿。最重要的是,這種聯(lián)合優(yōu)化使NeRF-LOAM不需要預(yù)訓(xùn)練,直接泛化到新場(chǎng)景,這個(gè)算是擺脫了NeRF對(duì)場(chǎng)景的依賴性。

效果如何?
建圖的定量對(duì)比,結(jié)合KissICP在MaiCity數(shù)據(jù)集上達(dá)到了最優(yōu)。

定位的定量對(duì)比,定位精度不是太好。

KITTI 07上的定性建圖效果,主要還是表達(dá)對(duì)室外大場(chǎng)景上的NeRF建圖效果。

23、LONER
標(biāo)題:LONER: LiDAR Only Neural Representations for Real-Time SLAM
作者:Seth Isaacson, Pou-Chun Kung, Mani Ramanagopal, Ram Vasudevan, Katherine A. Skinner
機(jī)構(gòu):密歇根大學(xué)
來(lái)源:RAL 2023
原文鏈接:https://arxiv.org/abs/2309.04937
代碼鏈接:https://github.com/umautobots/LONER
官方主頁(yè):https://umautobots.github.io/loner
這篇文章希望解決什么問(wèn)題?
LiDAR NeRF算法難以達(dá)到實(shí)時(shí)。
核心思想是什么?
雷達(dá)降采樣+關(guān)鍵幀訓(xùn)練NeRF+專有損失函數(shù)。
具體如何實(shí)現(xiàn)?
LONER是一個(gè)純LiDAR算法,也沒有使用IMU。雷達(dá)掃描首先降采樣(將為5 Hz),然后用ICP跟蹤,并從場(chǎng)景幾何中分割出天空。對(duì)于建圖線程,是使用當(dāng)前關(guān)鍵幀和隨機(jī)選擇的過(guò)去關(guān)鍵幀來(lái)更新,并維護(hù)一個(gè)滑窗來(lái)優(yōu)化。跟蹤和建圖兩個(gè)線程并行運(yùn)行,但是建圖線程的幀率較低,并準(zhǔn)備關(guān)鍵幀用來(lái)訓(xùn)練NeRF。最后使用作者專門設(shè)計(jì)的損失函數(shù)來(lái)更新位姿和MLP權(quán)重,生成的隱式地圖可以離線渲染為各種格式,比如深度圖和Mesh。
效果如何?
運(yùn)行設(shè)備是AMD Ryzen 5950X CPU和一塊NVidia A6000 GPU??纯碙ONER的建圖效果,右上角是Mesh地圖,紅色是軌跡,其他圖像是新視點(diǎn)合成的深度圖。LONER在訓(xùn)練NeRF以后,可以將NeRF地圖離線渲染為Mesh和深度圖。
首先是一個(gè)跟NICE-SLAM和Lego-LOAM的精度對(duì)比,LONER的精度明顯優(yōu)于LeGO-LOAM,這個(gè)還挺驚訝的,因?yàn)楸旧鞮ONER沒有為SLAM設(shè)計(jì)什么特殊的模塊。而NICE-SLAM的精度明顯比其他兩個(gè)低,還容易跟丟,這也很容易理解,因?yàn)镹ICE-SLAM本身就是為室內(nèi)場(chǎng)景設(shè)計(jì)的。這個(gè)實(shí)驗(yàn)也證明了LONER自身的損失函數(shù)是有效的。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。
然后是一個(gè)地圖重建性能的定量評(píng)估,包括準(zhǔn)確性(估計(jì)地圖中每個(gè)點(diǎn)到真值中每個(gè)點(diǎn)的平均距離)和完整性(真值地圖中每個(gè)點(diǎn)到估計(jì)地圖中每個(gè)點(diǎn)的平均距離)。LONER效果也很不錯(cuò)。
7. 總結(jié)
這次介紹NeRF SLAM相關(guān)工作就到這里了,這三篇文章總結(jié)了主流的NeRF SLAM方案,介紹分為了僅優(yōu)化NeRF、僅優(yōu)化位姿、位姿和NeRF聯(lián)合優(yōu)化、物體級(jí)NeRF SLAM、雷達(dá)NeRF SLAM這五類。如果有補(bǔ)充和覺得筆者有理解不當(dāng)?shù)牡胤?,歡迎大家一起討論。
3D視覺細(xì)分群成立啦!
目前工坊已經(jīng)建立了3D視覺方向多個(gè)社群,包括SLAM、工業(yè)3D視覺、自動(dòng)駕駛方向。
細(xì)分群包括:
[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;
[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;
[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。
[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。
[無(wú)人機(jī)方向]四旋翼建模、無(wú)人機(jī)飛控等。
除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。
大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群