論文解讀|MaskedFusion360:通過查詢相機(jī)特征重建LiDAR數(shù)據(jù)
原創(chuàng) | 文 BFT機(jī)器人

01
研究內(nèi)容
這篇論文的研究內(nèi)容是一種新穎的自監(jiān)督方法,用于在自動(dòng)駕駛應(yīng)用中融合LiDAR和相機(jī)數(shù)據(jù)。具體來說,該方法使用深度學(xué)習(xí)模型從融合的LiDAR和相機(jī)特征中重建掩蔽的LiDAR數(shù)據(jù)。
與使用鳥瞰圖表示的相關(guān)方法不同,該方法使用密集的球形LiDAR投影和具有類似視野的魚眼相機(jī)裁剪的特征進(jìn)行融合,從而減少了學(xué)習(xí)的空間變換,并且不需要額外的模塊來生成密集的LiDAR表示。

02
論文原理
該篇論文的原理是使用深度學(xué)習(xí)模型從融合的LiDAR和相機(jī)特征中重建掩蔽的LiDAR數(shù)據(jù)。詳細(xì)來說,就是該方法使用了一種自監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練,即使用MAE(Masked Autoencoder)和ViT(Vision Transformer)模型對融合的LiDAR和相機(jī)特征進(jìn)行重建。
其中,MAE模型用于對掩蔽的LiDAR數(shù)據(jù)進(jìn)行重建,ViT模型用于對融合的LiDAR和相機(jī)特征進(jìn)行重建。通過對這兩個(gè)模型的聯(lián)合訓(xùn)練,可以得到一個(gè)能夠從融合的LiDAR和相機(jī)特征中重建掩蔽的LiDAR數(shù)據(jù)的模型。
03
論文的創(chuàng)新點(diǎn)
1. 提出了一種新穎的自監(jiān)督方法,用于在自動(dòng)駕駛應(yīng)用中融合LiDAR和相機(jī)數(shù)據(jù)。
該方法使用深度學(xué)習(xí)模型從融合的LiDAR和相機(jī)特征中重建掩蔽的LiDAR數(shù)據(jù),從而提高自動(dòng)駕駛系統(tǒng)的感知能力。
2. 與使用鳥瞰圖表示的相關(guān)方法不同,該方法使用密集的球形LiDAR投影和具有類似視野的魚眼相機(jī)裁剪的特征進(jìn)行融合
從而減少了學(xué)習(xí)的空間變換,并且不需要額外的模塊來生成密集的LiDAR表示。
3. 該方法使用了自監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練
不需要手動(dòng)標(biāo)注數(shù)據(jù),從而降低了數(shù)據(jù)標(biāo)注的成本。
4. 該方法在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證
證明了其在自動(dòng)駕駛應(yīng)用中的有效性和優(yōu)越性。
04
如何提高自動(dòng)駕駛系統(tǒng)的感知能力?
相機(jī)數(shù)據(jù)可以提供豐富的語義信息,但在距離測量方面不如LiDAR準(zhǔn)確。而LiDAR數(shù)據(jù)可以提供準(zhǔn)確的3D距離信息,但在語義信息方面相對較少。
因此,融合兩種傳感器的數(shù)據(jù)可以彌補(bǔ)它們各自的不足,提高自動(dòng)駕駛系統(tǒng)的感知能力。
MaskedFusion360使用了一種新穎的自監(jiān)督方法,通過訓(xùn)練深度學(xué)習(xí)模型從融合的LiDAR和相機(jī)特征中重建掩蔽的LiDAR數(shù)據(jù),從而實(shí)現(xiàn)了LiDAR和相機(jī)數(shù)據(jù)的融合。
與使用鳥瞰圖表示的相關(guān)方法不同,MaskedFusion360使用密集的球形LiDAR投影和具有類似視野的魚眼相機(jī)裁剪的特征進(jìn)行融合,從而減少了學(xué)習(xí)的空間變換,并且不需要額外的模塊來生成密集的LiDAR表示。
這種融合方式可以提高自動(dòng)駕駛系統(tǒng)對環(huán)境的感知能力,同時(shí)彌補(bǔ)相機(jī)和LiDAR各自的不足,從而提高自動(dòng)駕駛系統(tǒng)的性能表現(xiàn)。
05
MaskedFusion360與使用鳥瞰圖表示的相關(guān)方法有何不同?
MaskedFusion360使用密集的球形LiDAR投影和具有類似視野的魚眼相機(jī)裁剪的特征進(jìn)行融合,從而減少了學(xué)習(xí)的空間變換,并且不需要額外的模塊來生成密集的LiDAR表示。而使用鳥瞰圖表示的方法則需要將LiDAR數(shù)據(jù)轉(zhuǎn)換為鳥瞰圖表示,這可能需要額外的模塊和計(jì)算資源。
06
實(shí)驗(yàn)
該篇論文在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,包括KITTI、nuScenes和Waymo Open數(shù)據(jù)集。實(shí)驗(yàn)過程中,作者將MaskedFusion360與多種現(xiàn)有的方法進(jìn)行了比較,包括使用鳥瞰圖表示的方法和其他基于深度學(xué)習(xí)的方法。

實(shí)驗(yàn)結(jié)果表明,MaskedFusion360在多個(gè)數(shù)據(jù)集上都取得了優(yōu)于其他方法的性能表現(xiàn),證明了其在自動(dòng)駕駛應(yīng)用中的有效性和優(yōu)越性。

在KITTI數(shù)據(jù)集上,MaskedFusion360在3D目標(biāo)檢測任務(wù)中的平均精度(AP)指標(biāo)比其他方法高出了2.5%~3.5%。
在nuScenes數(shù)據(jù)集上,MaskedFusion360在3D目標(biāo)檢測和語義分割任務(wù)中的AP指標(biāo)比其他方法高出了1.5%~3.5%。
在Waymo Open數(shù)據(jù)集上,MaskedFusion360在3D目標(biāo)檢測任務(wù)中的AP指標(biāo)比其他方法高出了1.5%~2.5%。

這些實(shí)驗(yàn)結(jié)果都表明,MaskedFusion360在自動(dòng)駕駛應(yīng)用中具有很高的實(shí)用價(jià)值和應(yīng)用前景。
論文網(wǎng)址:https://arxiv.org/abs/2306.07087
更多精彩內(nèi)容請關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時(shí)回應(yīng)。