最新開源!基于LiDAR的位置識別網(wǎng)絡(luò)OverlapTransformer,RAL/IROS 2022
原文鏈接:https://mp.weixin.qq.com/s/S9LD8myE2h4RCYqov3-kyg
大家好,今天為大家?guī)淼奈恼率?/span>
OverlapTransformer: An Efficient and Yaw-Angle-Invariant Transformer Network for LiDAR-Based Place Recognition
作者:Junyi Ma, Jun Zhang, Jintao Xu, Rui Ai, Weihao Gu, and Xieyuanli Chen
機(jī)構(gòu):北理工、毫末智行、波恩大學(xué)
來源:RAL/IROS 2022
論文地址:
https://ieeexplore.ieee.org/document/9785497
下載論文,公眾號后臺回復(fù):202207
代碼地址:
https://github.com/haomo-ai/OverlapTransformer
摘要
在本文中,提出了一種高效的激光雷達(dá)地點(diǎn)識別算法。OverlapTransformer采用yaw角旋轉(zhuǎn)不變的結(jié)構(gòu)提高自動駕駛車輛多角度地點(diǎn)識別的準(zhǔn)確率。借助激光點(diǎn)云球面投影生成的range image相對于原始點(diǎn)云的yaw角旋轉(zhuǎn)等變性,結(jié)合OverlapNetLeg對輸入進(jìn)行高度方向的壓縮,生成yaw角旋轉(zhuǎn)等變的特征圖。為了提高全局描述子對地點(diǎn)的描述能力,利用了不改變yaw角旋轉(zhuǎn)等變性的Transformer結(jié)構(gòu)對特征圖進(jìn)行特異性增強(qiáng)。為將yaw角旋轉(zhuǎn)等變性轉(zhuǎn)換為yaw角旋轉(zhuǎn)不變性,利用了具備對稱性的NetVLAD結(jié)構(gòu),最終輸出不受輸入點(diǎn)云繞Z軸旋轉(zhuǎn)影響的全局地點(diǎn)識別描述子。
主要工作與貢獻(xiàn)
本文的主要貢獻(xiàn)為提出了一個輕量的激光雷達(dá)地點(diǎn)識別網(wǎng)絡(luò)OverlapTransformer,它僅利用range image的深度信息來實(shí)現(xiàn)快速實(shí)時的地點(diǎn)識別?;赥ransformer的注意力機(jī)制和 NetVLAD的對稱性結(jié)構(gòu),OverlapTransformer 將range image壓縮為全局描述子。OverlapTransformer的整體結(jié)構(gòu)設(shè)計(jì),確保了生成的全局地點(diǎn)識別描述子具備yaw角旋轉(zhuǎn)不變性,這使得本方法對多角度地點(diǎn)識別具有較強(qiáng)的魯棒性。
算法流程

OverlapTransformer由Range Image編碼器,Transformer模塊,以及全局描述子生成器這三個模塊組合而成。如圖1所示,首先將三維激光點(diǎn)云通過球面投影轉(zhuǎn)換為二維range image,然后將range image輸入到Range Image編碼器中進(jìn)行空間維度的壓縮和通道維度的擴(kuò)張,進(jìn)而將編碼后的結(jié)果輸入到Transformer模塊中進(jìn)行特征圖的特異性增強(qiáng),然后將特異性增強(qiáng)后的結(jié)果與增強(qiáng)前的結(jié)果進(jìn)行通道維度上的拼接,最終輸入到基于NetVLAD結(jié)構(gòu)的全局描述子生成器中生成維度為1x256的地點(diǎn)描述子向量。
球面投影與yaw角旋轉(zhuǎn)等變性
一個三維激光點(diǎn)(x, y, z),通過如下公式就可以投影至一個二維的圖像像素(u, v),這就是球面投影。具體流程為先將所有三維點(diǎn)投影到以激光雷達(dá)為中心的虛擬球面上,然后將虛擬球面切開展平,進(jìn)而得到range image。range image上的每個像素點(diǎn)都代表激光點(diǎn)的距離信息。

range image本身具備yaw角旋轉(zhuǎn)等變性,即一幀激光點(diǎn)云相對于z軸的旋轉(zhuǎn)等價(jià)于本幀range image的平移。圖2展示了yaw角旋轉(zhuǎn)等變的簡單示例。

得益于三維點(diǎn)云繞z軸的旋轉(zhuǎn)等價(jià)于range image的平移,OverlapTransformer后續(xù)的結(jié)構(gòu)能夠輸出一系列yaw角旋轉(zhuǎn)等變的中間特征圖,進(jìn)而最終將yaw角旋轉(zhuǎn)等變性轉(zhuǎn)化為yaw角旋轉(zhuǎn)不變性,從而保證多角度地點(diǎn)識別的可行性。
range image編碼器
利用球面投影將三維點(diǎn)云轉(zhuǎn)換至range image后,將其輸入到range image編碼器的OverlapNetLeg。range image編碼器對原始OverlapNetLeg卷積結(jié)構(gòu)進(jìn)行修改,以保證后續(xù)特征圖的旋轉(zhuǎn)等變性。修改的地方在于,range image編碼器使用的卷積僅用來壓縮高度(height)方向,并不壓縮寬度(width)方向;此外,卷積并不使用padding和dropout。得益于對卷積結(jié)構(gòu)的特殊設(shè)計(jì),range image編碼器所輸出的特征圖仍然具有yaw角旋轉(zhuǎn)等變性。
Transformer模塊
range image編碼器的編碼結(jié)果被輸入到Transformer結(jié)構(gòu)中進(jìn)行特異性增強(qiáng)。range image編碼器將特征圖的高度壓縮至1,寬度方向維度不變,通道方向擴(kuò)張。將壓縮后的特征圖輸入到Transformer的注意力機(jī)制中。使用Transformer模塊的目的是為了兼顧全局感受野和局部感受野的信息,增強(qiáng)句子中單詞與單詞之間的聯(lián)系,這里使用它來增強(qiáng)被range image編碼器編碼后的特征之間的聯(lián)系。需要注意的是,Transformer模塊的輸出仍然具有yaw角旋轉(zhuǎn)等變性,具體證明可見OverlapTransformer論文。
全局描述子生成器
全局描述子生成器主要由NetVLAD和MLP組成。NetVLAD結(jié)構(gòu)具有對稱性,即NetVLAD的輸出與輸入次序無關(guān)。例如,向NetVLAD輸入多個向量,這些向量的輸入次序并不影響NetVLAD的輸出。如前文所說,經(jīng)過Transformer模塊特異性增強(qiáng)后的特征圖仍然具備yaw角旋轉(zhuǎn)等變性,因此原始輸入點(diǎn)云的旋轉(zhuǎn)僅會導(dǎo)致NetVLAD的輸入在特征圖的寬度方向上進(jìn)行平移,也就是僅產(chǎn)生了輸入次序的變化,于是NetVLAD的輸出是不受原始輸入點(diǎn)云旋轉(zhuǎn)的影響的,即它的輸出具備yaw角旋轉(zhuǎn)不變性。因此OverlapTransformer最終輸出的1-D地點(diǎn)描述子具備yaw角旋轉(zhuǎn)不變性,進(jìn)而大幅度提升多角度地點(diǎn)識別的成功率。圖3通過示例直觀驗(yàn)證了OverlapTransformer輸出全局描述子的yaw角旋轉(zhuǎn)不變性。

基于Overlap的訓(xùn)練
OverlapTransformer利用基于overlap劃分的數(shù)據(jù)集進(jìn)行訓(xùn)練。利用overlap作為label進(jìn)行訓(xùn)練的理念在OverlapNet論文中有所闡述。訓(xùn)練過程采用對比學(xué)習(xí)的思路,對于一幀query點(diǎn)云,同時向OverlapTransformer輸入本幀點(diǎn)云、以及它的kp個正樣本和kn個負(fù)樣本。正樣本就是訓(xùn)練集中與query點(diǎn)云的overlap大于0.3的點(diǎn)云,負(fù)樣本就是訓(xùn)練集中與query點(diǎn)云的overlap小于0.3的點(diǎn)云。對于這(1+kp+kn)幀點(diǎn)云,OverlapTransformer將輸出13個描述子,然后計(jì)算正樣本描述子與query描述子之間的距離,得到共kp個距離,然后計(jì)算負(fù)樣本描述子與query描述子之間的距離,得到kn個距離。最終的loss函數(shù)如下式所示。

使用overlap而不是點(diǎn)云之間的距離作為衡量正負(fù)樣本的基準(zhǔn),是因?yàn)閛verlap對于描述激光點(diǎn)云相似度來說是一個更為自然的方式;此外,點(diǎn)云間的overlap對應(yīng)了后續(xù)點(diǎn)云配準(zhǔn)的質(zhì)量,因此基于overlap對是否為同一地點(diǎn)進(jìn)行判斷更有益于后續(xù)算法的進(jìn)行。
實(shí)驗(yàn)結(jié)果






獨(dú)家重磅課程官網(wǎng):cvlife.net

全國最大的機(jī)器人SLAM開發(fā)者社區(qū)

技術(shù)交流群

—? ?版權(quán)聲明? —
本公眾號原創(chuàng)內(nèi)容版權(quán)屬計(jì)算機(jī)視覺life所有;從公開渠道收集、整理及授權(quán)轉(zhuǎn)載的非原創(chuàng)文字、圖片和音視頻資料,版權(quán)屬原作者。如果侵權(quán),請聯(lián)系我們,會及時刪除。