ICCV 2023,第一種稀疏的僅視覺的交叉視圖定位方法!
提出了一種用于室外機器人的細粒度自定位方法,通過利用靈活數(shù)量的機載相機和易于訪問的衛(wèi)星圖像,解決了現(xiàn)有交叉視圖定位方法的局限性,以往方法通常難以處理諸如移動物體和季節(jié)變化之類的噪聲源。
這是第一種稀疏的僅視覺的方法,通過從地面和衛(wèi)星視圖中檢測視圖一致的關(guān)鍵點及其相應(yīng)的深度特征,同時去除地面物體并在兩個視圖之間建立單應(yīng)性變換,來增強動態(tài)環(huán)境中的感知。此外他還結(jié)合了一種空間嵌入方法,利用相機的內(nèi)參和外參信息來減少純視覺匹配的模糊性,從而提高了特征匹配和整體姿態(tài)估計精度。
作者:一杯紅茶 ?| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復「原論文」即可獲取論文pdf和代碼。
添加微信:dddvisiona,備注:3D點云,拉你入群。文末附行業(yè)細分群。
在 KITTI 和 Ford Multi-AV 數(shù)據(jù)集上進行的大量實驗表明提出的方法優(yōu)于現(xiàn)有的最先進的方法,在橫向和縱向方向上實現(xiàn)了0.5米以下的中值精度誤差,并且中值方位精度誤差低于2°。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》。
1.第一種稀疏的僅視覺交叉視圖定位方法,該方法以低的空間和角度誤差估計精確的姿態(tài)。
2.一個視圖一致的地面關(guān)鍵點檢測器,可以減少動態(tài)對象和視點變化的影響,并去除離地對象。
3.充分利用相機內(nèi)參和外參信息來改進空間感知視覺特征提取的空間嵌入。
4.顯著提高定位精度的多相機融合方法。
準確的自定位是移動機器人的一個基本問題,目前全球定位系統(tǒng)(GPS)是一種廣泛采用的解決方案,但其精度很難滿足自動駕駛方面的要求;實時動態(tài)(RTK)定位系統(tǒng)通過校正GPS誤差提供了一種替代方案,但其實施受到信號參考站需求的阻礙;其他依賴于預先構(gòu)建的高清(HD)地圖的自定位技術(shù)在地圖獲取和維護方面需要大量時間和資源。
為此,作者認為使用衛(wèi)星圖像作為地圖來實現(xiàn)跨視圖定位為低成本定位帶來了一種替代且有前景的方法。但是由于衛(wèi)星捕獲的俯視圖和機器人看到的視圖之間存在顯著差異,跨視圖定位比傳統(tǒng)方法更具挑戰(zhàn)性。需要找到支持定位的跨視圖之間的一致性特征,此外衛(wèi)星視圖一般是在不同的時間拍攝,從而導致季節(jié)和時間條件的變化,需要最大限度減少移動和季節(jié)性物體的影響。
為此,作者提出了他們的細粒度視覺定位方法,通過利用稀疏(關(guān)鍵點)特征匹配,結(jié)合了相機內(nèi)參和外參感知的空間嵌入。為了保證變換的有效性和消除地面上的物體,采用了一個置信圖。使用視圖一致性置信圖來減輕移動對象和視點變化的影響。定位過程始于提取空間感知的深層特征,并為兩個視圖生成視圖一致的地面置信度圖。然后從地面視圖置信圖中檢測視圖一致性關(guān)鍵點,并將其與衛(wèi)星視圖中的對應(yīng)點進行匹配。最佳姿態(tài)是通過迭代來確定的。
算法旨在通過估計3自由度的姿態(tài)來實現(xiàn)細粒度的交叉視圖定位,即,其中, and 分別表示橫向和縱向平移,θ是偏航角。
輸入為一個粗略的初始姿態(tài),,一個參考衛(wèi)星視圖圖像Is,和一組由機載相機捕獲的地面視圖圖像,其中N是機載相機總數(shù)。
算法有三個模塊:
1)空間感知特征和置信度提取器(SAFE)
2)視圖一致性地面關(guān)鍵點檢測器
3)多相機融合
空間感知特征/置信度提取器
通過利用相機的內(nèi)參和外參數(shù)來獲得高度準確的空間信息,空間嵌入有3個通道:航向、距離和高度信息。為了在地面和衛(wèi)星圖像之間融合額外的空間嵌入信息,將機載相機和衛(wèi)星圖像中的像素坐標轉(zhuǎn)換到世界坐標(例如機器人的GPS坐標),即:
其中表示相機j的內(nèi)參矩陣,j可以是機載相機或者是衛(wèi)星相機,,表示齊次坐標。
使用余弦嵌入航向信息,余弦對正方向噪聲和負方向噪聲都是對稱的,使得三角函數(shù)在使用x軸和y軸計算的360度視圖之間進行區(qū)分,如下所示:
地面圖像的歸一化距離嵌入是通過假設(shè)所有像素都位于地平面上來獲得的:
在衛(wèi)星圖像的情況下,將高度嵌入設(shè)置為最小值,以指示自上而下的視角。下圖表明,當僅使用前置車載攝像頭時,算法通過利用空間嵌入,有效地將更多注意力集中在機器人前方的特征上:
SAFE采用U-Net結(jié)構(gòu)來提取衛(wèi)星和地面視圖特征圖,表示為。然后通過卷積層和反sigmoid激活函數(shù)(Cψ)對這些圖進行處理,以產(chǎn)生視圖一致置信圖(Vj)和地面置信圖(Oj),表示為。每個圖都有多個分辨率,使用共享權(quán)重模型并行執(zhí)行每個圖像的特征和置信度提取,從而允許靈活數(shù)量的機載相機(N)。
視圖一致置信度圖V表示出現(xiàn)在衛(wèi)星和地面視圖圖像中的物體的置信度。V被用作PAB和RPRB監(jiān)督的點權(quán)重的乘數(shù),并通過網(wǎng)絡(luò)訓練對具有高殘差的點進行懲罰(指示交叉視圖之間的不同特征)??紤]到兩個視圖之間的時間間隔,V有效地過濾掉了時間或者季節(jié)上不一致的對象,例如車輛、行人等。
地面置信圖O被設(shè)計用于驗證地面視圖和衛(wèi)星視圖之間的單應(yīng)性變換。作為點權(quán)重的倍增因子,導致地面和衛(wèi)星視圖之間不正確的地球相對應(yīng)性(導致高殘差)的離地點的地面置信度受到懲罰,以減少總體損失。
查看一致的地面關(guān)鍵點探測器
其中hL和wL表示精細級別置信圖的分辨率,ξ是插值函數(shù),N是最小-最大歸一化,?表示逐元素乘法。
為了實現(xiàn)地面關(guān)鍵點檢測,限制在焦點以下的區(qū)域,這與地面區(qū)域相對應(yīng)。從這個區(qū)域中根據(jù)融合的置信度圖中選擇置信度得分最高的前K個點。為了避免關(guān)鍵點過度擁擠,將融合的置信圖劃分為大小為8×8的較小patch,并強制限制每個patch檢測一個關(guān)鍵點。這種方法確保了選定的關(guān)鍵點在地面區(qū)域內(nèi)良好分布,從而提高了后續(xù)姿態(tài)估計的準確性。下圖的左側(cè)顯示了檢測到的與地面2D關(guān)鍵點一致的視圖。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進》。
多相機融合
方法處理多個相機作為輸入,對視野沒有任何限制。在相鄰相機捕捉的視圖之間存在潛在重疊的情況下,在一個相機中檢測到的關(guān)鍵點在另一個相機也可能可見。在這種情況下,選擇具有最高權(quán)重的點特征:
為了評估所提出方法的有效性,在兩個廣泛使用的自動駕駛數(shù)據(jù)集上進行了實驗:FMAVS數(shù)據(jù)集和KITTI數(shù)據(jù)集。
在FMAVS數(shù)據(jù)集中,使用來自四個相機(左前、右后、左側(cè)和右側(cè))的查詢圖像來捕捉周圍環(huán)境,提供了幾乎360度的視野,重疊最小。
由于KITTI數(shù)據(jù)集僅提供正面立體相機圖像,因此使用來自立體對的左側(cè)相機的圖像作為查詢圖像。
其方法在跨季節(jié)泛化方面的性能如上表所示。都顯著優(yōu)于現(xiàn)有的SOTA方法。具體而言,就可見和不可見路線而言,分別實現(xiàn)了52%和43%的平均定位橫向誤差、62%和52%的平均定位縱向誤差以及67%和17%的平均定向誤差的降低。證明了提出的方法的強大性能和魯棒泛化能力。
本文介紹了一種新的跨視圖定位方法,用于精確的3-DoF姿態(tài)估計,支持靈活的多相機輸入。
方法利用視圖一致的地面關(guān)鍵點檢測器來處理動態(tài)對象和視點變化,同時去除離地對象以建立單應(yīng)性變換器假設(shè)。此外結(jié)合了空間嵌入,最大限度地利用相機的內(nèi)參和外參數(shù)信息以減少視覺匹配的模糊性。
是第一種稀疏的純視覺方法,也是第一種能夠?qū)崿F(xiàn)小于一米的平均平移誤差的純視覺交叉視圖方法。