SDVO:LDSO+語(yǔ)義,直接法語(yǔ)義SLAM(RAL 2022)
論文閱讀:Semantic-Direct Visual Odometry
Motivation
雖然直接法SLAM在無(wú)紋理環(huán)境更加魯棒,但是由于灰度圖像的凸性特征導(dǎo)致光度誤差的凸性?xún)H在一個(gè)小區(qū)域內(nèi)保持的問(wèn)題,所以傳統(tǒng)的直接法視覺(jué)SLAM在當(dāng)跟蹤點(diǎn)有較大位移時(shí),可能陷入次優(yōu)局部極小解,具體問(wèn)題描述如下圖,左邊分別是對(duì)應(yīng)區(qū)域的灰度圖和語(yǔ)義概率圖,右圖相應(yīng)的三維可視化,灰度圖像保留了對(duì)象的細(xì)節(jié),而道路的概率主要在道路邊界上進(jìn)行生成,對(duì)于語(yǔ)義對(duì)象邊界上的點(diǎn),語(yǔ)義概率的凸性在比灰度圖像更大的區(qū)域中成立。另外,目前雖然也有可以跟蹤動(dòng)態(tài)物體的SLAM,但是他們絕大部分都是使用重投影誤差之類(lèi)的優(yōu)化項(xiàng),這些都是6個(gè)自由度。這其實(shí)與現(xiàn)實(shí)世界并不符合,比如說(shuō),大部分汽車(chē)只有3個(gè)自由度,2個(gè)自由度在平移(道路平面),1個(gè)自由度在旋轉(zhuǎn)(汽車(chē)自身法向量)。所以消除與物理意義不對(duì)應(yīng)的自由度也是有必要的。對(duì)應(yīng)這個(gè)問(wèn)題的解決辦法,作者是選擇將約束表示為機(jī)械關(guān)節(jié),因?yàn)闄C(jī)械關(guān)節(jié)的運(yùn)動(dòng)是有限制的,從而減少了自由度。
作者:晃晃悠悠的虛無(wú)周 | 來(lái)源:微信公眾號(hào)「3D視覺(jué)工坊」

Contribution
所提出的SDVO是第一個(gè)利用語(yǔ)義概率直接匹配的視覺(jué)單目SLAM系統(tǒng)。
通過(guò)將語(yǔ)義概率的直接對(duì)齊集成到LDSO中,提高了定位性能,優(yōu)于ORB-SLAM2。在KITTI里程數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
Content
語(yǔ)義概率與點(diǎn)選擇策略
對(duì)于每個(gè)輸入圖像I,通過(guò)HRNet生成密集的像素級(jí)語(yǔ)義分割,每個(gè)像素標(biāo)記為集合C中的一個(gè)語(yǔ)義類(lèi)。對(duì)于點(diǎn)p,p屬于語(yǔ)義類(lèi)C的概率可以計(jì)算為:

其中,是點(diǎn)p所對(duì)應(yīng)的語(yǔ)義通道c中l(wèi)ogits層的值。所有語(yǔ)義類(lèi)的概率之和初始正則化為1。HRNet的logits層有19個(gè)通道,對(duì)應(yīng)19個(gè)語(yǔ)義類(lèi)。然而,并非所有的語(yǔ)義通道在KITTI里程計(jì)數(shù)據(jù)集中都有豐富的信息和跟蹤提示。所以只采用KITTI里程數(shù)據(jù)集中經(jīng)常出現(xiàn)的9個(gè)語(yǔ)義通道,包括道路、人行道、建筑物、柵欄、桿子、植被、地形、天空和汽車(chē)。下圖顯示了KITTI語(yǔ)義分割基準(zhǔn)中4個(gè)代表性場(chǎng)景的9個(gè)選定通道的可視化。如下圖所示,語(yǔ)義對(duì)象的邊界被很好地捕捉,尤其是道路、植被、天空和汽車(chē)的邊界。

點(diǎn)選擇策略的主要目標(biāo)是選擇具有高語(yǔ)義梯度的點(diǎn)從而最大化語(yǔ)義概率直接匹配的強(qiáng)度,通常,語(yǔ)義對(duì)象邊界上的點(diǎn)在語(yǔ)義通道和灰度圖像中都具有高梯度,LDSO使用Shi-Tomasi得分來(lái)檢測(cè)灰度圖像中的角點(diǎn),本文所提出的方法基于這個(gè)思路,計(jì)算9個(gè)選定通道的Shi-Tomasi得分之和來(lái)檢測(cè)語(yǔ)義角點(diǎn),如下圖所示,所提出的SDVO主要選擇語(yǔ)義對(duì)象邊界附近的點(diǎn),而LDSO同時(shí)選擇對(duì)象內(nèi)部和邊界附近的點(diǎn)。

2.優(yōu)化殘差構(gòu)建優(yōu)化中主要用到兩個(gè)匹配誤差,一個(gè)是光度誤差:

類(lèi)似的,在參考幀中監(jiān)測(cè)到的語(yǔ)義通道c中的點(diǎn)p的語(yǔ)義匹配誤差可以定義為::

其中,是幀i的語(yǔ)義通道c的語(yǔ)義概率,是語(yǔ)義通道c的啟發(fā)式權(quán)重因子。光度誤差和語(yǔ)義對(duì)齊誤差之間的主要區(qū)別是輸入。光度誤差測(cè)量灰度圖像的直接匹配,而語(yǔ)義匹配誤差測(cè)量選定語(yǔ)義通道的語(yǔ)義概率的直接匹配誤差。最終的聯(lián)合優(yōu)化公式可以定義為這個(gè)形式:

Nc是所選語(yǔ)義通道的集合;λs是所有選定語(yǔ)義通道的語(yǔ)義對(duì)齊錯(cuò)誤的權(quán)重。3.滑窗優(yōu)化
采用LM算法進(jìn)行優(yōu)化,定義待優(yōu)化變量有:

xp包括攝影機(jī)內(nèi)部參數(shù)、仿射亮度參數(shù)和攝影機(jī)姿勢(shì),xd包括點(diǎn)的逆深度。通常來(lái)說(shuō),滑窗優(yōu)化定義如下:

J是殘差r的雅可比矩陣,W是加權(quán)矩陣,r包含了光度誤差和語(yǔ)義概率誤差,所以相應(yīng)的滑窗優(yōu)化公式可以改寫(xiě)為:

(注:論文作者并沒(méi)有提到相關(guān)的滑窗策略變動(dòng),這點(diǎn)還是挺重要的)
4.實(shí)驗(yàn)
評(píng)測(cè)數(shù)據(jù)集是KITTI。雖然KITTI是唯一一個(gè)為里程計(jì)和像素級(jí)語(yǔ)義分割提供數(shù)據(jù)的真實(shí)數(shù)據(jù)集,但是KITTI語(yǔ)義分割基準(zhǔn)只有200幅語(yǔ)義標(biāo)注的圖像,這不足以訓(xùn)練像HRNet這樣的復(fù)雜模型。為了獲得準(zhǔn)確的語(yǔ)義概率,首先基于Cityscapes數(shù)據(jù)集預(yù)訓(xùn)練模型,在KITTI語(yǔ)義分割基準(zhǔn)上對(duì)HRNet進(jìn)行微調(diào)。
A.超參分析
關(guān)于超參λs的調(diào)整,基于的數(shù)據(jù)集是KITTI序列10,然后關(guān)于不同指標(biāo)的ATE對(duì)比圖如下,可以認(rèn)為,最佳的λs取值為2.2。對(duì)于這個(gè)2.2取值的理由,作者認(rèn)為,因?yàn)檎Z(yǔ)義概率的直接匹配會(huì)帶來(lái)更好的凸性,所以在2.2之前,ATE是呈現(xiàn)一個(gè)下降的趨勢(shì),但是當(dāng)值大于2.2之后,然而,灰度圖像的直接匹配可能會(huì)逐漸陷入語(yǔ)義概率的直接匹配的局部最小解中,因此ATE就會(huì)增大。

除此以外,關(guān)于光度誤差和語(yǔ)義誤差的作用,作者認(rèn)為語(yǔ)義誤差有助于在大范圍場(chǎng)景提供一個(gè)相對(duì)精確的初值,但是很難進(jìn)一步優(yōu)化,但是光度誤差可以在語(yǔ)義誤差的基礎(chǔ)上提供一個(gè)精優(yōu)化的功能,對(duì)于這個(gè)猜想,作者通過(guò)如下的實(shí)驗(yàn)進(jìn)行證明,語(yǔ)義誤差可以在相對(duì)少的迭代次數(shù)里降低最多的誤差,光度誤差可以在此基礎(chǔ)上進(jìn)一步優(yōu)化。

B.不帶回環(huán)的對(duì)比
最后一列是與LDSO相比所提出方法的改進(jìn)。第二列和第四列顯示,ORB-SLAM2比LDSO更精確,而LDSO更穩(wěn)?。∣RB-SLAM2在序列01上失敗,因?yàn)楦咚俟穲?chǎng)景的紋理較少),所提出的方法的精度在所有場(chǎng)景中表現(xiàn)都比baseline LDSO好,并且序列00、02、04、06、08、09和10的改進(jìn)都在42%以上。該方法在序列01、04、06、09和10上的性能最好;VSO在序列00、02、05、07和08上的性能最好;ORB-SLAM2在序列03上實(shí)現(xiàn)了最佳性能,這主要是由于超參設(shè)置是根據(jù)序列10選擇的,所以可能并不適用于全部的場(chǎng)景。相應(yīng)的具體軌跡如下圖, 在序列00、06和09中,用該方法估計(jì)的軌跡比ORB-SLAM2更接近地面真值,而在序列02中,用ORB-SLAM2估計(jì)的軌跡更接近地面真值。在序列05和08中,所提出的方法與ORB-SLAM2之間的估計(jì)軌跡差異不明確。


在這個(gè)實(shí)驗(yàn)環(huán)節(jié),主要是證明了語(yǔ)義概率直接對(duì)齊的集成可以提高LDSO的跟蹤精度。與ORB-SLAM2相比,在取消閉環(huán)的情況下,與ORB-SLAM2相比,該方法在KITTI里程計(jì)數(shù)據(jù)集的大多數(shù)序列(序列02除外)中實(shí)現(xiàn)了更好或可比的性能,同時(shí)在無(wú)紋理環(huán)境中保持了魯棒性。
C.不帶回環(huán)的對(duì)比
對(duì)于序列09,LDSO的閉環(huán)根本不起作用,而ORB-SLAM2的閉環(huán)偶爾起作用。因此,表II中LDSO的跟蹤結(jié)果和序列09的擬定方法與表I相似。總的來(lái)說(shuō),與有回環(huán)位置的LDSO等序列相比,該方法的改進(jìn)程度小于沒(méi)有回環(huán)的序列。該方法在序列04、05、06、09和10上的性能最好。同時(shí),該方法在序列00、02、07和08上的性能接近最佳。下圖顯示了ORB-SLAM2、LDSO以及所提出的方法在具有回環(huán)位置的軌跡,因?yàn)殚]環(huán)與語(yǔ)義概率直接匹配之間的互補(bǔ)特性,語(yǔ)義概率直接匹配的改進(jìn)減少了誤差(比較表1和表2)。與ORB-SLAM2相比,在激活閉環(huán)的情況下,所提出的方法在KITTI里程計(jì)數(shù)據(jù)集的所有序列中實(shí)現(xiàn)了更好或可比的性能,同時(shí)在無(wú)紋理環(huán)境中保持了魯棒性。


Conclusion
這篇文章的貢獻(xiàn)在于將語(yǔ)義概率和光度誤差結(jié)合形成一個(gè)直接法語(yǔ)義slam,總的框架是基于LDSO的,融合后的效果的確是顯著提升了性能,達(dá)到了接近于orb2的效果。本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
3D視覺(jué)工坊精品課程官網(wǎng):https://www.3dcver.com
更多干貨
歡迎加入【3D視覺(jué)工坊】交流群,方向涉及3D視覺(jué)、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺(jué)、自動(dòng)駕駛、點(diǎn)云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長(zhǎng)~
添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。