最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

綜述 | 基于特征的視覺同步定位和建圖

2022-04-22 20:57 作者:3D視覺工坊  | 我要投稿

Feature?based visual simultaneous localization and mApping: a survey

Rana Azzam1 · Tarek Taha2 · Shoudong Huang3 · Yahya Zweiri4

接收日期:2019 年 10 月 30 日/接受時間:2020 年 1 月 8 日/在線發(fā)布時間:2020 年 1 月 16 日 ? Springer Nature Switzerland AG 2020

作者:幸運的石頭 文章來源:微信公眾號「3D視覺工坊」

摘要視覺同步定位和建圖(SLAM)在過去幾年中引起了高度關注。在本文中,呈現(xiàn)了關于最先進的基于特征的視覺 SLAM 方法的綜述。綜述中根據(jù)在環(huán)境中觀察到的視覺特征進行分類。視覺特征可以分為不同的層次:點和邊這樣的低級特征,平面和斑點這樣的中級特征,以及語義標記的對象這樣的高級特征。本研究得出的關于視覺 SLAM 方法的最關鍵研究空白之一是缺乏普遍性。雖然一些方法在準確性和效率方面表現(xiàn)得非常成熟。然而,它們是為非常特定的環(huán)境量身定制的,例如特征豐富的靜態(tài)環(huán)境。在不同環(huán)境中運行時,此類方法的性能會嚴重下降。此外,由于軟件和硬件的限制,保證視覺 SLAM 方法的魯棒性極具挑戰(zhàn)性。盡管語義在視覺 SLAM 中被大量使用,但通過結合特征之間的關系來理解場景尚未完全探索。整篇論文都對此類研究進行了詳細討論。

關鍵詞機器人·SLAM·定位·傳感器·因子圖·語義

1 引言經(jīng)過幾十年的詳盡研究和深入調(diào)查,同步定位和建圖 (SLAM) 持續(xù)在機器人社區(qū)進行的研究中占據(jù)主導地位。SLAM 是一個問題,即估計機器人車輛在以前未探索的環(huán)境中導航的位置,同時逐步構建它的地圖。SLAM估計是基于通過安裝在車輛上的傳感器收集的測量值完成的,這些傳感器包括:視覺、距離、光、位置和慣性傳感器等等。SLAM 系統(tǒng)以多種不同的方法使用這些測量值來定位機器人并繪制其周圍環(huán)境。然而,任何 SLAM 系統(tǒng)的搭建都包括一組通用組件,例如:地圖/軌跡初始化;數(shù)據(jù)關聯(lián);和閉環(huán)。然后可以使用不同的估計技術來估計機器人的軌跡并生成環(huán)境地圖。

每個 SLAM 方法的實現(xiàn)其細節(jié)都依賴于所使用的傳感器,也因此依賴于從環(huán)境中收集的數(shù)據(jù)。在本文中,我們徹底回顧了最新的視覺 SLAM 系統(tǒng),重點關注基于特征的方法,使用傳統(tǒng)的視覺傳感器(如單目、深度或立體相機)來觀察環(huán)境。從現(xiàn)在起,如果視覺 SLAM 系統(tǒng)分別使用單目相機、RGB-D 相機或立體(雙目或多目)相機,則它們被稱為單目 SLAM、RGB-D SLAM 或立體 SLAM。

非常規(guī)的基于事件的視覺傳感器,例如基于異步時間的圖像傳感器 (ATIS) [98] 和動態(tài)的有源像素視覺傳感器 (DAVIS) [11],在 [64, 131, 132] 中被提出,也可用于解決 SLAM 問題。它的操作原理是受生物學啟發(fā)的,它不是以設定的速率捕獲幀,而是異步捕獲事件,這些事件是獨立像素亮度的時間戳變化。由于其從環(huán)境中獲取信息的獨特方式,需要進行范式轉(zhuǎn)換來構建適應此類信息的算法?;谑录?SLAM 超出了本文的范圍,感興趣的讀者可以參考 [41] 中的綜合調(diào)查。

一些 SLAM 系統(tǒng)僅依賴于視覺測量,而另一些則通過不同的觀察來增強它們,例如距離或慣性測量。多種類型的觀察結果的融合可能會增加算法的復雜性,需要更多的計算資源,并增加平臺的成本。但是,它使系統(tǒng)更可靠,對異常值更魯棒,并且對故障具有彈性。要選擇適合已開發(fā)的視覺 SLAM 系統(tǒng)的視覺傳感器,應考慮以下幾點。根據(jù)單個單目框架的觀察是不可能辨別環(huán)境的尺度的。為了彌補這一點,單目 SLAM 系統(tǒng)采用不同的方法來推斷深度,例如使用一組一個或多個其他傳感器來獲得可以推斷深度的測量值、使用神經(jīng)網(wǎng)絡假設觀察到的特征的深度,或者通過利用有關環(huán)境的先驗信息,例如觀察到的特征的大小。RGB-D 相機可以提供有關單幀深度的信息,但它們對光非常敏感,這可能會限制它們的應用場景或它們可以成功運行的環(huán)境。立體相機克服了單目和 RGB-D 相機的局限性,但它們更昂貴且更耗費計算資源。視覺傳感器的選擇還取決于要使用的機器人平臺。例如,地面車輛對車載傳感器的重量沒有任何限制,這使得所有選項都可以選擇。

然而,如果要使用飛行器,單目相機似乎是最方便的選擇,因為它可以無縫地安裝在機上,因為它重量輕、體積小、功率要求低。然而,所采用的算法必須處理獲得的視覺觀察的尺度不確定性。視覺測量可以在不同的細節(jié)層次上進行處理。直接法 SLAM 系統(tǒng),例如:[34, 85, 86],處理圖像中所有像素或像素子集的強度。然后,基于亮度一致性約束[139],在多個觀測值之間建立對應關系。另一方面,基于特征的 SLAM 以具有獨特屬性的特征為目標,并且可以通過所采用的檢測算法重復檢測。這種系統(tǒng)的例子包括 [65, 91, 97]。特征可以分為不同的等級;點、角和線等低級特征,斑點和平面等中級特征,以及語義標記的對象等高級特征,如圖 1 所示。視覺 SLAM 系統(tǒng)可能采用單個 [23 , 45, 88] 或不同特征級別的混合 [10, 54, 138]。在我們的綜述中,我們根據(jù)用于執(zhí)行定位和建圖的特征對最先進的基于特征的視覺 SLAM 解決方案進行分類。在每個類別中,都對所采用的 SLAM 的實現(xiàn)進行了徹底的討論和比較。強調(diào)每個類別的優(yōu)缺點,最后強調(diào)開放的研究問題。

1.1 SLAM 的現(xiàn)有調(diào)查

提出的 SLAM 方法由該領域的幾位研究人員進行了調(diào)查,并強調(diào)了迄今為止的開放研究問題。

編輯切換為居中

圖 1 從同一視覺框架中提取的不同視覺特征。左:低級特征(SURF [6]),中:中級特征(平面),右:高級特征(語義標記的對象)

在 [14] 中,作者認為 SLAM 正在進入魯棒感知時代并在可擴展性、魯棒性和表示等幾個性能指標方面徹底討論了最先進解決方案的主要特征。此外,論文還討論了硬件和算法層面的最新進展,并指出了尚待解決的研究問題。[139] 對基于關鍵幀的 SLAM 方法進行了全面回顧,其中介紹了基于關鍵幀的單目 SLAM 的一般架構和相應的實現(xiàn)方法。在 [109] 中進行的調(diào)查針對 SLAM 方法,這些方法忽略了所研究的環(huán)境是靜態(tài)的假設,并解決了重建動態(tài)環(huán)境所采用的基礎技術。同樣,[96] 中提出的調(diào)查研究了可以在動態(tài)環(huán)境中運行的 SLAM 方法,以及那些使用可以通過視覺傳感器獲得的異構數(shù)據(jù)的方法,例如:顏色、深度和語義信息。依賴于觀察場景中原始特征的視覺 SLAM 方法在 [44] 中進行了調(diào)查,并根據(jù)用于這些特征的描述符進行分類,強調(diào)了它們的優(yōu)缺點。[141] 中提供了對視覺里程計和視覺 SLAM 的結構的概述,以及基礎公式和設備選擇。類似地,在 [40] 中,基于 SLAM 主要構建的實現(xiàn)分析了視覺 SLAM 的解決方案,并分析了它們在動態(tài)環(huán)境中的失敗。[120] 中回顧的 SLAM 方法分為基于特征的方法、直接方法和基于 RGB-D 的方法。對 2016 年最先進的解決方案進行了比較,隨后是與上述類別相關的一組開放研究問題。最后,可以在 [115] 中找到最近關于 SLAM 的一項調(diào)查,重點是語義。在本文中,我們對最新最先進的基于特征的視覺 SLAM 系統(tǒng)進行了全面調(diào)查,我們根據(jù)元素(即特征)對回顧過的方法進行分類,它們從視覺框架中提取以定位機器人和重建環(huán)境。這些特征屬于以下類別之一:低級、中級或高級特征。因此,所回顧的方法分類如圖 2 所示。

編輯切換為居中

圖 2 基于特征的視覺 SLAM 方法分類

我們的綜述為有興趣研究基于特征的視覺 SLAM 的各種實施選項和進展的研究人員提供了全面的參考。屬于同一特征級別類別的方法會根據(jù)它們完成的其他目標進一步分組,例如實時性能、處理場景動態(tài)以及對數(shù)據(jù)關聯(lián)失敗的恢復能力。列出并分析了使這些目標成為可能的技術。這將幫助讀者準確地確定這些方法中的每一種是什么,以及他們需要采用和/或改進哪些實施方法來開發(fā)一個可以實現(xiàn)一組特定目標的系統(tǒng)。本文的其余部分安排如下,通用 SLAM 系統(tǒng)的結構在第 3 節(jié)中介紹。圖 2 中詳細討論了 SLAM 構建塊以及不同的實現(xiàn)選項。第 3 節(jié)提供了對基于特征的視覺 SLAM 系統(tǒng)及其設計選擇的回顧和分析。第4節(jié)我們強調(diào)了我們的綜述結果并確定需要進一步調(diào)查的未解決問題。

2 SLAM 構建塊

在深入研究當前最先進解決方案的實現(xiàn)細節(jié)之前,簡要討論視覺 SLAM 的常見組件,包括(1)地圖/軌跡初始化,(2)數(shù)據(jù)關聯(lián),( 3) 閉環(huán),(4) 重定位,和 (5) 估計算法,如圖 3 所示。首先提供每個組件的目的,然后是最流行的實現(xiàn)方法(如果適用)。

編輯切換為居中

圖 3 SLAM 流水線

2.1 地圖/軌跡初始化

在新環(huán)境中開始機器人任務時,其先驗地圖不可用,因此有必要估計周圍環(huán)境的 3D 結構以及機器人相對于它的位置.這是對地圖的初步評估,將根據(jù)在整個任務中收集的傳感器測量結果進行迭代更新。此過程僅需要在啟動時引導系統(tǒng)。當使用不同的傳感器時,有幾種方法可以進行初始化。例如,一個深度幀或一個立體對足以初始化地圖,如 [97, 118] 中所述,因為它們提供了單目幀所缺乏的深度和比例信息。另一方面,可以在單目相機運行時手動進行初始化,例如[32],其中系統(tǒng)提供了有關觀察到的場景的先驗信息,包括四個特征的位置和外觀,解決了尺度不確定性問題。地圖初始化常用的其他算法示例是迭代最近點 (ICP) [8, 20]、圖像對齊 [80, 112]、五點算法 [114] 以及模型擬合算法,例如隨機樣本抽取 (RANSAC) [38] 或 MLESAC [ 123],以及相對于相機的逆深度參數(shù)化,用于參數(shù)化觀察到的特征[25]。運動學模型,例如 [22] 和慣性測量的積分,如 [29] 中所述,可用于初始化軌跡。2.2 數(shù)據(jù)關聯(lián)

在環(huán)境中進行運動時,機器人可能會多次感知同一區(qū)域。建立每次觀察相同場景時收集的圖像幀之間的對應關系,對于估計地圖和機器人的軌跡至關重要,被稱為數(shù)據(jù)關聯(lián)。

基于特征的方法以特征為目標,這些特征是圖像中表現(xiàn)出獨特屬性的區(qū)域。特征可以有不同的尺度:低級特征,如幾何基元;中級特征,如超像素;或高級特征,如語義標記的對象。特征最關鍵的特征是可重復性,這使得特征在出現(xiàn)在從不同視點拍攝的多個幀中時可重復檢測。

為了檢測圖像中的特征,文獻中針對不同的特征類型提出了幾種檢測器。對于低級特征,例如點、線、邊和角,表 1 顯示了特征檢測器和描述符的一些示例。檢測到特征后,將其與其周圍像素一起從圖像中提取,然后分配一個定量度量,稱為描述符,以方便與其他特征匹配。表 1 特征檢測器和描述符

編輯切換為居中

為了檢測圖像中的平面,使用了模型擬合算法,例如 RANSAC。還可以結合建模和卷積神經(jīng)網(wǎng)絡 (CNN) 來識別圖像中的平面,例如墻壁 [136]。對于高級特征,提出了幾種用于檢測對象并在圖像中對它們進行語義標記的技術,包括但不限于條件隨機場 (CRF) [51]、支持向量機 (SVM) [30] 和深度神經(jīng)網(wǎng)絡(例如:single shot multi-box detector(SSD)[74],you only look once ?(YOLO) [104])??梢栽趦煞鶊D像中的特征之間(2D-2D 匹配)、3D 地圖中的一個點與其在圖像幀上的投影之間(3D-2D 匹配)或兩幅圖像之間建立低級特征之間的對應關系。重建地圖中的 3D 點(3D-3D 匹配)[140],如圖 4a 所示。

編輯

圖 4 數(shù)據(jù)關聯(lián)和閉環(huán)示例

將當前圖像中的特征與另一圖像中的特征(2D-2D)匹配是通過在第二張圖像中的窗口內(nèi)搜索來執(zhí)行的,該窗口包含當前圖像中特征的位置。如果兩個圖像之間的轉(zhuǎn)換是已知的,則搜索將減少到一維,因此可以建立對極幾何[50]。特征描述符之間的相似性可以根據(jù)它們的類型使用不同的量來衡量,例如距離平方和、L1/L2 范數(shù)或漢明距離等等。由于它們的高計算要求,這些措施可能會阻礙系統(tǒng)的性能,并且可以被類似于 [89] 的 kd-tree 搜索或諸如 [42] 的二元詞袋方法所取代。

當需要在給定環(huán)境的 3D 結構的情況下估計相機的位姿時,3D-2D 匹配是必要的。將假設姿勢周圍的 3D 點投影到當前圖像幀上。然后使用前面提到的技術將二維投影與圖像中的 2D 特征進行匹配。在重新訪問一個位置時,即關閉一個循環(huán),相應的 3D 地標被匹配 (3D-3D),從而產(chǎn)生一個校正的、無漂移的路徑。通過比較平面參數(shù)(例如法線(例如:[54])、重疊以及在當前幀中檢測到的平面與地圖中可用的那些(例如[138])。如果距離低于特定閾值,則建立對應關系。否則,會在地圖中添加一個新平面。

為了建立語義標記的地標之間的對應關系,預測標簽用于將檢測與地圖中的地標相關聯(lián)。如果環(huán)境中出現(xiàn)同一對象類別的多個實例,則必須超過它們之間的最小距離閾值才能考慮在地圖中插入新的地標[10]。否則,檢測與其最近的地標相關聯(lián)。在最近提出的 SLAM 解決方案 [95] 中,對象在類別級別被檢測和表征,而不僅僅是實例級別。這是基于這樣一個事實,即一個類中的所有對象都具有共同的 3D 點,而與它們的不同類別無關。下一節(jié)將更詳細地討論數(shù)據(jù)關聯(lián)的其他方法。

2.3 閉環(huán)

隨著機器人完成其任務,來自多個來源的誤差累積導致估計偏離真實軌跡(一個例子如圖4b所示)。這種漂移可能會嚴重影響環(huán)境的重建,從而導致正在進行的機器人任務失敗。為了糾正這種漂移,文獻中提出了幾種技術來檢測回環(huán)閉合,即檢測當前觀察到的場景是否被機器人更早地評估,從而實現(xiàn)全局一致性。全局一致性是 SLAM 估計近似匹配地面實況并且重建地圖符合觀察區(qū)域的真實拓撲結構的條件。然而,局部一致性是指觀察結果在局部匹配但可能不是全局匹配的情況[84]。閉環(huán)通常涉及兩個主要步驟:視覺位置識別和幾何驗證。前者可以使用 kd-tree 搜索 [75]、詞袋方法 [63]、貝葉斯過濾 [2]、深度學習 [43, 135] 和視覺特征匹配 [53, 79] 來完成,而后者可以通過圖像對齊和 RANSAC [38] 來實現(xiàn)。

2.4 重定位

重定位是 SLAM 系統(tǒng)從機器人運動到任意位置的致命定位失敗中恢復的能力。這種失敗可能是由于多種原因造成的,例如突然運動、運動模糊或缺少特征 [139]。此外,機器人車輛可能會通過不受機器人控制的操作重新定位,在這種情況下,機器人的全局位置將被確定 [12]。這些情況被稱為綁架機器人問題 [35],可以使用多種技術解決,包括但不限于匹配特征描述符 [71]、重新觀察語義標記對象 [48、106]、極線幾何[82],或二元詞袋方法 [91, 105],

2.5 估計算法

估計算法需要解決 SLAM 約束,可以分為批量處理和增量算法。批量處理算法,例如全局束調(diào)整 (GBA) [125] 和全圖 SLAM [122],處理機器人收集的大量測量值,需要相對較長的時間,來重建環(huán)境的地圖以及機器人的軌跡。另一方面,增量算法在新測量值到達時計算地圖和軌跡的估計值。一些增量算法,如 [61] 對整個機器人任務收集的整個測量值集進行操作,而其他算法,如 [60] 對在一小段時間內(nèi)收集的這些測量值的子集進行操作,這有助于在線操作方式。雖然批量處理算法成功地實現(xiàn)了全局一致性,但它們的計算成本很高,因此可能會阻礙實時操作。此外,由于內(nèi)存資源有限,它們可能不適用于大規(guī)模環(huán)境或連續(xù)操作系統(tǒng),這強調(diào)了不受此類限制的增量算法的重要性。當運用增量算法進行估計時,由于增量算法不考慮所有的測量值,故而使用所有舊的數(shù)據(jù)進行關聯(lián)決策是不可能的,與其他算法相比,這可能會增加累積誤差。在下文中,批量處理算法,例如 GraphSLAM [122] 和 GBA [125],以及增量算法,例如擴展卡爾曼濾波器 (EKF) [122]、增量平滑和映射 [60、61],以及局部捆綁調(diào)整(LBA)[87],進行簡要介紹。

2.5.1 擴展卡爾曼濾波器 (EKF) [122]

給定一段時間內(nèi)記錄的多個測量值,可能來自多個傳感器,EKF 估計被觀察系統(tǒng)的狀態(tài)。系統(tǒng)的狀態(tài)由環(huán)境和機器人車輛的狀態(tài)組成。前者描述了在環(huán)境中觀察到的地標的姿態(tài),而后者描述了車輛的運動學。估計過程涉及過濾每個與測量相關的噪聲,以減少估計狀態(tài)的整體不確定性。然后,EKF根據(jù)從環(huán)境中收集的測量結果,通過多次預測迭代和更新來估計系統(tǒng)的狀態(tài),如圖5所示。

編輯切換為居中

圖 5 擴展卡爾曼濾波器算法 [108]

2.5.2 因子圖 SLAM [122]

正如該算法的名稱所表示的那樣,一個圖用于重建環(huán)境地圖以及機器人在其中的軌跡。地圖特征和機器人姿態(tài)表示為頂點,并使用編碼兩種非線性約束的邊連接:運動和測量,如圖 6a 所示。所有約束的總和使 SLAM 成為非線性最小二乘問題。為了獲得全局一致的估計,首先對所有約束進行線性化,產(chǎn)生稀疏信息矩陣和信息向量。由于矩陣的稀疏性和為了更有效的計算,使用變量消除算法減小了矩陣的大小。然后采用推理方法來找到圖節(jié)點的姿勢分配,從而最大限度地減少由約束施加的誤差?;蛘?,可以單獨使用環(huán)境中的連續(xù)機器人姿勢來利用姿勢圖[119]估計機器人的位置。該問題中使用的圖包括作為節(jié)點的機器人姿態(tài)和作為這些節(jié)點之間的邊的運動約束,如圖 6b 所示。捆綁調(diào)整 (BA) [125] 是因子圖 SLAM 的一個實例,可以定義為一個細化過程,該過程使用從環(huán)境中收集的一系列圖像同時優(yōu)化

編輯

圖 6 因子和位姿圖示例

3D 結構、相機軌跡以及可能的校準參數(shù),如圖所示在圖 7 中。評估系統(tǒng)誤差的成本函數(shù)被最小化,以產(chǎn)生改進的重建估計。如果在估計中考慮了自機器人任務開始以來的所有測量,則該過程稱為 GBA,并且已知計算量很大,這會阻礙在線操作 [36]。在 [87] 中提出了一種計算效率更高的方法,即增量調(diào)整 3維重建和相機軌跡,稱為局部束調(diào)整 (LBA)。在接收到新測量時,僅調(diào)整 n 個最近幀的窗口。使用 LBA 可以實時執(zhí)行 SLAM。

編輯切換為居中

圖 7 束調(diào)整示例

ParallaxBA 是 [145] 中提出的 BA 的另一種變體,其中使用視差角而不是其歐幾里得坐標或反深度對特征進行參數(shù)化,ParallaxBA 在準確性和收斂性方面優(yōu)于傳統(tǒng) BA。

2.5.3 增量平滑和映射增量平滑和映射是一種 SLAM 方法,它在從環(huán)境中收集測量值的同時逐漸計算地圖和機器人軌跡的估計。文獻中提出了幾種方法,其中最流行的是 iSAM [61] 和 iSAM2 [60]。iSAM 使用平方根信息矩陣的 QR 因子分解來執(zhí)行平滑,而 iSAM2 對稱為貝葉斯樹的新數(shù)據(jù)結構進行操作,該數(shù)據(jù)結構是從因子圖中獲得的。

3 基于特征的視覺SLAM——設計選擇

在本節(jié)中,將概述最先進的基于特征的視覺SLAM系統(tǒng)。如前所述,特征可以具有不同的層次:低級特征、中級特征或高級特征。視覺 SLAM 系統(tǒng)可以基于使用一種或兩種或多種特征類型的混合,這將在以下部分中討論。基于特征的方法最令人擔憂的問題是它們在沒有特征的情況下會失敗。無論它們在特征豐富的環(huán)境中可實現(xiàn)的高性能和準確性如何,如果所研究的環(huán)境缺乏視覺 SLAM 所依賴的特征,無論是點、平面還是物體,定位都會失敗,并且機器人周圍環(huán)境的估計也不會反映真實的結構。在下文中,視覺 SLAM 系統(tǒng)根據(jù)系統(tǒng)中使用的特征類型進行分類和討論。

3.1 基于低級特征的方法

低級特征是在紋理場景中大量可觀察的幾何基元。絕大多數(shù)現(xiàn)有的視覺 SLAM 系統(tǒng),例如 [22, 62, 70, 91, 127] 在整個定位和建圖過程中都利用了這些特征,并在準確性和效率方面達到了非常高的成熟度和效率。但是,如果機器人運行的環(huán)境是無紋理的或缺乏系統(tǒng)可以跟蹤的特征,則此類方法會由于缺乏特征而失敗,因此最近的 SLAM 方法開始同時考慮使用不同級別的特征。

3.1.1 多種特征類型以提高魯棒性

基于特征的視覺 SLAM 系統(tǒng)依賴于單一類型的特征,當這些特征在所運行的環(huán)境中不存在時,很容易出現(xiàn)故障。為了規(guī)避這個問題,[99] 中提出的工作建議使用點和線一起在紋理不佳的環(huán)境中執(zhí)行單目 SLAM。線由它們的端點參數(shù)化,以促進與基于點的方法的集成。在沒有點特征的情況下,這項工作提出了一種僅使用線來初始化系統(tǒng)的新技術。在 [47] 中也采用了相同的地標集來執(zhí)行立體 SLAM。立體視覺里程計用于跟蹤點和線,然后使用高斯牛頓優(yōu)化通過最小化相應特征的重投影誤差來估計相機的運動。在[59]中,點特征的觀察與激光掃描相結合,并用于因子圖中來估計機器人的姿態(tài)。提出了一種結合了占用網(wǎng)格地圖和點特征的新地圖表示。通過將觀察到的特征與地圖中的地標相匹配,可以有效地實現(xiàn)閉環(huán)和定位。因此,在估計機器人在環(huán)境中的軌跡時采用何種類型的特征的靈活性極大地有利于視覺 SLAM 的魯棒性。

3.1.2 促進實時性能

低級特征生成的地圖是稀疏的,卻需要大量的計算和內(nèi)存資源。這是因為檢測、提取和匹配特征的過程是 SLAM 流程中計算成本最高的模塊之一。為了實現(xiàn)實時性能,一些系統(tǒng) [27, 94, 97, 134] 大量利用并行性來執(zhí)行最初在 PTAM [65] 中提出的跟蹤和映射。兩個線程同時運行以定位機器人并映射其周圍環(huán)境 [65, 97]。與跟蹤不同,在大多數(shù)繁重計算發(fā)生的映射線程中延遲是可以容忍的。為了進一步減少計算量,[94] 限制了要提取的特征數(shù)量,并使用了一個局部地圖,通過該地圖進行特征匹配。為了最大化并行性,使用了一個單獨的線程來執(zhí)行循環(huán)關閉,并提出了一個同步過程,其中只有當點當前沒有被另一個線程處理時,才授予線程訪問地圖點。在[27]中,采用了三個并行模塊;用于特征檢測、提取和匹配的場景流,用于攝像機運動估計的視覺里程計,以及用于閉環(huán)和全局一致性的全局 SLAM。

定位和建圖也可以由多個機器人車輛以分布式方式完成,同時利用 [134] 中提出的并行性,其中跟蹤和圖像采集是輕量級過程,在所有 MAV 上并行運行,由于其計算需求,建圖時由功能強大的計算機在機外完成。最近在 [102] 中提出了一個單目 SLAM 系統(tǒng),其中 EKF 和 BA 一起被利用來實現(xiàn)實時的魯棒性能。ORB 特征和慣性測量用于基于 EKF 的視覺慣性里程計 (VIO) 框架,該框架能夠以最小的延遲估計相機運動。

為了進一步幫助實時性能,并非所有 ORB 特征都是從 VIO 框架中的視覺幀中提取的,該框架對所有傳入幀進行操作。此外,為了規(guī)避 EKF 導致的估計誤差,使用 BA 估計的全局一致地圖會根據(jù)選定的關鍵幀頻繁更新,并反饋到 EKF 以糾正任何估計錯誤。選定的關鍵幀會經(jīng)過另一輪特征提取和匹配,因為為 VIO 提取的特征不足以構建魯棒的地圖。閉環(huán)在并行線程中運行,以通過執(zhí)行位置識別和 ORB 特征匹配來糾正累積的錯誤。一旦檢測到循環(huán),就會執(zhí)行位姿圖優(yōu)化以及 GBA。由于視覺和慣性測量的融合,該方法對突然運動具有魯棒性,并且能夠解決尺度模糊問題。它還結合了 EKF 和 BA 的優(yōu)點,分別實現(xiàn)了實時性能和魯棒性。圖 8 總結了可用于加速定位和建圖過程并實時完成估計的技術。

3.1.3 解決尺度不確定性

當使用單目相機時,SLAM 系統(tǒng)需要處理固有的尺度不確定性挑戰(zhàn),這是由于難以從單幀中辨別深度而導致的。[127] 中提出了一種基于 EKF 的方法,其中通過融合單目視覺、超聲波和大氣壓力測量來補償尺度不確定性和間歇性特征缺失。在 [78] 中還看到了多個傳感器的融合,其中使用視覺、慣性和距離測量來實現(xiàn) SLAM 的目標。[82] 中的尺度不確定性被雙視圖初始化規(guī)避。根據(jù)它們的相對旋轉(zhuǎn),歐氏距離,以及它們之間的時間差選擇一對圖像。然后,根據(jù)這些幀之間的匹配特征,使用對極幾何來估計尺度。在另一種單目 SLAM 方法 [142] 中,ORB 特征的深度是根據(jù)它們與場景中識別的消失點的距離來計算的。此外,在[26]中使用逆深度參數(shù)化來恢復場景的規(guī)模。

編輯切換為居中

圖 8 促進實時性能的技術

雖然 RGB-D 和立體 SLAM 不需要,但采用一種技術來解析地圖的比例對于單目 SLAM 是必不可少的。圖 9 說明了可用于解決尺度不確定性的技術。

3.1.4 對特征檢測/關聯(lián)失敗的恢復能力

在環(huán)境中觀察或匹配低級特征失敗相當于在基于特征的視覺 SLAM 系統(tǒng)的無紋理環(huán)境中操作失敗。在這兩種情況下,系統(tǒng)都缺乏測量約束,導致性能嚴重下降。在傳感器突然運動或場景中存在動態(tài)的情況下,視覺系統(tǒng)無法檢測或匹配幀之間的特征。

[122] 中描述的原始 EKF-SLAM 的限制之一是它無法處理突然運動。為了克服這個問題,[73] 中提出的方法在過濾器的兩個階段都采用了視覺輸入。預測和更新。光流和對極幾何用于估計相機的狀態(tài)轉(zhuǎn)換。在預測階段使用圖像使系統(tǒng)對突然運動和不頻繁的數(shù)據(jù)采集具有魯棒性。這也消除了對動態(tài)模型的需求,并帶來了更快、更高效的性能。盡管這種 EKF 變體在特定情況下提高了 SLAM 的魯棒性和效率,但如果場景中沒有特征,它仍然會失敗。

在 [100] 中提出了 EKF-SLAM 的另一種變體,IMU 測量用于預測階段,RGB-D 圖像用于更新階段。為了實現(xiàn)全局一致性,執(zhí)行了位姿圖優(yōu)化。IMU 測量的融合使系統(tǒng)能夠在無紋理和動態(tài)環(huán)境中成功運行。ORB-SLAM2 [91] 是最先進的視覺 SLAM 系統(tǒng),它在標準 CPU 上運行時僅基于 ORB 特征實時執(zhí)行跟蹤、映射和閉環(huán)。由于對視覺特征的依賴,ORB-SLAM2 在場景中沒有 ORB 特征的情況下失敗。

為此,在 [15] 中提出了里程計和 ORB-SLAM2 的緊密耦合融合,其中運動模型被里程計取代,這支持在場景中無法檢測到任何特征時的估計。類似地,[62] 中提出的方法利用慣性和視覺測量的緊密耦合融合來執(zhí)行視覺慣性里程計。然后通過閉環(huán)檢測和全局位姿圖優(yōu)化來實現(xiàn)全局一致性。ORB-SLAM2 的另一種變體可以在 [121] 中找到,其中 ORB 特征被學習的點特征取代,稱為 GCNv2。結果表明,所提出的方法在大多數(shù)情況下具有與 ORB-SLAM2 相當?shù)男阅?,但在快速旋轉(zhuǎn)的情況下表現(xiàn)略好。

編輯切換為居中

圖 9 解決尺度模糊的技術

場景中的動態(tài)也可能導致無法在后續(xù)幀中關聯(lián)特征。[128] 中提出的工作證明了在動態(tài)環(huán)境中成功執(zhí)行 RGB-D SLAM 的能力,同時僅觀察低級特征。使用基本矩陣,提取屬于場景移動部分的特征點。然后,使用高效的 PnP 估計相機在環(huán)境中的位姿。然后通過BA進一步優(yōu)化重投影誤差。所提出的方法在實際實驗中成功使用,但僅在連續(xù)幀之間存在小視差和超過 24 點匹配的假設下。

因此,該方法在存在突然運動且環(huán)境中沒有低級特征的情況下工作會失敗。為了提高視覺 SLAM 在動態(tài)環(huán)境中的性能,[21] 中提出的方法采用了稀疏運動去除方案。貝葉斯濾波器用于計算連續(xù)幀之間的相似性和差異性以確定動態(tài)特征。消除這些特征后,場景被輸入經(jīng)典的視覺 SLAM 方法來執(zhí)行姿態(tài)估計。這種方法僅適用于場景中存在特征的情況,否則會失敗。在 [13] 中發(fā)現(xiàn)了另一種對動態(tài)場景中發(fā)生的錯誤數(shù)據(jù)關聯(lián)具有魯棒性的方法。該方法基于一種新穎的過濾器,其中姿勢被編碼為雙四元數(shù)。ORB 特征觀察和地圖地標的關聯(lián)是通過基于光流的方法完成的,這使其對場景中的動態(tài)具有魯棒性??傊?,觀察場景中缺乏特征、突然的相機運動和動態(tài)是無法執(zhí)行數(shù)據(jù)關聯(lián)的主要原因。文獻中用于解決這些問題的一些技術包括使用多個傳感器來觀察場景中的不同信息,并消除涉及動態(tài)的觀察。表 2 提供了回顧過的基于特征的低級方法的實現(xiàn)細節(jié)。

3.2 基于特征的中級方法

中級特征是在環(huán)境中觀察到的平面或斑點。在難以觀察低級特征的無紋理環(huán)境中,使用諸如地標之類的特征可以提高 SLAM 性能;以走廊為例。為了觀察這些特征,采用了模型擬合方法。因此,在估計精度和需要從環(huán)境中計算準確的模型的時間之間存在權衡。表 2 低級基于特征的方法采用的實現(xiàn)選擇

編輯切換為居中

FG 因子圖、PG 位姿圖、BA 束調(diào)整、EKF 擴展卡爾曼濾波器、MAP 最大后驗、VT 詞匯樹、PF 粒子濾波器、FM 特征匹配、BBW 二進制詞袋、GN Gauss Newton、LM Levenberg Marquardt、FF 第一幀、PM 先驗圖、SI 立體初始化、EG 極線幾何、IDP 逆深度參數(shù)化、Odom Odometry、SBI 小模糊圖像重定位、LSO 最小二乘優(yōu)化、IMI 圖像矩不變量 - 表示有關相應元素的實現(xiàn)細節(jié)/block 沒有提供單獨使用這些特征并不常見,因為將它們與低級和高級特征融合會產(chǎn)生更好的準確性,如 Sect. 3.4.在 [113] 中,提出了一種僅基于 RGB-D 數(shù)據(jù)的 SLAM 方法。使用代表墻壁和地板的平面構建環(huán)境的 3D 地圖,同時從場景中移除所有其他對象。RANSAC 用于估計平面表面,然后通過估計它們的法線并提取相應的凸面來對其進行細化。然后,使用 l0 范數(shù)最小化算法來維護極有可能表示墻壁或地板的平面,同時最小化包含較小的平面。使用這種方法,可以重建墻壁和地板的地圖,如圖 10 所示。但是,地圖中沒有其他特征,這使得它無法用于大多數(shù) SLAM 應用程序。這激發(fā)了考慮高級特征的需要,如下一節(jié)所述。

3.3 基于高級特征的方法

當期望機器人執(zhí)行需要場景理解的任務時,例如在災難后搜索受害者、構建有意義的地圖以及抓取或操作特定對象時,感知高級特征是至關重要的。這對于使用低級特征重建的地圖來說是非常具有挑戰(zhàn)性的,因為它們?nèi)狈Ρ磉_性的表示,這使得人類更難理解 [39, 46]。高級特征添加了有關場景結構的關鍵信息,并傳達了重建地圖每個部分的語義。它們是特定于環(huán)境的,并且可能在大小、形狀和動態(tài)方面有所不同。在城市規(guī)模的應用程序中,可能的地標包括樹木、建筑物、街道或人行道。另一方面,家具、辦公用品和家用電器可以作為室內(nèi)應用的地標。在本節(jié)中,將深入討論基于高級特征的 SLAM 方法中數(shù)據(jù)關聯(lián)的不同方法。然后,將介紹在場景中實現(xiàn)實時性能和處理動態(tài)的技術。

3.3.1 將高級特征觀察與地標相關聯(lián)

盡管檢測到高級特征并進行語義注釋,但在環(huán)境中存在同一對象類別的多個實例的情況下,數(shù)據(jù)關聯(lián)在高級特征中提出了基本挑戰(zhàn)?;谒教卣鞯囊曈X SLAM 系統(tǒng) [88]。

編輯切換為居中

圖 10 基于平面特征的重建地圖示意圖

在 [95] 中,對象在類別級別而不是實例級別被檢測和表征。這是基于這樣一個事實,即一個類中的所有對象都有共同的 3D 點,而不管它們的類別如何。這些點稱為關鍵點,用于區(qū)分同一類的不同類別。輸入的單目幀被傳遞到目標檢測器 YOLO9000 [103],生成的邊界框中的 3D 關鍵點通過另一個卷積神經(jīng)網(wǎng)絡進行定位。使用 Ceres 求解器優(yōu)化形狀和姿勢。

不是在每一幀上執(zhí)行對象和關鍵點檢測,而是在連續(xù)幀中跟蹤對象,從而提高效率和速度。[45] 中提出了另一種新穎的數(shù)據(jù)關聯(lián)方法,用于在先驗地圖中定位機器人。首先,為每個圖像計算查詢圖,其中頂點表示對象的類和質(zhì)心,頂點之間的無向邊表示滿足接近要求。然后通過使用它們之間的歐幾里德距離連接來自連續(xù)圖像的頂點來創(chuàng)建所有圖像的合并圖。彼此太近的頂點被合并以避免重復。第二步是為每個頂點生成隨機游走描述符。也就是說,一個 n×m 矩陣包含 n 次隨機游走中 m 個訪問過的頂點的標簽。第三,查詢圖將基于相似度得分與全局數(shù)據(jù)庫圖相匹配。兩個頂點的相似度分數(shù)表示它們描述符中相同行的數(shù)量。然后使用最高的 k 個匹配來本地化數(shù)據(jù)庫圖中的查詢圖。在[69]中,語義標記的對象及其相互關系被用于建立輸入單目幀之間的對應關系的過程。首先將 RGB 幀傳遞給 Faster R-CNN 以檢測對象。然后,通過首先生成沿線的多個長方體來計算連續(xù)圖像之間的變換,這些長方體由相機中心和邊界框的中心形成,并將它們投影到檢測到的邊界框上。長方體的生成是在離散的距離和角度上完成的。

之后,執(zhí)行坐標下降以最小化檢測到的邊界框的角與每個長方體在圖像平面中的投影之間的差異。然后刪除多余的長方體。然后將剩余的每個長方體用作種子以生成場景,該場景是一組長方體,每個長方體對應于檢測到的邊界框,基于上下文約束。為了找到生成的場景集之間的對應關系,使用了基于采樣的方法?;谡Z義標簽搜索每對場景的對應關系。從每對中挑選三個對應關系,并為每個場景構建參考框架。相應地計算場景之間的變換,并根據(jù)剩余對應關系使用計算出的變換擬合的好壞進行評分。然后使用具有最高等級的樣本來估計相機姿勢之間的轉(zhuǎn)換。在 [24] 中,如果在多個幀中觀察到相同的對象片段,則生成對象假設,并使用有助于閉環(huán)的 3D 特征描述符表示。計算當前對象與地圖中對象之間的內(nèi)部對應關系,然后,將對象與實現(xiàn)最高對應數(shù)量的假設相關聯(lián)。如果對應的數(shù)量低于閾值,則添加新的對象表示。假設環(huán)境中只有一個或幾個對象類別的靜態(tài)實例。使用 OmniMApper [124] 計算基于里程計和 ICP 的機器人姿態(tài)的先驗估計。

基于此,當前幀的片段被投影到與所有先前分割的對象的公共參考框架中。每個段的質(zhì)心與地圖中最近的段質(zhì)心匹配。為了驗證匹配,比較當前段的邊界框和與之匹配的段的邊界框。如果邊界框之間沒有足夠的重疊,則初始化一個新對象。最終的對象模型是通過在根據(jù)相對相機位姿進行轉(zhuǎn)換后聚合所有相應的片段來創(chuàng)建的。然后將對象模型和機器人位姿之間的空間約束添加到 SLAM 系統(tǒng)中。在 [88] 中,SLAM 和數(shù)據(jù)關聯(lián)被視為緊密耦合的問題,并提出了一種新方法來同時估計機器人的位置并將其觀察結果與地標相關聯(lián)。后端方法用于聯(lián)合解決目標檢測和 SLAM 問題。物體被檢測到后,由其從RGB-D數(shù)據(jù)中獲得的點云的質(zhì)心來表示。數(shù)據(jù)關聯(lián)和環(huán)境中地標的總數(shù)都不是先驗已知的。因此引入了基于狄利克雷過程的概率模型來建立適當?shù)臄?shù)據(jù)關聯(lián)??傮w而言,建立了一個混合整數(shù)非線性問題來估計機器人的姿態(tài)、地標位置和給定機器人的相對姿態(tài)和觀察值的數(shù)據(jù)關聯(lián)。在存在同一對象類別的多個實例的情況下,最常見的數(shù)據(jù)關聯(lián)方法是 [23] 中提出的距離閾值。所提出的分布式 SLAM 框架中的每個機器人都通過基于視覺和里程計測量的 OmniMApper [124] 執(zhí)行 SLAM。每個輸入的 RGB 圖像都被傳遞到 YOLO 對象檢測器。檢測到的被分割的對象,在點云中的PFHRGB 特征和相應的模型被提取和匹配。如果檢測到至少 12 個對應關系,則執(zhí)行廣義迭代最近點 (GICP) [110] 以計算對象的精細姿勢。然后通過在距離閾值內(nèi)搜索相同檢測到的對象類別的實例來執(zhí)行數(shù)據(jù)關聯(lián)。圖 11 總結了文獻中發(fā)現(xiàn)的執(zhí)行高級特征數(shù)據(jù)關聯(lián)的主要方法。

3.3.2 促進實時性能

執(zhí)行實時定位和映射對于一些機器人任務非常關鍵,尤其是那些在惡劣環(huán)境中執(zhí)行的搜索和救援任務。然而,SLAM流程中某些模塊的處理時間,例如對象檢測和分割,超出了這個范圍。在本節(jié)中,重點將專注于用于促進高級基于特征的 SLAM 方法的實時性能的技術。[95] 中提出的工作建議不對所有輸入幀執(zhí)行目標檢測。相反,在關鍵幀中檢測到對象后,會在連續(xù)幀中對其進行跟蹤,這大大減少了處理數(shù)據(jù)所需的時間。出于同樣的目的,[24] 中提出的系統(tǒng)通過將場景劃分為平面和非平面(對象)段來對場景進行預處理。移除平面線段后,對象線段會被細化并與地圖中已有的地標相關聯(lián)。使用二次曲線表示對象是一種替代技術,可以在視覺 SLAM 系統(tǒng)中使用語義標記的地標來減少計算量。[93] 中提出的工作使用對象檢測器作為傳感器,其中檢測到的邊界框用于識別表示相應對象的二次曲線的參數(shù)。二次曲線提供關于對象大小、位置和方向的信息,編碼為十個獨立參數(shù)。提出了一種幾何誤差公式來解釋物體檢測的空間不確定性,例如由遮擋引起的。使用二次曲線而不是詳細的對象模型可以提高系統(tǒng)的速度,但會以重建在廣泛應用中有用的信息豐富的地圖為代價。圖 12 提供了有助于提高基于特征的高級視覺SLAM 系統(tǒng)效率的討論技術的插圖。

編輯切換為居中

圖 11 高級特征數(shù)據(jù)關聯(lián)技術的圖解

3.3.3 處理場景中的動態(tài)

大多數(shù) SLAM 系統(tǒng)是在不切實際的假設環(huán)境是靜態(tài)的情況下開發(fā)的。文獻中只提出了少數(shù)考慮場景動態(tài)的系統(tǒng)。這些系統(tǒng)中的大多數(shù)檢測觀察場景的非靜止部分,將其消除,然后根據(jù)剩余的靜態(tài)環(huán)境執(zhí)行 SLAM。這種方法的一個例子可以在[5]中找到,其中移動物體被跟蹤,靜止物體被用來生成被調(diào)查環(huán)境的靜態(tài)地圖。使用激光掃描儀進行觀察,并使用多級 RANSAC 方法進行數(shù)據(jù)關聯(lián)。不同的是,[137] 中提出的工作使用長方體作為對象的表示,其中提出了對象 SLAM 系統(tǒng)。該系統(tǒng)依賴于來自單目相機的觀察,并利用場景中的動態(tài)對象通過將運動模型約束添加到用于解決優(yōu)化問題的多視圖 BA 公式來改進定位。在連續(xù)幀中跟蹤屬于它們的對象和特征點,估計并使用運動模型來提高軌跡和地圖估計的準確性。利用動態(tài)對象的運動模型而不是忽略它們會對系統(tǒng)施加額外的約束,從而提高估計的準確性。表 3 提供了前幾節(jié)中所有回顧過的基于特征的高級方法的總結。

3.4 混合基于特征的方法

在前幾節(jié)中,討論和分析了采用單一類型特征的 SLAM系統(tǒng)。每個級別的特征都通過一種獨特的方式增強了圖12中SLAM的結果。表 3 高級基于特征的 SLAM 方法采用的實現(xiàn)選擇

編輯切換為居中

- 表明關于未提供相應的元素/塊例如,基于觀察低級特征的定位方法在準確性和效率方面已經(jīng)達到了很高的成熟度。然而,他們產(chǎn)生的地圖是高度稀疏的,沒有任何語義指示。利用場景中的中級特征(例如平面)可以在無紋理環(huán)境

編輯切換為居中

圖12通過基于高級特征的視覺 SLAM 方法實現(xiàn)實時性能的技術中獲得更高的重建密度和更強的魯棒性。為了創(chuàng)建人類可以輕松感知的有意義的地圖,最近的 SLAM 方法有效地利用了新興的對象檢測技術,并在整個定位和映射過程中采用了語義標記的觀察。

為了充分利用場景中可以視覺觀察到的內(nèi)容并增強其整體結果,SLAM 系統(tǒng)最近開始在兩個或更多級別上使用特征,如本節(jié)所述。在本節(jié)中,將回顧采用多層次特征的基于特征的視覺 SLAM 方法。審查的系統(tǒng)根據(jù)用于執(zhí)行 SLAM 的功能分為三類;低級和中級基于特征的方法,低級和高級基于特征的方法,以及低級、中級和高級基于特征的方法。表 4 總結了審查過的方法所采用的實施選擇。

3.4.1 基于低級和中級特征的方法

[28、52、67、138]中提出的系統(tǒng)采用低級和中級特征來實現(xiàn) SLAM 的目標。在某些環(huán)境中,例如走廊,平面 SLAM 變得不受約束。融合平面和點可以極大地增強 SLAM 在 [138] 中提出的環(huán)境中的魯棒性,其中使用彈出式 3D 模型在單目幀中檢測到的平面用于估計相機軌跡和 3D 地圖環(huán)境。在不同的幀中,平面是基于三個量的加權和關聯(lián)的:它們的法線之間的差異、它們之間的距離以及它們的投影之間的重疊。對于每個傳入的單目幀,計算 ORB 描述符并使用詞袋方法來檢測循環(huán)。在檢測到環(huán)路后,確定相應的平面對并相應地修改因子圖。在 [52] 中采用了不同的幾何基元和平面。使用圖公式的最小二乘優(yōu)化,其中涉及平面約束,用于解決 SLAM 問題。檢測到的點被限制在一個特定的平面上,由其在環(huán)境中的法線和相對于相機的深度參數(shù)化。環(huán)境中平面之間的角度也被視為約束。所有約束都耦合到成本函數(shù)中,從而解決了由此產(chǎn)生的非線性最小二乘問題。[67] 中提出了第三種變體,其中提出了基于平面和點的 RGB-D SLAM 方法。每個傳入的圖像被劃分為間隔,然后根據(jù)其中存在的平面進行標記。幀的方向是根據(jù)其中最主要的平面的方向估計的,而幀之間的平移是根據(jù)匹配的 SIFT 特征和 RANSAC 計算的。全局對齊和閉環(huán)是基于低級和中級特征的融合進行的,這有助于提高所提出方法的魯棒性。最近在 [144] 中提出了一種 RGB-D SLAM,其中利用點和平面來估計相機的姿勢和周圍環(huán)境的地圖。ORB 特征從 RGB 幀中提取并由 ORB-SLAM2 的 RGB-D 版本處理。另一方面,深度幀用于從場景中提取平面及其輪廓點。輪廓點用于在重建的地圖中構建平面之間的空間和幾何約束。使用了一種新穎的平面數(shù)據(jù)關聯(lián)技術,其中使用兩個平面之間的角度來判斷它們是垂直還是平行,同時考慮到測量噪聲。如果觀察到的平面的點與地圖中的平面之間的距離低于特定閾值,則兩個平面匹配。與場景中出現(xiàn)的平面垂直的假想平面也被利用并視為姿勢估計過程中的其他觀察到的特征。通過 Levenberg-Marquardt 優(yōu)化器構建和求解因子圖。所提出的平面數(shù)據(jù)關聯(lián)方法比考慮平面法線和/或平面距離的方法更穩(wěn)健,因為它考慮了不可避免的測量噪聲。超像素是中級特征,被視為在輸入幀中表現(xiàn)出相似強度的平面區(qū)域。使用超像素具有能夠重建紋理不佳的場景的優(yōu)勢。然而,這些特征沒有一個健壯的描述符,這使得很難在不同的圖像中匹配它們。在 [28] 中,提出了一種基于特征的單目 SLAM 方法,將超像素與 PTAM 相結合,其中 PTAM 關鍵幀被劃分為不規(guī)則大小的超像素。要估計的地圖狀態(tài)由所有關鍵幀的位姿、點特征的歐幾里得坐標和平面超像素的參數(shù)組成。兩個關鍵幀(其位姿已使用 PTAM 計算)用于初始化超像素。使用蒙特卡羅方法提取和匹配關鍵幀中的所有超像素。BA用于優(yōu)化相機和3D點的狀態(tài),然后用于估計超像素的參數(shù)。在每個新的關鍵幀上,所有超像素被重新投影以搜索匹配。當重投影誤差降至閾值以下時,匹配作為約束添加到優(yōu)化問題中。表4 基于混合特征的 SLAM 方法采用的實現(xiàn)選擇

編輯切換為居中

另一項利用點特征和平面區(qū)域融合的工作,在這種情況下表示為平方基準標記,在環(huán)境中可以在 [90] 中找到。除了由于使用點特征而實現(xiàn)的穩(wěn)健性之外,在該系統(tǒng)中使用基準標記還具有幾個優(yōu)點,例如消除尺度不確定性、在區(qū)分點特征可能具有挑戰(zhàn)性的重復環(huán)境中的穩(wěn)健性以及特征隨時間的不變性。

3.4.2 基于低級和高級特征的方法

基于在 [10, 26, 37, 48, 71, 105, 106、118、130]。這種方法在保持魯棒性的同時展示了高水平的表達能力。[48] 中提出的系統(tǒng)主要在單目 RGB 幀上進行跟蹤、對象識別和映射。表現(xiàn)出獨特的幾何和/或語義信息的幀被選為關鍵幀。在包含至少5個點對應、最小視差角為 3° 且必須表現(xiàn)出可接受的幾何條件的多個幀中檢測到語義標記的對象后,將其添加到地圖中。為了區(qū)分場景中相同對象模型的實例,在給定地圖比例的情況下假設檢測到的實例在世界框架中的姿態(tài),并計算與先前檢測到的實例的重疊。如果未檢測到重疊,則將新對象實例添加到地圖中。如果還不知道地圖的比例尺,則假定順序檢測到的對象屬于地圖中的同一對象實例。使用 k-d 樹搜索在測量值和對象模型之間建立對應關系。為了更加穩(wěn)健,計算輸入圖像中的 ORB 特征并建立 2D-3D 對應關系。幾何特征可以用于檢測場景中的對象,而不是獨立使用低級特征,如 [37] 中提出的,其中對象檢測和 SLAM 是使用一種新的 BA 公式(稱為語義 BA)針對 2D 和 3D 傳感器聯(lián)合完成的.在接收到新圖像后,將提取特征并將其與對象模型數(shù)據(jù)庫中的特征進行匹配。然后為與對象的每組對應關系創(chuàng)建一個驗證圖。然后將特征與數(shù)據(jù)庫中的模型匹配的幀轉(zhuǎn)換為公共姿勢,相應語義特征的成本是檢測到的特征的重投影誤差,該誤差由匹配的置信度加權.在 3D 情況下,當多次檢測到一個對象時,語義邊緣的成本函數(shù)包括將一個檢測到的特征重新投影到另一個特征中。特征與模型中的公共點匹配的幀被稱為具有由圖中的邊表示的虛擬匹配。

出于一致性目的,將從 SLAM 獲得的幾何約束添加到圖中。生成的驗證圖經(jīng)過優(yōu)化以獲得所有約束的最小重投影誤差。在某些環(huán)境中,例如教育實體和醫(yī)院,每個房間都分配有一個唯一的標識符,該標識符可以作為 SLAM 系統(tǒng)中的地標,如 [106] 中所述。在消除與墻壁相對應的點后,采用基于 SVM 分類器的門牌檢測器。門牌中包含的字符使用光學字符識別 (OCR) 進行識別。從激光數(shù)據(jù)中提取的線條以及來自門牌檢測器的測量值隨后被傳遞到映射器以映射環(huán)境。在 [118] 中,通用對象的觀察被用于擴展 RGB-D ORB-SLAM2。對象通過 k-d 樹被檢測、分割并與地圖中的地標相關聯(lián)。物體的姿態(tài)是使用 ORB-SLAM 確定的。檢測到的對象存儲有三條信息:對象的 RGB 點云、來自 ORB-SLAM 的姿態(tài)和累積的檢測置信度。類標簽是根據(jù)對象檢測的整個歷史確定的。通過基于最新的軌跡估計投影點云,可以顯式地構建環(huán)境的稀疏地圖。最后,對象點作為歐幾里得坐標插入到 SLAM 狀態(tài)向量中,因此在后續(xù)幀中接收到新數(shù)據(jù)時會對其進行跟蹤和進一步細化。EKF-Monocular-SLAM、運動結構(SfM)和視覺識別結合在[26]中提出的系統(tǒng)中,通過將圖像中的 SURF 點與數(shù)據(jù)庫中的對象模型相關聯(lián)來檢測對象。然后使用 RANSAC 對此類關聯(lián)進行幾何驗證。之后,PnP 算法或 DLT 算法分別用于計算非平面和平面模型的變換或單應矩陣,然后用于細化對象的位姿。匹配的點被輸入到基于 EKF-Monocular-SLAM 的單目 SLAM 模塊中,其中要估計的狀態(tài)向量由相機運動參數(shù)和點特征以及檢測到的物體的幾何形狀組成。

另一方面,觀察環(huán)境中的某些場景可能會表現(xiàn)出動態(tài)性,如果不加以考慮,則會阻礙 SLAM 系統(tǒng)的整體性能。因此,大多數(shù) SLAM 系統(tǒng)假設在整個定位和建圖過程中物體保持靜止的場景和映射過程。[105] 中提出的 SLAM 系統(tǒng)通過在操作之前從觀察到的場景中移除動態(tài)對象來消除這種假設。更具體地說,每個 RGB-D 幀都經(jīng)過處理,以掩蓋使用基于 RGB-D 的方法檢測到人的區(qū)域 [58]。剩余的數(shù)據(jù)圖像是一個靜態(tài)環(huán)境,可以使用標準的視覺 SLAM 算法進行處理。在 [130] 中可以找到類似的方法,其中動態(tài)對象通過計算有效的逐步方法從場景中分割出來,以檢測對象并提取其輪廓。然后使用一種新穎的查找表方法基于點特征映射靜態(tài)環(huán)境,該方法使用來自環(huán)境的大量不同、均勻分布的點特征作為目標,這提高了映射和定位的準確性。同樣,[116] 中提出了一種從觀察場景中提取非靜態(tài)對象的在線方法,從而提高 RGB-D SLAM 在非靜態(tài)環(huán)境中的性能。該方法包括三個主要階段,從圖像差分開始,以檢測場景中的任何移動物體。然后使用粒子濾波器來跟蹤連續(xù) RGB-D 幀中的運動補丁,這使得它比跟蹤特定對象模型的方法更通用。最后,通過矢量量化對運動對象進行分割后,最大后驗用于識別場景的前景。為了可靠地運行,該方法要求觀察到的場景主要由靜態(tài)對象組成并包含平面。隨著視覺 SLAM 重建的場景越來越大,將特征與點匹配變得更具挑戰(zhàn)性,因為有些地方表現(xiàn)出相似的外觀。

為了規(guī)避這一點,[71] 中提出的工作采用了一個粗略的位置識別模塊,其中包含公共點的幀使用重疊視圖聚類算法在位置類下分組在一起。然后基于哈里斯角的簡要描述符之間的漢明距離完成特征匹配。數(shù)據(jù)關聯(lián)和 SLAM 是緊密耦合的問題,除了在少數(shù)研究工作中將它們作為兩個優(yōu)化子問題來解決之外,它們沒有被聯(lián)合考慮。估計每個觀察-地標對的數(shù)據(jù)關聯(lián),然后用于估計傳感器和地標姿勢。使用這種方法,不正確的數(shù)據(jù)關聯(lián)會嚴重降低傳感器和地標姿態(tài)估計的準確性。此外,當獲得相同地標的更精細測量時,不能重新考慮由于其模糊性而被丟棄的測量。這些限制推動了 [10] 中提出的 SLAM 算法的變化,其中在單個優(yōu)化問題中考慮了數(shù)據(jù)關聯(lián)以及傳感器和地標姿態(tài)的估計。不是將每個觀察與單個地標相關聯(lián),而是使用期望最大化來考慮數(shù)據(jù)關聯(lián)的整個密度,同時估計傳感器和地標的姿勢,這被稱為軟數(shù)據(jù)關聯(lián)。估計基于慣性測量、ORB 特征和從對象檢測器獲得的語義信息。觀察到的地標的深度是在該地標的邊界框中檢測到的 ORB 特征的中值。如果環(huán)境中存在同一對象的多個實例,則使用馬氏距離來決定數(shù)據(jù)關聯(lián)。

在 [4] 中提出了這項工作的擴展,其中語義結構的推斷方式不同。不是依賴 ORB 特征,而是使用堆疊的沙漏卷積網(wǎng)絡來檢測在每個邊界框中找到的對象的語義特征。結構約束用于將每個語義特征與相應的地標相關聯(lián),然后使用 Kabsch 算法來估計對象的方向。在 [33] 中可以找到一種非常相似的方法,其區(qū)別在于它采用非高斯傳感器模型,而不是大多數(shù)提出的方法,其中總是假設高斯模型。[143] 中提出的系統(tǒng)結合了高級語義標記特征和低級 CNN 特征,通過粗到細的方法對移動機器人進行定位。通過首先比較圖像中出現(xiàn)的對象,將觀察結果與地圖中的視覺幀進行匹配。然后根據(jù)圖像的 CNN 特征進行更精細的搜索。相機的估計姿勢以及特征最終使用 BA 進行細化。

3.4.3 低、中、高層次的基于特征的方法

在[54]和[137]中,SLAM系統(tǒng)是基于所有三個層次的特征開發(fā)的;點、平面和對象。[54] 中提出的系統(tǒng)采用 RGB-D 傳感器來觀察環(huán)境中的特征。該系統(tǒng)的實時、高效性能是可以實現(xiàn)的,因為對象是通過不需要高度詳細表示的二次曲線來表示的。SLAM 問題被表述為一個因子圖,其中使用了各種類型的因子,包括對點、對象和平面以及點-平面、平面-平面和對象-平面關系的觀察。ORB-SLAM2 的一種變體用于檢測環(huán)境中的點,然后在從粗到細的金字塔中的幀之間進行匹配。Faster R-CNN 用于檢測傳入幀中的對象,然后計算表示對象的相應橢圓體。如果對象的單個實例出現(xiàn)在環(huán)境中,則跨幀使用語義標簽將觀察結果與對象相關聯(lián)。否則,數(shù)據(jù)關聯(lián)是通過最近鄰匹配實現(xiàn)的。使用有組織的點云分割技術對表示場景的點云進行分割以提取平面。平面使用它們之間的距離和它們的法線之間的差異的閾值來關聯(lián)。在屬于它們的平面和點、對象和它們所在的相應平面之間以及假設曼哈頓世界的多個平面之間添加因子。采用詞袋方法檢測閉環(huán)。與最先進的 SLAM 系統(tǒng)相比,使用通過單目相機觀察到的點、平面和對象,[137] 中提出的工作實現(xiàn)了改進的定位,尤其是在沒有閉環(huán)的情況下。這歸因于物體和平面的遠程可觀測性,這有助于新舊測量之間的更多關聯(lián)。對象被表示為長方體,平面邊緣被檢測然后反向投影以獲得它們的參數(shù),并添加點以進一步約束相機姿勢。BA 公式與四種類型的約束一起使用:相機平面、相機對象、對象平面和點平面。生成的地圖是密集的,并表現(xiàn)出高水平的表現(xiàn)力。

4 結論

同時定位和映射是機器人社區(qū)中最主要的研究問題,在該領域投入了大量的精力來生成新的方法,以最大限度地提高其魯棒性和可靠性。在從要重建的環(huán)境中獲取第一組測量值后,初始化機器人的軌跡和地圖。隨后的測量通過不同流程的流水線,這些流程在每個 SLAM 系統(tǒng)中實現(xiàn)不同,但確實達到了相同的目的。這些過程包括數(shù)據(jù)關聯(lián)、閉環(huán)、重新定位以及軌跡和地圖估計。在本文中,我們調(diào)查了大多數(shù)最先進的視覺 SLAM 解決方案,這些解決方案利用特征來定位機器人并繪制其周圍環(huán)境。我們根據(jù)它們所依賴的特征類型將基于特征的視覺 SLAM 方法分類;低級、中級、高級或混合功能。對每個類別的優(yōu)勢和劣勢進行了徹底調(diào)查,并在適用時強調(diào)了每個解決方案克服的挑戰(zhàn)。表格中提供了同一類別方法之間的比較,比較了實現(xiàn) SLAM 管道的每個組件所采用的方法。根據(jù)我們的深入審查,我們認為以下挑戰(zhàn)仍未解決。

1. 普遍性

當前的 SLAM 解決方案缺乏適應機器人運行環(huán)境的能力。因為它們依賴于某種類型的特征。未能在環(huán)境中檢測到這些特征會導致 SLAM 結果的準確性發(fā)生災難性的下降。這可能是由于環(huán)境中間歇性地存在特征或所采用的視覺系統(tǒng)無法檢測到它們。如果 SLAM 系統(tǒng)依賴于一組非常有限的特征,例如神經(jīng)網(wǎng)絡可以檢測的對象集,而不利用圖像中的其他元素,如平面、幾何圖元或新對象,則會發(fā)生前者網(wǎng)絡沒有經(jīng)過訓練來檢測。后者可能發(fā)生在具有挑戰(zhàn)性的環(huán)境中或由于突然運動。為了應對這些挑戰(zhàn),SLAM 使用的視覺系統(tǒng)應該靈活地適應基于機器人運行環(huán)境的各種類型的特征,例如在室內(nèi)和室外環(huán)境之間的過渡期間。

2. 魯棒性

在SLAM流程中存在來自多個來源的噪聲時,估計算法有時很難生成地圖和軌跡的最佳估計。已經(jīng)進行了非常有限的研究工作來保證 SLAM 估計的最優(yōu)性,或者至少驗證估計是否是最優(yōu)的 [17-19, 55-57]。為此,例如,通過神經(jīng)網(wǎng)絡對 SLAM 估計進行后處理可能會顯著改善估計的軌跡和重建的地圖,從而形成更強大的 SLAM 系統(tǒng)。

3. 場景理解和表達表示自從 2012 年深度學習取得突破以來,目標檢測器在 SLAM 中得到了大量利用。然而,當前的目標檢測器沒有利用檢測之間的任何時間或空間關系[117]。如果考慮到這些限制,預計檢測的效率和可靠性會提高。我們目前目睹的軟件和硬件技術的進步應該針對開發(fā)一種能夠克服所有這些挑戰(zhàn)的環(huán)境感知、無錯誤、通用的視覺 SLAM 算法。

致謝 本出版物基于哈利法科技大學資助的工作,獎勵編號為 RC1-2018-KUCARS。遵守道德標準 利益沖突 通訊作者代表所有作者聲明不存在利益沖突

參考文獻1、?international confer- ence on intelligent robots and systems (IROS), pp 4944–4949.https ://doi.org/10.1109/IROS.2017.82063 7568. Leutenegger S, Chli M, Siegwart RY (2011) Brisk: Binary robust invariant scalable keypoints.In: Proceedings of the 2011 international conference on computer vision, ICCV ’11, pp 2548–2555.IEEE Computer Society, Washington.https ://doi.org/10.1109/ICCV.2011.61265 4269. Li J, Meger D, Dudek G (2017) Context-coherent scenes of objects for camera pose estimation.In: 2017 IEEE/RSJ interna- tional conference on intelligent robots and systems (IROS), pp 655–660.https ://doi.org/10.1109/IROS.2017.82022 2170. Lim H, Lim J, Kim HJ (2014) Real-time 6-dof monocular visual slam in a large-scale environment.In: 2014 IEEE international conference on robotics and automation (ICRA), pp 1532–1539.https ://doi.org/10.1109/ICRA.2014.69070 5571. Lim H, Sinha SN, Cohen MF, Uyttendaele M (2012) Real-time imAGe-based 6-dof localization in large-scale environments.In: 2012 IEEE conference on computer vision and pattern recogni- tion, pp 1043–1050.https ://doi.org/10.1109/CVPR.2012.62477 8272. Lindeberg T (1998) Feature detection with automatic scale selection.Int J Comput Vis 30(2):79–116.https ://doi.org/10.1023/A:10080 45108 93573. Liu J, Liu D, Cheng J, Tang Y (2014) Conditional simultaneous localization and mApping: a robust visual slam system.Neu- rocomputing 145:269–284.https ://doi.org/10.1016/j.neuco m.2014.05.03474. Liu W, Anguelov D, Erhan D, Szegedy C, Reed SE, Fu C, Berg AC (2015) SSD: single shot multibox detector.CoRR arXiv :1512.0232575. Liu Y, Zhang H (2012) Indexing visual features: real-time loop closure detection using a tree structure.In: 2012 IEEE interna- tional conference on robotics and automation, pp 3613–3618.https ://doi.org/10.1109/ICRA.2012.62247 4176. Lowe DG (1999) Object recognition from local scale-invariant features.In: Proceedings of the seventh IEEE international con- ference on computer vision, vol 2, pp 1150–1157.https ://doi.org/10.1109/ICCV.1999.79041 077. Lowe DG (2004) Distinctive imAGe features from scale-invar- iant keypoints.Int J Comput Vis 60(2):91–110.https ://doi.org/10.1023/B:VISI.00000 29664 .99615 .9478. Lowe T, Kim S, Cox M (2018) Complementary perception for handheld slam.IEEE Robot Autom Lett 3(2):1104–1111.https ://doi.org/10.1109/LRA.2018.27956 5179. Lowry S, Sünderhauf N, Newman P, Leonard JJ, Cox D, Corke P, Milford MJ (2016) Visual place recognition: a survey.IEEE Trans Robot 32(1):1–19.https ://doi.org/10.1109/TRO.2015.24968 2380. Lucas BD, Kanade T (1981) An iterative imAGe registration technique with an Application to stereo vision.In: Proceed- ings of the 7th international joint conference on artificial intelligence—vol 2, IJCAI’81, pp 674–679.Morgan Kaufmann Publishers Inc., San Francisco.http://dl.acm.org/citat ion.cfm?id=16232 64.16232 8081. Mair E, HAGer GD, Burschka D, Suppa M, Hirzinger G (2010) Adaptive and generic corner detection based on the acceler- ated segment test.In: Daniilidis K, MarAGos P, ParAGios N (eds) Computer vision—ECCV 2010. Springer, Berlin, pp 183–19682. Maity S, Saha A, Bhowmick B (2017) Edge slam: edge points based monocular visual slam.In: 2017 IEEE international con- ference on computer vision workshops (ICCVW ), pp 2408– 2417. https ://doi.org/10.1109/ICCVW .2017.28483. Matas J, Chum O, Urban M, Pajdla T (2004)Robust wide-base- line stereo from maximally stable extremal regions.ImAGe Vis Comput 22(10):761–767.https ://doi.org/10.1016/j.imavi s.2004.02.00684. Mazuran M, Tipaldi GD, Spinello L, Burgard W, Stachniss C (2014) A statistical measure for map consistency in slam.In: 2014 IEEE international conference on robotics and auto- mation (ICRA), pp 3650–3655.https ://doi.org/10.1109/ ICRA.2014.69073 8785. Milford MJ, Schill F, Corke P, Mahony R, Wyeth G (2011) Aerial slam with a single camera using visual expectation.In: 2011 IEEE international conference on robotics and automation, pp 2506–2512.https ://doi.org/10.1109/ICRA.2011.59803 2986. Milford MJ, Wyeth GF, Prasser D (2004) Ratslam: a hippocampal model for simultaneous localization and mApping.In: Robot- ics and automation, 2004. Proceedings.2004 IEEE interna- tional conference on ICRA ’04, vol 1, pp 403–408.https ://doi.org/10.1109/ROBOT .2004.13071 8387. MourAGnon E, Lhuillier M, Dhome M, Dekeyser F, Sayd P (2006) Real time localization and 3d reconstruction.In: 2006 IEEE com- puter society conference on computer vision and pattern rec- ognition (CVPR’06), vol 1, pp 363–370.https ://doi.org/10.1109/ CVPR.2006.23688. Mu B, Liu SY, Paull L, Leonard J, How JP (2016) Slam with objects using a nonparametric pose graph.In: 2016 IEEE/RSJ interna- tional conference on intelligent robots and systems (IROS), pp 4602–4609.https ://doi.org/10.1109/IROS.2016.77596 7789. Muja M, Lowe DG (2009) Fast Approximate nearest neighbors with automatic algorithm configuration.In: In VISApp interna- tional conference on computer vision theory and Applications, pp 331–34090. Mu?oz-Salinas R, Medina Carnicer R (2019) Ucoslam: simulta- neous localization and mApping by fusion of keypoints and squared planar markers.CoRR arXiv :1902.0372991. Mur-Artal R, Tardós JD (2017) Orb-slam2: an open-source slam system for monocular, stereo, and rgb-d cameras.IEEE Trans Robot 33(5):1255–1262.https ://doi.org/10.1109/ TRO.2017.27051 0392. Mu?oz-Salinas R, Marín-Jimenez MJ, Medina-Carnicer R (2019) Spm-slam: simultaneous localization and mApping with squared planar markers.Pattern Recognit 86:156–171.https ://doi.org/10.1016/j.patco g.2018.09.00393. Nicholson L, Milford M, Sünderhauf N (2018) Quadricslam: con- strained dual quadrics from object detections as landmarks in semantic SLAM.CoRR arXiv :1804.0401194. Nitsche MA, Castro GI, Pire T, Fischer T, Cristóforis PD (2017) Constrained-covisibility marginalization for efficient on-board stereo slam.In: 2017 European conference on mobile robots (ECMR), pp 1–6.https ://doi.org/10.1109/ECMR.2017.80986 5595. Parkhiya P, Khawad R, Murthy JK, Bhowmick B, Krishna KM (2018) Constructing category-specific models for monocular object-slam.CoRR arXiv :1802.0929296. Piasco N, Sidibé D, Demonceaux C, Gouet-Brunet V (2018) A survey on visual-based localization: on the benefit of het- erogeneous data.Pattern Recogniti 74:90–109.https ://doi.org/10.1016/j.patco g.2017.09.01397. Pire T, Fischer T, Civera J, Cristóforis PD, Berlles JJ (2015) Ste- reo parallel tracking and mApping for robot localization.In: 2015 IEEE/RSJ international conference on intelligent robots and systems (IROS), pp 1373–1378.https ://doi.org/10.1109/ IROS.2015.73535 4698. Posch C, Matolin D, Wohlgenannt R (2011) A qvga 143 db dynamic range frame-free pwm imAGe sensor with lossless pixel-level video compression and time-domaincds.IEEE J Solid-State Circuits 46(1):259–275.https ://doi.org/10.1109/ JSSC.2010.20859 5299. Pumarola A, Vakhitov A, AGudo A, Sanfeliu A, Moreno-Noguer F (2017) Pl-slam: real-time monocular visual slam with points and lines.In: 2017 IEEE international conference on robotics and automation (ICRA), pp 4503–4508.https ://doi.org/10.1109/ICRA.2017.79895 22100. Qayyum U, Ahsan Q, Mahmood Z (2017) Imu aided rgb-d slam.In: 2017 14th international Bhurban conference on Applied sciences and technology (IBCAST ), pp 337–341.https ://doi.org/10.1109/IBCAS T.2017.78680 75101. Qiu K, Liu T, Shen S (2017) Model-based global localization for aerial robots using edge alignment.IEEE Robot Autom Lett 2(3):1256–1263.https ://doi.org/10.1109/LRA.2017.26600 63102. Quan M, Piao S, Tan M, Huang S (2019) Accurate monocu- lar visual-inertial slam using a map-assisted ekf Approach.IEEE Access 7:34289–34300.https ://doi.org/10.1109/ACCES S.2019.29045 12103. Redmon J, Farhadi A (2016) YOLO9000: better, faster, stronger.CoRR arXiv :1612.08242104. Redmon J, Farhadi A (2018) Yolov3: an incremental improve- ment.CoRR arXiv :1804.02767105. Riazuelo L, Montano L, Montiel JMM (2017) Semantic vis- ual slam in populated environments.In: 2017 European conference on mobile robots (ECMR), pp 1–7.https ://doi.org/10.1109/ECMR.2017.80986 97106. Rogers JG, Trevor AJB, Nieto-Granda C, Christensen HI (2011) Simultaneous localization and mApping with learned object recognition and semantic data association.In: 2011 IEEE/RSJ international conference on intelligent robots and systems, pp 1264–1270.https ://doi.org/10.1109/IROS.2011.60951 52107. Rublee E, Rabaud V, Konolige K, Bradski G (2011) Orb: An efficient alternative to sift or sur f.In: 2011 international conference on computer vision, pp 2564–2571.https ://doi.org/10.1109/ICCV.2011.61265 44108. Sabatini R, Ramasamy S, Gardi A, Rodriguez Salazar L (2013) Low-cost sensors data fusion for small size unmanned aerial vehicles navigation and guidance.Int J Unmanned Syst Eng 1:16–47.https ://doi.org/10.14323 /ijuse ng.2013.11109. Saputra MRU, Markham A, Trigoni N (2018) Visual slam and structure from motion in dynamic environments: a sur vey.ACM Comput Sur v 51(2):37:1–37:36.https ://doi.org/10.1145/31778 53110. Segal A, H?hnel D, Thrun S (2009) Generalized-icp.In: Trinkle J, Matsuoka Y, Castellanos JA (eds) Robotics: science and sys- tems.The MIT Press, Cambridge111. Shi J, Tomasi C (1994) Good features to track.In: 1994 Pro- ceedings of IEEE conference on computer vision and pat- tern recognition, pp 593–600.https ://doi.org/10.1109/ CVPR.1994.32379 4112. Shum HY, Szeliski R (2001) Construction of panoramic imAGe mosaics with global and local alignment.Springer, New York, pp 227–268113. Souto LAV, Nascimento TP (2016) Object subtraction planar rgb-d slam.In: 2016 XIII Latin American robotics symposium and iv brazilian robotics symposium (LARS/SBR), pp 19–24.https ://doi.org/10.1109/LARS-SBR.2016.11114. Stewénius H, Engels C, Nistér D (2006) Recent develop- ments on direct relative orientation.ISPRS J Photogramm Remote Sens 60(4):284–294.https ://doi.org/10.1016/j.isprs JPrs.2006.03.005115. Sualeh M, Kim GW (2019) Simultaneous localization and map- ping in the epoch of semantics: a survey.Int J Control Autom Syst 17(3):729–742.https ://doi.org/10.1007/s1255 5-018-0130-x116. Sun Y, Liu M, Meng MQH (2017) Improving rgb-d slam in dynamic environments: a motion removal Approach.Robot Auton Syst 89:110–122.https ://doi.org/10.1016/j.robot .2016.11.012117. Sünderhauf N, Brock O, Scheirer W, Hadsell R, Fox D, Leitner J, Upcroft B, Abbeel P, Burgard W, Milford M, CorkeP (2018) The limits and potentials of deep learning for robotics.Int J Robot Res 37(4–5):405–420.https ://doi.org/10.1177/02783 64918 77073 3118. Sünderhauf N, Pham TT, Latif Y, Milford M, Reid I (2017) Mean- ingful maps with object-oriented semantic mApping.In: 2017 IEEE/RSJ international conference on intelligent robots and systems (IROS), pp 5079–5085.https ://doi.org/10.1109/ IROS.2017.82063 92119. Sünderhauf N, Protzel P (2012) Towards a robust back-end for pose graph slam.In: 2012 IEEE international conference on robotics and automation, pp 1254–1261.https ://doi.org/10.1109/ICRA.2012.62247 09120. Taketomi T, Uchiyama H, Ikeda S (2017) Visual slam algorithms: a survey from 2010 to 2016. IPSJ Trans Comput Vis Appl 9(1):16.https ://doi.org/10.1186/s4107 4-017-0027-2121. Tang J, Ericson L, Folkesson J, Jensfelt P (2019) Gcnv2: efficient correspondence prediction for real-time SLAM.CoRR arXiv :1902.11046122. Thrun S, Burgard W, Fox D (2005) Probabilistic robotics (intel- ligent robotics and autonomous AGents).The MIT Press, Cambridge123. Torr P, Zisserman A (2000) Mlesac: a new robust estimator with Application to estimating imAGe geometry.Comput Vis ImAGe Understand 78(1):138–156.https ://doi.org/10.1006/ cviu.1999.0832124. Trevor AJB, Rogers JG, Christensen HI (2014) OmnimApper: a modular multimodal mApping framework.In: 2014 IEEE inter- national conference on robotics and automation (ICRA), pp 1983–1990.https ://doi.org/10.1109/ICRA.2014.69071 22125. Triggs B, McLauchlan PF, Hartley RI, Fitzgibbon AW (2000) Bun- dle adjustment—a modern synthesis.In: Triggs B, Zisserman A, Szeliski R (eds) Vision algorithms: theory and practice.Springer, Berlin, pp 298–372126. Unicomb J, Dantanarayana L, Arukgoda J, Ranasinghe R, Dis- sanayake G, Furukawa T (2017) Distance function based 6dof localization for unmanned aerial vehicles in gps denied envi- ronments.In: 2017 IEEE/RSJ international conference on intel- ligent robots and systems (IROS), pp 5292–5297.https ://doi.org/10.1109/IROS.2017.82064 21127. Urzua S, Munguía R, Grau A (2017) Vision-based slam system for mavs in gps-denied environments.Int J Micro Air Veh 9(4):283– 296. https ://doi.org/10.1177/17568 29317 70532 5128. Wang R, Wan W, Wang Y, Di K (2019) A new rgb-d slammethod with moving object detection for dynamic indoor scenes.Remote Sens 11:1143129. Wang X, Vozar S, Olson E (2017) FlAG: feature-based localization between air and ground.In: 2017 IEEE international conference on robotics and automation (ICRA), pp 3178–3184.https ://doi.org/10.1109/ICRA.2017.79893 60130. Wang Z, Zhang Q, Li J, Zhang S, Liu J (2019) A computationally efficient semantic slam solution for dynamic scenes.Remote Sens 11(11):1363.https ://doi.org/10.3390/rs111 11363131. Weikersdorfer D, Adrian DB, Cremers D, Conradt J (2014) Event- based 3d slam with a depth-augmented dynamic vision sen- sor.In: 2014 IEEE international conference on robotics and automation (ICRA), pp 359–364.https ://doi.org/10.1109/ ICRA.2014.69068 82132. Weikersdorfer D, Hoffmann R, Conradt J (2013) Simultaneous localization and mApping for event-based vision systems.In: Chen M, Leibe B, Neumann B (eds) Computer vision systems.Springer, Berlin, pp 133–142133. Williams B, Klein G, Reid I (2007) Real-time slam relocalisation.In: 2007 IEEE 11th international conference on computer vision, pp 1–8.https ://doi.org/10.1109/ICCV.134. Williams R, Konev B, Coenen F (2015) Scalable distributed col- laborative tracking and mApping with micro aerial vehicles.In: 2015 IEEE/RSJ international conference on intelligent robots and systems (IROS), pp 3092–3097.https ://doi.org/10.1109/ IROS.2015.73538 04135. Xia Y, Li J, Qi L, Yu H, Dong J (2017) An evaluation of deep learn- ing in loop closure detection for visual slam.In: 2017 IEEE inter- national conference on internet of things (iThings) and IEEE green computing and communications (GreenCom) and IEEE cyber, physical and social computing (CPSCom) and IEEE smart data (SmartData), pp 85–91.https ://doi.org/10.1109/iThin gs- Green Com-CPSCo m-Smart Data.2017.18136. Yang S, Maturana D, Scherer S (2016) Real-time 3d scene layout from a single imAGe using convolutional neural net- works.In: 2016 IEEE international conference on robotics and automation (ICRA), pp 2183–2189.https ://doi.org/10.1109/ ICRA.2016.74873 68137. Yang S, Scherer S (2019) Monocular object and plane slam in structured environments.IEEE Robot Autom Lett 4(4):3145– 3152. https ://doi.org/10.1109/LRA.2019.29248 48138. Yang S, Song Y, Kaess M, Scherer S (2016) Pop-up slam: seman-tic monocular plane slam for low-texture environments.In: 2016 IEEE/RSJ international conference on intelligent robots and systems (IROS), pp 1222–1229.https ://doi.org/10.1109/ IROS.2016.77592 04139. Younes G, Asmar D, Shammas E, Zelek J (2017) Keyframe- based monocular slam: design, survey, and future directions.Robot Auton Syst 98:67–88.https ://doi.org/10.1016/j.robot .2017.09.010140. Younes G, Asmar DC, Shammas EA (2016) A survey on non- filter-based monocular visual SLAM systems.CoRR arXiv :1607.00470141. Yousif K, Bab-Hadiashar A, Hoseinnezhad R (2015) An overview to visual odometry and visual slam: Applications to mobile robotics.Intel Ind Syst 1(4):289–311.https ://doi.org/10.1007/ s4090 3-015-0032-7142. Zhang AS, Liu BS, Zhang CJ, Wang DZ, Wang EX (2017) Fast initialization for feature-based monocular slam.In: 2017 IEEE international conference on imAGe processing (ICIP), pp 2119– 2123. https ://doi.org/10.1109/ICIP.2017.82966 56143. Zhang W, Liu G, Tian G (2019) A coarse to fine indoorvisual localization method using environmental semantic informa- tion.IEEE Access 7:21963–21970.https ://doi.org/10.1109/ ACCES S.2019.28990 49144. Zhang X, Wang W, Qi X, Liao Z, Wei R (2019) Point-plane slam using supposed planes for indoor environments.Sensors 19:3795145. Zhao L, Huang S, Sun Y, Yan L, Dissanayake G (2015) Paral- laxba: bundle adjustment using parallax angle feature para- metrization.Int J Robot Res 34(4–5):493–516.https ://doi.org/10.1177/02783 64914 55158 3

出版商說明 Springer Nature 對已出版地圖和機構附屬機構的管轄權主張保持中立。

本文僅做學術分享,如有侵權,請聯(lián)系刪文。

3D視覺精品課程學習網(wǎng)址:https://www.3dcver.com

網(wǎng)站內(nèi)3D視覺精品課程包括:

1、國內(nèi)首個面向自動駕駛領域的多傳感器數(shù)據(jù)融合系統(tǒng)課程

2、徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進

3、深入剖析激光SLAM的關鍵算法與實現(xiàn)(LOAM 和 LEGO-LOAM )

4、國內(nèi)首個面向工業(yè)級點云處理的實戰(zhàn)課程

5、徹底搞懂視覺-慣性SLAM:VINS-Fusion原理精講與源碼剖析

6、徹底剖析室內(nèi)、室外激光SLAM關鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM+LIO-SAM)

7、徹底剖析激光-視覺-IMU-GPS融合SLAM算法:理論推導、代碼講解和實戰(zhàn)

8、自動駕駛中的深度學習模型部署實戰(zhàn)

9、相機模型與標定系統(tǒng)課程(單目+雙目+魚眼+深度相機)

10、單目深度估計方法: 理論與實戰(zhàn)

11、面向自動駕駛領域的3D點云深度學習目標檢測課程

12、從零搭建一套結構光3D重建系統(tǒng) 【理論+源碼+實踐】

13、四旋翼飛行器:算法與實戰(zhàn)

14、(第二期)徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

15、國內(nèi)首個3D視覺缺陷檢測:理論、源碼與實戰(zhàn)

16、(第二期)徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

更多干貨

歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計算機視覺、深度學習、vSLAM、激光SLAM、立體視覺、自動駕駛、點云處理、三維重建、多視圖幾何、結構光、多傳感器融合、VR/AR、學術交流、求職交流等。工坊致力于干貨輸出,為3D領域貢獻自己的力量!歡迎大家一起交流成長~

添加小助手微信:dddvision,備注學校/公司+姓名+研究方向即可加入工坊一起學習進步。


綜述 | 基于特征的視覺同步定位和建圖的評論 (共 條)

分享到微博請遵守國家法律
天气| 民勤县| 江城| 宁海县| 舞钢市| 杭州市| 城固县| 宜兰县| 堆龙德庆县| 麦盖提县| 信丰县| 乌拉特后旗| 府谷县| 金寨县| 柘城县| 漳州市| 曲阳县| 望都县| 陈巴尔虎旗| 汉中市| 汉寿县| 中牟县| 乌苏市| 蓬溪县| 咸阳市| 土默特左旗| 四子王旗| 牟定县| 济宁市| 历史| 龙岩市| 双峰县| 惠州市| 休宁县| 东方市| 张家界市| 沭阳县| 万源市| 策勒县| 定西市| 太和县|