即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別
原文鏈接:即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA
論文題目:Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space
來(lái)自:東南大學(xué)自動(dòng)化學(xué)院
作者:Lin?Wu, Teng Wang and Changyin Sun
鏈接: https://doi.org/10.1109/LSP.2021.3123907
代碼地址(即將開(kāi)源):https://github.com/fiftywu/Multimodal-VPR
論文摘要
視覺(jué)位置識(shí)別是機(jī)器人領(lǐng)域中必不可少且具有挑戰(zhàn)性的問(wèn)題之一。在這篇快報(bào)中,我們首次探索了在動(dòng)態(tài)不變空間中使用語(yǔ)義和視覺(jué)的多模態(tài)融合來(lái)改善動(dòng)態(tài)環(huán)境中的位置識(shí)別。首先,我們?cè)O(shè)計(jì)了一種新穎的深度學(xué)習(xí)架構(gòu)來(lái)生成靜態(tài)語(yǔ)義分割,并直接從相應(yīng)的動(dòng)態(tài)圖像中恢復(fù)靜態(tài)圖像。然后,我們利用空間金字塔匹配模型(SPM)將靜態(tài)語(yǔ)義分割編碼為特征向量,而對(duì)于靜態(tài)圖像,則使用流行的詞袋模型(BoW)進(jìn)行編碼。在上述多模態(tài)特征的基礎(chǔ)上,我們通過(guò)語(yǔ)義和視覺(jué)編碼的聯(lián)合相似度來(lái)衡量查詢圖像與目標(biāo)地標(biāo)之間的相似度。大量實(shí)驗(yàn)證明了所提出的方法在動(dòng)態(tài)環(huán)境中的位置識(shí)別的有效性和魯棒性。

視覺(jué)位置識(shí)別
視覺(jué)位置識(shí)別(VPR)作為 SLAM 系統(tǒng)的關(guān)鍵組成部分,是一項(xiàng)可以幫助機(jī)器人確定其是否位于先前訪問(wèn)過(guò)的地方的任務(wù)。當(dāng)前的工作通常將其視為將當(dāng)前觀察與一組參考地標(biāo)相匹配的圖像檢索任務(wù),并設(shè)計(jì)各種特征描述符來(lái)測(cè)量地標(biāo)相似性。這些方法通常假定系統(tǒng)在靜態(tài)環(huán)境中運(yùn)行, 然而,現(xiàn)實(shí)世界是復(fù)雜而動(dòng)態(tài)的。動(dòng)態(tài)物體的存在使得不同時(shí)刻的場(chǎng)景外觀不一致,從而增加了特征匹配的誤差。
動(dòng)態(tài)不變性感知
動(dòng)態(tài)不變性感知是指在動(dòng)態(tài)場(chǎng)景下,將其中動(dòng)態(tài)的內(nèi)容(如行人、車(chē)輛)消除并轉(zhuǎn)換成與之相對(duì)應(yīng)的靜態(tài)內(nèi)容。典型的工作有《Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM》(IEEE Transactions on Robotics,2020),我們?cè)诖嘶A(chǔ)上做了一點(diǎn)改進(jìn),提出了一種粗糙到精細(xì)的兩階段動(dòng)靜轉(zhuǎn)換模型《A Coarse-to-fine approach for Dynamic-to-static Image Translation》(Pattern Recognition, 2021)。而在IEEE-SPL這篇快報(bào)中,我們?cè)O(shè)計(jì)一種新穎的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)從輸入的靜態(tài)場(chǎng)景圖像直接推理出靜態(tài)語(yǔ)義(即靜態(tài)語(yǔ)義分割圖)和的靜態(tài)圖像。特別地,我們還將靜態(tài)語(yǔ)義作為先驗(yàn)用來(lái)提高靜態(tài)圖像的生成質(zhì)量。靜態(tài)語(yǔ)義分割結(jié)果與靜態(tài)圖像轉(zhuǎn)換效果如圖2、圖3所示(實(shí)驗(yàn)數(shù)據(jù)集由無(wú)人駕駛模擬器CARLA創(chuàng)建)。


視覺(jué)位置識(shí)別實(shí)驗(yàn)
為了與當(dāng)前主流的圖像轉(zhuǎn)換方法的VPR召回率進(jìn)行比較,我們使用 Pix2Pix、MGAN、SRMGAN 和 SSGGNet 來(lái)恢復(fù)的靜態(tài)圖像,繼而從中提取 BoW 特征來(lái)測(cè)量圖像相似性。表中給出了不同模型的召回準(zhǔn)確率,相比之下,我們的方法同時(shí)利用了 BoW 和 SPM 編碼,表現(xiàn)最好,并且大大提高了第二名SSGGNet-BoW的召回率,這充分體現(xiàn)了基于 SPM 的語(yǔ)義特征的重要性。此外,SSGGNet-BoW 優(yōu)于 Pix2Pix-BoW、MGAN-BoW 和 SRMGAN-BoW,這進(jìn)一步驗(yàn)證了利用靜態(tài)語(yǔ)義指導(dǎo)靜態(tài)圖像生成的有效性。

相關(guān)論文
獨(dú)家重磅課程!
1、?VINS:Mono+Fusion?SLAM面試官:看你簡(jiǎn)歷上寫(xiě)精通VINS,麻煩現(xiàn)場(chǎng)手推一下預(yù)積分!
2、VIO課程:VIO最佳開(kāi)源算法:ORB-SLAM3超全解析課程重磅升級(jí)!
3、圖像三維重建課程(第2期):視覺(jué)幾何三維重建教程(第2期):稠密重建,曲面重建,點(diǎn)云融合,紋理貼圖
4、重磅來(lái)襲!基于LiDAR的多傳感器融合SLAM 系列教程:LOAM、LeGO-LOAM、LIO-SAM
5、系統(tǒng)全面的相機(jī)標(biāo)定課程:?jiǎn)文?魚(yú)眼/雙目/陣列 相機(jī)標(biāo)定:原理與實(shí)戰(zhàn)
6、視覺(jué)SLAM必備基礎(chǔ)(第2期):視覺(jué)SLAM必學(xué)基礎(chǔ):ORB-SLAM2源碼詳解
7、深度學(xué)習(xí)三維重建課程:基于深度學(xué)習(xí)的三維重建學(xué)習(xí)路線
8、激光定位+建圖課程:激光SLAM框架Cartographer課程90+視頻全部上線!適合服務(wù)機(jī)器人!
鏈接:即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA
全國(guó)最棒的SLAM、三維視覺(jué)學(xué)習(xí)社區(qū)↓
鏈接:即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA
技術(shù)交流微信群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群,請(qǐng)?zhí)砑游⑿盘?hào) chichui502 或掃描下方加群,備注:”名字/昵稱+學(xué)校/公司+研究方向“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~
投稿、合作也歡迎聯(lián)系:simiter@126.com
鏈接:即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA
掃描關(guān)注視頻號(hào),看最新技術(shù)落地及開(kāi)源方案視頻秀?↓
視頻號(hào)鏈接:即將開(kāi)源!基于動(dòng)態(tài)不變性感知的多模態(tài)視覺(jué)位置識(shí)別https://mp.weixin.qq.com/s/P5hpmdZiDkpqpDMsXsIMoA
—? ?版權(quán)聲明? —
本公眾號(hào)原創(chuàng)內(nèi)容版權(quán)屬計(jì)算機(jī)視覺(jué)life所有;從公開(kāi)渠道收集、整理及授權(quán)轉(zhuǎn)載的非原創(chuàng)文字、圖片和音視頻資料,版權(quán)屬原作者。如果侵權(quán),請(qǐng)聯(lián)系我們,會(huì)及時(shí)刪除。