華盛頓大學(xué)等開源:具身視覺模態(tài)不變的視覺里程計(jì)CVPR 2023

以下內(nèi)容來(lái)自小六的機(jī)器人SLAM學(xué)習(xí)圈知識(shí)星球每日更新內(nèi)容
點(diǎn)擊領(lǐng)取學(xué)習(xí)資料 → 機(jī)器人SLAM學(xué)習(xí)資料大禮包
#論文# #開源# CVPR 2023|開源模型:具身視覺模態(tài)不變的視覺里程計(jì)
【Modality-invariant Visual Odometry for Embodied Vision】
作者單位:華盛頓大學(xué) 洛桑聯(lián)邦理工學(xué)院(EPFL)
開源代碼:GitHub-memmelmaVO-Transformer
項(xiàng)目主頁(yè):https://memmelma.github.io/vot/
? ?在現(xiàn)實(shí)、嘈雜的環(huán)境中有效地定位智能體對(duì)于許多具身視覺任務(wù)至關(guān)重要。視覺里程計(jì)(VO)是一種在室內(nèi)場(chǎng)景中可靠實(shí)用的方法,可以替代不可靠的GPS導(dǎo)航。雖然基于SLAM的方法性能優(yōu)越且不需要依賴大量的數(shù)據(jù),但與基于學(xué)習(xí)的方法相比,在處理噪聲和傳感器配置變化方面,它們的靈活性和魯棒性較差。然而,近期的深度視覺里程計(jì)VO模型,在訓(xùn)練過(guò)程中給自己設(shè)置了限制,只能使用固定的輸入模態(tài),例如RGB和深度信息;同時(shí)它的訓(xùn)練樣本數(shù)量達(dá)到了數(shù)百萬(wàn)。當(dāng)傳感器失效、傳感器配置發(fā)生變化或可用資源(例如功耗)的限制而有意放棄某些模態(tài)時(shí),這些模型會(huì)災(zāi)難性地失敗。此外,在沒有模擬器訪問權(quán)限或者適合進(jìn)行微調(diào)的已有模型的情況下,從零開始訓(xùn)練這些模型會(huì)更加昂貴。雖然這些場(chǎng)景在仿真中大多被忽略,但這些因素通常會(huì)阻礙模型在實(shí)際應(yīng)用中的可重用性。? ? ? ?本文提出了一種基于Transformer的模態(tài)不變視覺里程計(jì)Modality-Invariant VO方法,可以適配不同類型或者變化的導(dǎo)航傳感器配置。本文的模型在僅使用一小部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練的情況下,性能也優(yōu)于以前的方法。本文希望這種方法能開啟通向更廣泛的實(shí)際應(yīng)用的大門,從靈活、可學(xué)習(xí)的視覺里程計(jì)模型中受益。

以上內(nèi)容來(lái)自小六的機(jī)器人SLAM學(xué)習(xí)圈知識(shí)星球每日更新內(nèi)容