KTH 與法國NAVER歐洲實驗室探討學習在導航中信任誰:在經(jīng)典和神經(jīng)規(guī)劃之間動
#論文# IROS2023|KTH 與法國NAVER歐洲實驗室探討學習在導航中信任誰:在經(jīng)典和神經(jīng)規(guī)劃之間動態(tài)切換
【Learning whom to trust in navigation: dynamically switching between classical and neural planning】
文章鏈接:[2307.16710] Learning whom to trust in navigation:...
地面機器人的導航通常通過定位與建圖(SLAM)后跟經(jīng)典規(guī)劃在動態(tài)創(chuàng)建的地圖上進行解決,或者通過機器學習(ML)來處理,常常是通過強化學習(RL)或模仿學習(IL)的端到端訓練。最近,模塊化設計取得了令人期待的結(jié)果,并且提出了將ML與經(jīng)典規(guī)劃相結(jié)合的混合算法?,F(xiàn)有的方法通過手工設計的函數(shù)來實現(xiàn)這些組合,這不能充分利用策略之間的互補性和場景結(jié)構(gòu)與規(guī)劃性能之間的復雜規(guī)律。
我們的工作基于這樣一個假設:神經(jīng)規(guī)劃器和經(jīng)典規(guī)劃器的優(yōu)勢和劣勢遵循某些規(guī)律,這些規(guī)律可以從訓練數(shù)據(jù)中學習,特別是從交互中學習。這基于這樣的假設:訓練過的規(guī)劃器和經(jīng)典規(guī)劃背后的建圖算法都會因場景的語義而導致失敗案例,而且這種依賴是可學習的:例如,某些區(qū)域、物體或場景結(jié)構(gòu)比其他區(qū)域更容易重建。我們提出了一種分層方法,由一個高層規(guī)劃器組成,它在經(jīng)典規(guī)劃器和神經(jīng)規(guī)劃器之間動態(tài)切換。我們在仿真中完全訓練所有神經(jīng)策略,并在LoCoBot機器人上的仿真和實際實驗中評估該方法,在性能方面取得了顯著的增益,特別是在真實環(huán)境中。我們還就高層規(guī)劃器所利用的數(shù)據(jù)規(guī)律的本質(zhì)進行了定性推測。