加州大學伯克利分校開源ViNT:視覺導航的基礎模型

以下內(nèi)容來自小六的機器人SLAM學習圈知識星球每日更新內(nèi)容
點擊領取學習資料 → 機器人SLAM學習資料大禮包
#論文##開源# arxiv| 加州大學伯克利分校開源ViNT:視覺導航的基礎模型
【ViNT: A Foundation Model for Visual Navigation】
開源項目:ViNTAFoundationModelforVisualNavigation
文章鏈接: 230614846ViNTAFoundationModelforVisualNavigation
本文介紹了“Visual Navigation Transformer”(ViNT),這是一個旨在將通用預訓練模型的成功應用于基于視覺的機器人導航的基礎模型。通常,通用預訓練模型通過在大規(guī)模和多樣化的數(shù)據(jù)集上進行弱監(jiān)督訓練,使用比任何單個下游應用所需的數(shù)據(jù)集更多的訓練數(shù)據(jù),從而使從頭開始訓練變得可行。ViNT是使用適用于任何導航數(shù)據(jù)集的通用目標達成目標進行訓練的,并采用了靈活的基于Transformer的架構(gòu),以學習導航效益并實現(xiàn)對各種下游導航任務的高效適應。
ViNT的訓練過程包括暴露于各種導航場景,使其能夠從多樣化的數(shù)據(jù)集中學習。這種弱監(jiān)督設置使模型僅通過提供大致目標的數(shù)據(jù)進行訓練,從而使ViNT能夠很好地推廣到未見過的環(huán)境和任務。通過利用預訓練過程和Transformer架構(gòu)的適應性,ViNT旨在克服僅依靠有限數(shù)據(jù)從頭開始訓練基于視覺的機器人導航模型所面臨的限制。它為增強基于視覺的導航系統(tǒng)在機器人領域中的泛化能力和效率提供了一個有前景的方法,可能使其能夠在各種實際場景中有效運行。
ViNT是在多個現(xiàn)有導航數(shù)據(jù)集上進行訓練的,這些數(shù)據(jù)集包括來自各種不同機器人平臺的數(shù)百小時的機器人導航數(shù)據(jù)。實驗證明,ViNT表現(xiàn)出良好的遷移效果,勝過在較窄數(shù)據(jù)集上訓練的專家模型。ViNT可以通過擴展性的目標生成策略進行增強,以探索新的環(huán)境,并且當配備了遠程啟發(fā)式方法時,可以解決長距離的導航問題。ViNT還可以通過受提示微調(diào)(prompt-tuning)啟發(fā)的技術來適應新的任務規(guī)范,其中目標編碼器被替換為另一個任務形式的編碼(例如,GPS航點或逐步轉(zhuǎn)向指示),并嵌入到相同的目標令牌空間中。這種靈活性和適應多種下游問題領域的能力,使ViNT成為移動機器人領域中一種有效的基礎模型。









以上內(nèi)容來自小六的機器人SLAM學習圈知識星球每日更新內(nèi)容
最后介紹一下我們最近的幾個學習活動:
1、從零掌握GNSS、RTK定位
2、從零開始ChatGPT編程
3、視覺動態(tài)SLAM方向全梳理
4、快速入門激光雷達慣性SLAM-FastLio2
5、超棒的機器人SLAM圈!