清華大學提出首個自然語言級別的感知SLAM系統(tǒng),利用ChatGPT!

以下內容來自小六的機器人SLAM學習圈知識星球每日更新內容
點擊領取學習資料 → 機器人SLAM學習資料大禮包
#論文# LP-SLAM: Language-Perceptive RGB-D SLAM system based on Large Language Model
論文地址:https://arxiv.org/abs/2303.10089
作者單位:清華大學?
? SLAM是一項使自主機器人能夠感知周圍環(huán)境的關鍵技術。隨著研究的深入,SLAM系統(tǒng)可以實現對環(huán)境的更高層次的感知,包括語義和文本層面,但目前的作品在實現自然語言層面對世界的感知方面能力有限。為了解決這一局限性,我們提出了LP-SLAM,這是第一個利用大型語言模型(LLMS)的語言感知SLAM系統(tǒng)。
? LP-SLAM有兩個主要特點:(A)它可以檢測場景中的文本,并在跟蹤和地圖繪制階段確定它是否代表要存儲的地標;(B)它可以理解人類的自然語言輸入,并根據生成的地圖提供指導。給出了LLM在系統(tǒng)中的三個應用,包括文本聚類、地標判斷和自然語言導航。我們提出的系統(tǒng)代表了基于LLMS的SLAM領域的進步,并為自主機器人以更自然和直觀的方式與環(huán)境交互開辟了新的可能性。
本文貢獻如下:
1、作為第一個自然語言級的SLAM系統(tǒng),LP-SLAM在三個主要方面具有語言感知能力:單文本判斷、多文本聚類和自然語言驅動的導航導航。檢測到的被判定為地標的文本將在地圖繪制階段存儲在地圖中。根據用戶在自然語言中的需求,SLAM系統(tǒng)告訴用戶到哪里去完成需求。
2、在建圖階段,將LMM的代表模型Chat-GPT引入LP-SLAM,用于處理從基于深度神經網絡的場景極端認知(STR)模塊中提取的文本信息。Chat-GPT還用于連接用戶的自然語言和SLAM系統(tǒng)的導航數據。我們將演示如何將ChatGPT用作系統(tǒng)中的三個不同的關鍵功能。
3、引入了受人類認知啟發(fā)的技術來處理STR誤檢和誤識的情況。相似度分類策略是為了提高對文本誤識別的魯棒性而設計的。設計了一種受人類概念啟發(fā)的長短期記憶策略,用于處理誤檢情況,減少計算量。
4、我們在模擬超級購物中心的環(huán)境中進行了實驗,其中關鍵的地標是店名。結果表明,我們的LP-SLAM具有提高自主機器人以更自然、更直觀的方式與環(huán)境交互的能力的潛力,為未來的研究提供了一個很有前途的途徑。






以上內容來自小六的機器人SLAM學習圈 每日更新內容