清華大學提出首個自然語言級別的感知SLAM系統(tǒng)，利用ChatGPT！

2023-04-24 13:50 作者:計算機視覺life 0人讀過 | 我要投稿

以下內容來自小六的機器人SLAM學習圈知識星球每日更新內容

點擊領取學習資料 → 機器人SLAM學習資料大禮包

#論文# LP-SLAM: Language-Perceptive RGB-D SLAM system based on Large Language Model

論文地址：https://arxiv.org/abs/2303.10089

作者單位：清華大學?

? SLAM是一項使自主機器人能夠感知周圍環(huán)境的關鍵技術。隨著研究的深入，SLAM系統(tǒng)可以實現對環(huán)境的更高層次的感知，包括語義和文本層面，但目前的作品在實現自然語言層面對世界的感知方面能力有限。為了解決這一局限性，我們提出了LP-SLAM，這是第一個利用大型語言模型(LLMS)的語言感知SLAM系統(tǒng)。

? LP-SLAM有兩個主要特點：(A)它可以檢測場景中的文本，并在跟蹤和地圖繪制階段確定它是否代表要存儲的地標；(B)它可以理解人類的自然語言輸入，并根據生成的地圖提供指導。給出了LLM在系統(tǒng)中的三個應用，包括文本聚類、地標判斷和自然語言導航。我們提出的系統(tǒng)代表了基于LLMS的SLAM領域的進步，并為自主機器人以更自然和直觀的方式與環(huán)境交互開辟了新的可能性。

本文貢獻如下：

1、作為第一個自然語言級的SLAM系統(tǒng)，LP-SLAM在三個主要方面具有語言感知能力：單文本判斷、多文本聚類和自然語言驅動的導航導航。檢測到的被判定為地標的文本將在地圖繪制階段存儲在地圖中。根據用戶在自然語言中的需求，SLAM系統(tǒng)告訴用戶到哪里去完成需求。

2、在建圖階段，將LMM的代表模型Chat-GPT引入LP-SLAM，用于處理從基于深度神經網絡的場景極端認知(STR)模塊中提取的文本信息。Chat-GPT還用于連接用戶的自然語言和SLAM系統(tǒng)的導航數據。我們將演示如何將ChatGPT用作系統(tǒng)中的三個不同的關鍵功能。

3、引入了受人類認知啟發(fā)的技術來處理STR誤檢和誤識的情況。相似度分類策略是為了提高對文本誤識別的魯棒性而設計的。設計了一種受人類概念啟發(fā)的長短期記憶策略，用于處理誤檢情況，減少計算量。

4、我們在模擬超級購物中心的環(huán)境中進行了實驗，其中關鍵的地標是店名。結果表明，我們的LP-SLAM具有提高自主機器人以更自然、更直觀的方式與環(huán)境交互的能力的潛力，為未來的研究提供了一個很有前途的途徑。