最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

具身智能:大語言模型賦能機械臂規(guī)劃控制

2023-08-15 16:47 作者:西湖大學(xué)空中機器人  | 我要投稿

一、前言

大規(guī)模預(yù)訓(xùn)練語言模型(Large Language Model, LLM)的出現(xiàn)推動了機器人領(lǐng)域的發(fā)展。這些模型通過在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓(xùn)練,可以學(xué)習(xí)到豐富的語言知識和語義表示。然后,這些模型可以通過微調(diào)來適應(yīng)特定的任務(wù)或領(lǐng)域。自然語言是一種大眾掌握的技能。通過使用自然語言與計算機交互,降低了新手的使用難度,直觀有效,降低了學(xué)習(xí)成本[1]。本文將以機械臂為例介紹一下LLM在機器人中的應(yīng)用。

LLM在機械臂中的應(yīng)用主要有以下幾方面

語音指令控制將用戶的語音指令轉(zhuǎn)化為機械臂可以理解的指令。通過語音識別技術(shù),將用戶的語音輸入轉(zhuǎn)換為文本形式,然后利用LLM分析文本指令的意圖和要求,使得用戶可以直接通過語音指令控制機械臂。

動作規(guī)劃與執(zhí)行幫助機械臂進行動作規(guī)劃和執(zhí)行。通過訓(xùn)練LLM,機械臂可以學(xué)習(xí)識別和理解自然語言中的動作指令,如“抓取物體”、“放置物體”、“旋轉(zhuǎn)臂”等?;谶@些指令,機械臂可以進行運動規(guī)劃,確定適當(dāng)?shù)年P(guān)節(jié)角度和路徑,以完成所需的操作任務(wù)。

上下文理解與智能交互LLM的上下文理解能力可以提高機械臂的交互性和智能性,提升機械臂的長期推理能力。機械臂可以通過LLM分析用戶的語音指令,并結(jié)合上下文信息進行更準(zhǔn)確的理解和響應(yīng)。

多模態(tài)交互與其他傳感器數(shù)據(jù)進行融合,實現(xiàn)多模態(tài)交互。機械臂可以通過LLM分析語音指令的同時,結(jié)合視覺傳感器獲取的圖像信息,進一步理解和識別目標(biāo)物體的特征和位置。這種多模態(tài)的交互方式可以提高機械臂的感知能力和操作精度。

二、語言模型在機械臂操縱中的實際應(yīng)用

1. 谷歌PaLM-E應(yīng)用于機器人操縱

谷歌將PaLM-E(Pathways Language Model with Embodied)與機器人操縱相結(jié)合,將真實世界的傳感器模態(tài)結(jié)合到語言模型中,建立單詞和感知之間的聯(lián)系[2]。PaLM-E通過利用視覺、連續(xù)狀態(tài)估計和文本輸入編碼信息,結(jié)合預(yù)訓(xùn)練的大型語言模型,對移動操作任務(wù)的編碼執(zhí)行端到端的訓(xùn)練。PaLM-E的輸入包括文本和(多個)連續(xù)觀測。與這些觀察結(jié)果相對應(yīng)的多模態(tài)表征與文本交織,形成多模態(tài)句子。PaLM-E的輸出是由模型自動回歸生成的文本,它可以是一個問題的答案,也可以是PaLM-E以文本形式產(chǎn)生的一系列由機器人執(zhí)行的決策。

PaLM-E已經(jīng)成功應(yīng)用于多個機器人操縱任務(wù)。圖1執(zhí)行了一個長期指令“從抽屜里給我拿米?!?。PaLM-E進行長期推理規(guī)劃,推理出多個子步驟,包括:到達抽屜處、打開抽屜、將米粒拿出抽屜、帶給使用者、放下物品。任務(wù)的提示結(jié)構(gòu)包括1.人的指令2.機器人的狀態(tài)反饋3.視覺信息。機器人在操作中表現(xiàn)了比較強的抗干擾能力,在將米粒袋拿出抽屜過程中,不斷受到人類干擾,將米粒袋放回抽屜,機器人依舊能夠重新找到米粒袋并繼續(xù)執(zhí)行任務(wù),表現(xiàn)出較強的魯棒性。

圖1:PaLM-E 作業(yè)流程
圖2 PaLM-E作業(yè)示例


2. Text2Motion應(yīng)用于機器人操縱

Text2Motion是一種應(yīng)用于機器人長期推理的順序操作任務(wù)的自然語言框架[3]。在給定語言指令的情況下,Text2Motion構(gòu)建一個任務(wù)和策略級別的規(guī)劃,并不斷驗證其是否滿足目標(biāo)需求來驗證規(guī)劃的準(zhǔn)確性,使用Q函數(shù)中編碼的可行性啟發(fā)法來指導(dǎo)大型語言模型的任務(wù)規(guī)劃。

使用Text2Motion進行規(guī)劃包括三個步驟:

1)LLM將長期規(guī)劃分割,推斷出幾個需要完成的子目標(biāo),以滿足人類的指令

2)使LLM、獨立學(xué)習(xí)技能庫(拿物品、拖動物品等底層接口)和幾何可行性計劃器來計算可行規(guī)劃

3)當(dāng)推斷的子目標(biāo)目標(biāo)滿足動力學(xué)約束時,執(zhí)行可行的規(guī)劃

Text2Motion返回結(jié)果是滿足所提供的自然語言指令和動力學(xué)可行的規(guī)劃結(jié)果。其整體的規(guī)劃流程如圖3所示,當(dāng)人類發(fā)出指令“將兩個原色(紅、黃、藍色方塊)物體放在架子上”,機器人在場景描述和語言指令上應(yīng)用符號推理,主要過程如下:首先預(yù)測了三種組合方式(紅黃、紅藍、藍黃),對于紅色來說,預(yù)測抓取的得分比較高(0.91),而黃色抓取得分很低(0.16),所以機械臂直接對紅色進行抓取并繼續(xù)推斷將紅色物體放置在桌子上的可行性;而對于黃色和藍色抓取的得分都比較低,對于鉤子的抓取得分比較高,所以考慮使用鉤子將物體勾近,再使用機械臂抓取物體,將物體放到架子上。如圖3和圖4所示,最終規(guī)劃的結(jié)果為:1. 抓取紅色物體;2. 將紅色物體放到架子上;3. 抓取鉤子;4. 使用鉤子勾藍色物體;5. 將鉤子放在桌子上;6. 抓取藍色物體;7. 將藍色物體放到架子上。Text2Motion在機械臂長期推理操縱任務(wù)中的成功率為82%。

圖3 Text2Motion應(yīng)用于機械臂的規(guī)劃流程


圖4 Text2Motion執(zhí)行“將兩個原色物體放在架子上”



3. LLM應(yīng)用于機器人規(guī)劃校正

LLM同樣被用于機器人規(guī)劃中的實時校正,修正可以采取新的優(yōu)化函數(shù)、新的約束(例如避免特定對象)或規(guī)劃算法提示(例如訪問特定航路點)的形式[4]。以機器人吸塵器為例,機器人的目標(biāo)是打掃房子,但可能需要改變目標(biāo)(“只打掃客廳?!保胂拗疲ā安灰M入浴室!”)或在機器人被卡住時引導(dǎo)它(“走到墻的右端進入錯過的房間。”),自然語言反饋以改變其行為的各個方面或修改其運動目標(biāo)。

將LLM與傳統(tǒng)的規(guī)劃算法相結(jié)合,建模為可以與任務(wù)成本相結(jié)合的殘差成本函數(shù),運動規(guī)劃的目標(biāo)函數(shù)采用基于優(yōu)化的規(guī)劃方法或是控制框架中的成本函數(shù)的形式,如圖5所示。用戶允許在執(zhí)行過程中的實時修改機器人的目標(biāo),或是在運動優(yōu)化過程中實時引入額外的約束,通過人機交互方法提升機器人的規(guī)劃性能,起到規(guī)劃軌跡校正的作用。

圖5 基于自然語言的機器人規(guī)劃校正框架


基于LLM的修正框架可以與常用的運動規(guī)劃框架集成,如避免碰撞、關(guān)節(jié)限制和平滑度。它還允許按順序或在給定時間對成本進行分層,允許時變校正。能夠組合與先前學(xué)習(xí)的任務(wù)或更正相關(guān)聯(lián)的成本,以在更高的抽象級別上表示新任務(wù)。


三、總結(jié)

通過LLM,用戶可以使用自然語言與機器人交互,無需專門的編程技能或復(fù)雜的界面操作,這種自然交互方式使得機器人的操作更加直觀、簡單,降低了使用門檻。相比傳統(tǒng)的編程接口或遙控器,語音指令更加直觀和高效,能夠快速傳達用戶的意圖和要求。同時,LLM的應(yīng)用使得機器人具備一定的智能化能力,通過結(jié)合上下文信息和語義理解,能夠更準(zhǔn)確地理解用戶的指令,并做出相應(yīng)的反應(yīng)和決策,這種智能化能力使得機器人更加智能、靈活,能夠適應(yīng)復(fù)雜的操作場景。

未來的LLM將會更加準(zhǔn)確地理解用戶的語義和意圖。可以更加緊密地與其他傳感器數(shù)據(jù)進行融合。通過結(jié)合視覺、觸覺等傳感器的信息,機器人可以更全面地感知環(huán)境和目標(biāo),進一步提高操作的精確性和安全性。LLM的應(yīng)用有望與強化學(xué)習(xí)技術(shù)相結(jié)合,使得機器人能夠通過與環(huán)境的交互,自主學(xué)習(xí)并改進操作策略。機器人可以通過與用戶的對話和反饋來優(yōu)化自己的動作規(guī)劃和執(zhí)行過程,實現(xiàn)更智能的決策和操作。在未來,多個不同種類的機器人可以通過語音指令和對話系統(tǒng)進行協(xié)作,共享任務(wù)信息、交流操作狀態(tài),實現(xiàn)復(fù)雜的協(xié)同操作。

參考資料

[1] Shen, Leixian, et al. “Towards natural language interfaces for data visualization: A survey.” IEEE transactions on visualization and computer graphics (2022).

[2] Driess, Danny, et al. “Palm-e: An embodied multimodal language model.” arXiv preprint arXiv:2303.03378 (2023).

[3] Lin, Kevin, et al. “Text2motion: From natural language instructions to feasible plans.” arXiv preprint arXiv:2303.12153 (2023).

[4] Sharma, Pratyusha, et al. “Correcting robot plans with natural language feedback.” arXiv preprint arXiv:2204.05186 (2022).

封面:https://www.cnet.com/pictures/see-googles-ai-powered-robot-at-work-in-a-kitchen/


本文共2689字

申請文章授權(quán)請聯(lián)系后臺運營人員


具身智能:大語言模型賦能機械臂規(guī)劃控制的評論 (共 條)

分享到微博請遵守國家法律
洪雅县| 义马市| 黑河市| 大同市| 桦川县| 张家口市| 丰原市| 昌图县| 特克斯县| 左贡县| 怀化市| 永吉县| 广汉市| 抚州市| 石门县| 浙江省| 临武县| 张北县| 名山县| 卢龙县| 洛隆县| 德钦县| 彭山县| 柳江县| 阜平县| 泰安市| 丰镇市| 堆龙德庆县| 虎林市| 凤凰县| 安阳市| 北安市| 雅江县| 高淳县| 西丰县| 梅河口市| 遂川县| 左贡县| 竹山县| 佳木斯市| 大渡口区|