具身智能2023最新突破性進展分享!附17篇論文和代碼
今天來聊聊人工智能領域近期的一個熱門研究方向——具身智能。
具身智能(Embodied Intelligence)指的是機器人或智能體通過感知、理解和交互來適應環(huán)境,并執(zhí)行任務的能力。與傳統(tǒng)的基于規(guī)則或符號的人工智能不同,具身智能強調(diào)將感知和行動相結(jié)合,使智能體能夠更好地理解其周圍的環(huán)境和與環(huán)境的互動。
具身智能被認為是通往通用人工智能的重要途徑,目前有關它的研究也已經(jīng)有了很多突破性進展,比如李飛飛團隊的VoxPoser系統(tǒng)。
學姐這回簡單整理了17篇具身智能創(chuàng)新性工作相關的論文,都是今年最新,只做了簡單介紹,建議大家查看原文仔細研讀。
掃碼添加小享,回復“具身智能”
免費領取全部論文+代碼合集

1.PaLM-E: An Embodied Multimodal Language Model
一個具身多模態(tài)語言模型
簡述:論文提出了一個具身多模態(tài)語言模型,通過將真實世界的連續(xù)傳感器模態(tài)直接融入語言模型中,實現(xiàn)了單詞和感知之間的聯(lián)系。實驗結(jié)果表明,PaLM-E可以處理來自不同觀察模態(tài)的各種具身推理任務,并在多個實現(xiàn)上表現(xiàn)出良好的效果。最大的PaLM-E-562B模型擁有562億個參數(shù),除了在機器人任務上進行訓練外,還是一個視覺語言通才,并在OK-VQA任務上取得了最先進的性能。

2.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
采用語言模型實現(xiàn)機器人操作的可組合3D價值圖
簡述:論文提出了一種名為VoxPoser的方法,利用大型語言模型和視覺語言模型來合成機器人軌跡。作者發(fā)現(xiàn),LLM可以通過自然語言指令推斷出環(huán)境和物體的能力和限制,并通過與VLM交互來組合3D值圖,將知識轉(zhuǎn)化為代理的觀察空間。這些組合的值圖然后被用于基于模型的規(guī)劃框架中,以零樣本合成閉環(huán)機器人軌跡,并對動態(tài)擾動具有魯棒性。

3.March in Chat: Interactive Prompting for Remote Embodied Referring Expression
遠程具身指代表達的交互提示
簡述:論文提出了一種名為March-in-Chat的模型,可以在REVERIE環(huán)境中與大型語言模型進行交互并動態(tài)規(guī)劃。REVERIE任務只提供高級指令給代理,類似于人類的實際命令,因此比其他VLN任務更具挑戰(zhàn)性。MiC模型通過ROASP實現(xiàn)了環(huán)境感知和動態(tài)規(guī)劃,可以基于新的視覺觀察調(diào)整導航計劃,并且能夠適應更大、更復雜的REVERIE環(huán)境。

4.Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
通過多專家討論實現(xiàn)視覺語言導航
簡述:論文提出了一種零樣本視覺語言導航框架DiscussNav,通過多專家討論來幫助代理進行導航。作者認為現(xiàn)有的VLN方法完全依賴單一模型自身的思考來進行預測,而即使是最先進的大型語言模型GPT4,在單輪自我思考中仍然難以處理多個任務。因此,作者借鑒了專家咨詢會議的思想,將具有不同能力的大模型作為領域?qū)<?,讓代理在每一步移動之前與這些專家積極討論,收集關鍵信息。實驗結(jié)果表明,該方法可以有效地促進導航,感知與指令相關的信息,糾正意外錯誤并篩選出不一致的運動決策。

5.Skill Transformer: A Monolithic Policy for Mobile Manipulation
用于移動操作的單體策略
簡述:論文提出了Skill Transformer,一種結(jié)合條件序列建模和技能模塊性來解決長視野機器人任務的方法。該方法在機器人的自適應和感知觀察上基于條件序列模型,并通過訓練使用Transformer架構和演示軌跡來預測機器人的高級技能(如導航、選擇、放置)和整體低級動作(如基座和手臂運動)。它保留了整個任務的可組合性和模塊性,通過一個技能預測模塊來推理低級動作并避免常見于模塊化方法的傳遞誤差。

6.See to Touch: Learning Tactile Dexterity through Visual Incentives
通過視覺激勵學習觸覺靈活性
簡述:論文提出了一種名為Tactile Adaptation from Visual Incentives (TAVI)的新框架,通過使用視覺獎勵來優(yōu)化基于觸覺的靈巧性策略,從而提高多指機器人的精確度、豐富性和靈活性。在六個具有挑戰(zhàn)性的任務中,TAVI使用四指Allegro機器人手實現(xiàn)了73%的成功率,比使用基于觸覺和視覺獎勵的策略提高了108%,比不使用基于觸覺觀察輸入的策略提高了135%。

7.Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents
用于執(zhí)行指令的具身代理的上下文感知規(guī)劃和環(huán)境感知記憶
簡述:論文提出了一種CAPEAM方法,用于改善具身代理在視覺導航和對象交互方面的表現(xiàn)。該方法考慮了執(zhí)行動作的后果,并將語義上下文和已交互物體的狀態(tài)變化納入一系列動作中,以推斷后續(xù)動作。實驗證明,該方法在各種指標上實現(xiàn)了最先進的性能,并在未見過的環(huán)境中獲得了大幅提高。

8.Synthesizing Event-Centric Knowledge Graphs of Daily Activities Using Virtual Space
使用虛擬空間合成以事件為中心的日?;顒又R圖譜
簡述:論文提出了一種新框架VirtualHome2KG,用于在虛擬空間中生成日常生活活動的合成知識圖譜。該框架基于提出的事件為中心的模式和虛擬空間模擬結(jié)果,擴展了日常生活活動的合成視頻數(shù)據(jù)和與視頻內(nèi)容相對應的上下文語義數(shù)據(jù)。因此,可以分析上下文感知的數(shù)據(jù),并開發(fā)各種傳統(tǒng)上由于相關數(shù)據(jù)的不足和語義信息不足而難以開發(fā)的應用。

9.Conditionally Combining Robot Skills using Large Language Models
使用大型語言模型有條件地組合機器人技能
簡述:論文提出了兩個貢獻。首先,介紹了一個名為“Language-World”的Meta-World基準擴展,允許大型語言模型在模擬機器人環(huán)境中使用自然語言查詢和腳本化技能進行操作。其次,引入了一種稱為計劃條件行為克?。≒CBC)的方法,可以使用端到端演示微調(diào)高級計劃的行為。使用Language-World,表明PCBC能夠在各種少數(shù)情況中實現(xiàn)強大的性能,通常只需要單個演示即可實現(xiàn)任務泛化。

掃碼添加小享,回復“具身智能”
免費領取全部論文+代碼合集

10.HoloBots: Augmenting Holographic Telepresence with Mobile Robots for Tangible Remote Collaboration in Mixed Reality
使用移動機器人增強全息遠程呈現(xiàn),實現(xiàn)混合現(xiàn)實下的可感知遠程協(xié)作
簡述:論文介紹了一種名為HoloBots的混合現(xiàn)實遠程協(xié)作系統(tǒng),使用同步移動機器人增強全息遠程呈現(xiàn)。通過該系統(tǒng),遠程用戶可以與本地用戶及其環(huán)境進行物理互動,實現(xiàn)可感知遠程協(xié)作。該系統(tǒng)使用了Hololens 2和Azure Kinect等技術,并通過實驗證明其可以顯著增強共現(xiàn)感和共享體驗的水平。

11.Building and Testing a General Intelligence Embodied in a Humanoid Robot
構建和測試具有人形機器人的通用智能系統(tǒng)
簡述:論文提出了一種構建和測試具有人類水平智能的機器的方法。該方法包括一個物理人形機器人系統(tǒng)、一種基于軟件的控制系統(tǒng)、一個名為g+的性能指標,用于衡量人形機器人的類人智能,以及一種用于逐步提高該性能指標分數(shù)的進化算法。作者介紹了每個部分的當前狀況,并報告了該系統(tǒng)的當前和歷史g+指標測量結(jié)果。

12.Systematic Adaptation of Communication-focused ML from Real to Virtual for HRC
面向HRC的從真實到虛擬的以通信為中心的機器學習的系統(tǒng)化適應
簡述:論文提出了一個系統(tǒng)化框架,將經(jīng)過訓練的深度學習模型從真實環(huán)境適應到虛擬環(huán)境中,以實現(xiàn)協(xié)作機器人的體現(xiàn)遙操作。為了實現(xiàn)這一目標,需要創(chuàng)建大型標記數(shù)據(jù)集,以便保持易于學習和靈活的工作環(huán)境界面,并添加更多手勢。雖然手部姿勢被認為是通信方式,但這些指南和建議是通用的,適用于其他模式,例如在真實領域中具有大型數(shù)據(jù)集的身體姿勢和面部表情,這些必須適應到虛擬環(huán)境中。

13.ChatGPT for Robotics: Design Principles and Model Abilities
機器人的ChatGPT:設計原則和模型能力
簡述:論文介紹了一種使用ChatGPT進行機器人應用的實驗研究。作者提出了一種結(jié)合設計原則和高級別函數(shù)庫的策略,使ChatGPT能夠適應不同的機器人任務、模擬器和外形因素,重點評估了不同的提示工程技巧和對話策略對于執(zhí)行各種類型的機器人任務的有效性,探索了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力,以及使用特定于任務的提示函數(shù)和通過對話進行閉環(huán)推理的能力。

14.Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation
學習分層交互式多目標搜索用于移動操作
簡述:論文提出了一種新的交互式多目標搜索任務,要求機器人在導航房間的同時打開門并在櫥柜和抽屜中搜索目標物體。為此,作者開發(fā)了一種分層強化學習方法,可以學習組合探索、導航和操縱技能。實驗證明,這種方法可以在準確的感知下有效地轉(zhuǎn)移到新環(huán)境中,并表現(xiàn)出對未見過的策略、執(zhí)行失敗和不同機器人運動學的魯棒性。這些能力為一系列涉及嵌入式AI和現(xiàn)實世界用例的下游任務打開了大門。

15.Robotic Manipulation Network (ROMAN) – Hybrid Hierarchical Learning for Solving Complex Sequential Tasks
機器人操作網(wǎng)絡(ROMAN)-解決復雜順序任務的混合分層學習
簡述:論文提出了一種混合分層學習框架——機器人操作網(wǎng)絡(ROMAN),用于解決機器人操縱中的多個復雜任務在長時間范圍內(nèi)的難題。通過整合行為克隆、模仿學習和強化學習,ROMAN實現(xiàn)了任務的多功能性和魯棒性失敗恢復。它由一個中央操縱網(wǎng)絡組成,協(xié)調(diào)各種神經(jīng)網(wǎng)絡的集合,每個網(wǎng)絡專門從事不同的可重新組合的子任務,以生成正確的連續(xù)動作來解決復雜的長期操縱任務。

16.Embodied Task Planning with Large Language Models
基于大型語言模型的具身任務規(guī)劃
簡述:本研究提出了一種名為TAsk Planing Agent(TaPA)的基于場景約束的具身任務規(guī)劃方法,用于在真實世界中生成可執(zhí)行的計劃。該方法通過將大型語言模型與視覺感知模型對齊,根據(jù)場景中已存在的對象生成可執(zhí)行計劃。另外,作者還構建了一個多模態(tài)數(shù)據(jù)集,并使用GPT-3.5生成了大量的指令和相應的計劃動作。

17.Statler: State-Maintaining Language Models for Embodied Reasoning
用于具身推理的狀態(tài)維護語言模型
簡述:論文提出了一種名為Statler的框架,用于賦予大型語言模型(LLM)對世界狀態(tài)的顯式表示,可以隨著時間的推移進行維護。通過使用兩個通用LLM實例——世界模型閱讀器和世界模型寫入器——與世界狀態(tài)進行交互和維護,Statler提高了現(xiàn)有LLM在較長時間范圍內(nèi)推理的能力,而不受上下文長度的限制。

掃碼添加小享,回復“具身智能”
免費領取全部論文+代碼合集
