處暑 | 大模型時代的具身智能

年初爆火的《流浪地球2》中的機械狗笨笨這一角色,想必給大家留下了深刻的印象。這只能夠在各種地形移動負重、和人直接對話、做出各種可愛表情的小狗,正是具身智能體的典型代表。但顯然,我們希望它更加聰明能干,比如幫助張鵬去月球手動引爆核彈,這樣就可以避免這么多航天員的犧牲了。實際上,隨著近期大模型的不斷涌現(xiàn),具身智能的發(fā)展也被極大地加速了,這一愿景也許不再是夢。
為了理解大模型的涌現(xiàn)對具身智能帶來了哪些影響,我們首先回顧一下具身智能體的一些重要特性。它們需要具有三種核心能力,即感知、決策、執(zhí)行。正如人有眼睛、鼻子、耳朵來感知世界,有大腦來做出決策,有手和腿來執(zhí)行命令,只有形成這三者的有機循環(huán),才能夠完成與物理世界的各種交互。

有了這些基本的認識之后,我們回過頭來看看大模型在這些核心能力中能夠扮演什么樣的角色。說到大模型,人們首先想到的大多是自然語言大模型,如
ChatGPT,它可以根據(jù)用戶的文本輸入進行理解分析,并給出文字回復。目前的研究表明,它們已經(jīng)在場景級別具有足夠的決策能力。利用這種決策能力,Michael
Ahn 等人[1]提出了一種框架,即根據(jù)用戶的簡單文本命令,由語言模型進行決策,輸出序列化的分步規(guī)劃。如,用戶輸入“我打翻了可樂,請幫我清理一下”,語言模型據(jù)此輸出“1.
找到可樂罐,2. 拿起它,3. 走到垃圾桶,4. 丟進垃圾桶,5. 找到海綿,6.
拿起海綿”。盡管語言模型輸出的規(guī)劃是合理的,但如何將這段文字直接作為控制機器人的指令,這其中依舊需要程序員對輸出的文字進行代碼處理。進一步的,我們能否把這一部分的定制化代碼處理也交給語言模型呢?近期來自
Google、Microsoft、Stanford 的一系列工作[2,3,4]驗證了這一可能性。結合語言模型對第三方庫文檔的理解能力,這些工作充分展示了這一方案的可擴展性,從控制桌面吸盤,到移動機器人、無人機等等。

說到這里,似乎只要使用語言模型作為決策工具,就能夠讓一個完全不會寫代碼的用戶控制一個具有強大能力的智能體。但事實上,正如上文所言,具身智能體必須具備感知能力,才能因地制宜地做出決策。比如還是打翻可樂再清理的這個例子,如果所在的環(huán)境中并沒有海綿,那么語言模型給出的方案就是無效的。因此,如何有效地感知環(huán)境,并將信息傳遞給語言模型,這依舊是一個重要且困難的問題。為了提升感知能力,研究者們又借助了第二種大模型,即視覺大模型。它們能夠在特定的單一任務(如物體檢測)上具有開放世界、強泛化性的能力。一個經(jīng)典的做法[5]是這些視覺大模型將檢測結果匯總為文字(如:當前場景中有 [“微波爐”“冰箱”“紅蘋果”“青蘋果”……]),并結合用戶命令一起輸入語言模塊,從而讓決策模塊具有對場景的粗粒度感知。

但這其中依舊存在問題,這種單一任務的視覺大模型會丟失很多重要信息,比如物體的空間位置關系、物體的狀態(tài)等等。舉例而言,如果一個任務是泡咖啡,而場景中有一個臟的杯子,單一任務的視覺模型只會告訴語言模型場景中有一個杯子,而無法提取出“臟”這一信息,這就會導致糟糕的事故發(fā)生。形象地來說,語言大模型是知識淵博的盲人,而視覺模型則是剛認識生活中各種物品的孩子。目前的框架中,兩者的全部信息交換都依靠文本來完成,但是在圖像轉為文本描述的過程中,必然會丟失很多信息,導致決策失誤,因此這顯然不是一條可行之路。
如何將感知和決策有機融合,這是一個開放、困難的問題。一種可能是,借助近期涌現(xiàn)的視覺語言大模型,如 BLIP-2[6],Emu[7]。它們能夠根據(jù)用戶文本輸入的命令,結合給出的圖片進行分析并輸出文本。盡管這個框架可以起到人類的眼睛與大腦的作用,但目前來看,受限于它們的訓練數(shù)據(jù)量,它們在文本方面的推理能力還遠不如 ChatGPT。
目前為止,我們主要探討了感知和決策這兩個方面,接下來,我們再來談談執(zhí)行??梢哉f,這三大能力中,執(zhí)行是能力最為薄弱的環(huán)節(jié)。一方面,它不像前兩者有著海量的互聯(lián)網(wǎng)數(shù)據(jù)支持;另一方面,它不僅是一個軟件算法問題,還涉及到硬件設計。從執(zhí)行的角度來說,具身智能體主要分為移動和操作兩大能力。移動方面,無論是最近爆火的二足機器人、已經(jīng)取得極大突破的四足機器狗,還是已經(jīng)商業(yè)落地的輪式機器人,它們能否在各種地形下實現(xiàn)魯棒的移動,依舊是前沿的學術問題。操作方面,現(xiàn)階段能夠落地的只有吸盤和二指的簡單抓取。也正是因此,目前所有大模型驅動的具身智能體能夠完成的任務清一色是拿起放下類的任務。可以說,執(zhí)行能力是三大核心能力中最短的那塊木板。

當然,受篇幅所限,其實還有很多重要的問題本文并未涉及,比如如何基于視覺反饋形成閉環(huán)控制[5],如何利用大模型實現(xiàn)自動化的自我評價與進一步學習,如何解決語言模型決策的失誤等,這些都是困難但迷人的問題。
大模型的涌現(xiàn),將具身智能的發(fā)展推上了新的臺階。過去完全無法想象的通用理解、決策能力,現(xiàn)在已經(jīng)初步實現(xiàn)。盡管依舊存在著諸多難題,但隨著越來越多的人關注并投身具身智能,這一領域也必然迎來新的發(fā)展高峰期。筆者相信,在不遠的未來,我們將看到更多聰明、可靠的機器人出現(xiàn)在日常生活中,將人類從危險、重復的勞動中解放出來,有更多的時間來享受生活。
Reference:
[1] Brohan, Anthony, et al. "Do as i can, not as i say: Grounding language in robotic affordances." Conference on Robot Learning. PMLR, 2023.
[2] Liang, Jacky, et al. "Code as policies: Language model programs for embodied control."?2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
[3] Vemprala, Sai, et al. "Chatgpt for robotics: Design principles and model abilities."?Microsoft Auton. Syst. Robot. Res?2 (2023): 20.
[4] Huang, Wenlong, et al. "VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models."?arXiv preprint arXiv:2307.05973?(2023).
[5] Huang, Wenlong, et al. "Inner Monologue: Embodied Reasoning through Planning with Language Models." Conference on Robot Learning. PMLR, 2023.
[6] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." International Conference on Machine Learning. PMLR, 2023.
[7] Sun, Quan, et al. "Generative pretraining in multimodality."?arXiv preprint arXiv:2307.05222?(2023).

圖 | 除標注外,源自網(wǎng)絡
PKU EPIC Lab