之江實驗室宋偉 | 淺析大模型時代的服務(wù)機(jī)器人自主決策與作業(yè)


編輯|陸柒
大模型時代的服務(wù)機(jī)器人自主決策與作業(yè)【宋偉】
?
去年11月底,ChatGPT橫空出世帶飛大語言模型,百度僅在ChatGPT發(fā)布2個月后,便官宣將對標(biāo)ChatGPT推出大語言模型“文心一言”,并在一個月時間內(nèi)實現(xiàn)落地。
? ? ? ? ?
自此,大語言模型開始呈現(xiàn)出井噴式發(fā)展趨勢。
? ? ? ? ?
谷歌推出對話式程序“Bard”,阿里云推出超大規(guī)模語言模型“通義千問”,3月15日,韓國互聯(lián)網(wǎng)巨頭Naver推出大語言模型“Naver Clapper”,Meta推出大語言模型“Blender”,京東推出產(chǎn)業(yè)版“言犀”,亞馬遜推出大語言模型“Alexa Meera”,華為云發(fā)布盤古系列模型,微軟推出大語言模型“Kosmos-1”,商湯科技發(fā)布“日日新”大模型,印度科技巨頭Infosys宣布開發(fā)其在大語言模型領(lǐng)域的首個作品“LaMDA-N”……
? ? ? ? ?
全球各領(lǐng)域名企大廠的加入,令這場以ChatGPT發(fā)布為奇點(diǎn)的AI革命持續(xù)發(fā)展,并迅速蔓延至其他領(lǐng)域,漸有形成產(chǎn)業(yè)革命風(fēng)暴的趨勢。
? ? ? ? ?
那么,大語言模型究竟為何能引得各領(lǐng)域名企爭先涉足,又到底能為我們帶來什么呢?
? ? ? ? ?
大語言模型是一種使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它可以生成自然語言文本或理解語言文本的含義,并可以處理多種自然語言任務(wù),如文本分類、問答、對話等,是通向人工智能的一條重要途徑。同時,在技術(shù)進(jìn)步的加持下,大語言模型已經(jīng)體現(xiàn)出上下游賦能聚集和快速向頭部聚攏的特點(diǎn),有望成為全新的技術(shù)應(yīng)用操作系統(tǒng),形成新一代平臺級產(chǎn)業(yè)生態(tài),其未來商業(yè)化可挖掘空間極大。
? ? ? ? ?
簡單來說,會學(xué)習(xí)、能思考、可處理自然語言的大語言模型初步具備了成為“智腦”的前提,不僅可以應(yīng)用于“千行百業(yè)”,還能“賦智萬物”,或?qū)⒊蔀閹ьI(lǐng)人類步入智能時代的關(guān)鍵秘鑰。
? ? ? ? ?
對于服務(wù)機(jī)器人來說,大語言模型的應(yīng)用將為行業(yè)帶來怎樣的變化呢?在近日舉辦的第三屆青年學(xué)者學(xué)術(shù)論壇中,來自之江實驗室的宋偉研究員為大家分享了《大模型時代的服務(wù)機(jī)器人自主決策與作業(yè)》,詳細(xì)解說了將服務(wù)機(jī)器人與大語言模型結(jié)合的一些實驗測試和具體可行性方案。

宋偉研究員是之江實驗室智能機(jī)器人研究中心副主任,同時也擔(dān)任“十三五”國家重點(diǎn)研發(fā)計劃智能機(jī)器人重點(diǎn)專項的項目/課題綜合績效評審專家、“十三五”國家重點(diǎn)研發(fā)計劃智能機(jī)器人重點(diǎn)專項的項目技術(shù)專家、中國機(jī)器人峰會專家委員會委員、智能機(jī)器人技術(shù)浙江省工程研究中心學(xué)術(shù)委員會委員、浙江省機(jī)器人產(chǎn)業(yè)發(fā)展協(xié)會秘書長、浙江省機(jī)器人產(chǎn)業(yè)技術(shù)聯(lián)盟秘書長等職位。
? ? ? ? ?
宋偉研究員的研究方向為機(jī)器人自主決策、特種作業(yè)機(jī)器人。其團(tuán)隊主要圍繞智能機(jī)器人云腦關(guān)鍵技術(shù),開展多模態(tài)機(jī)器人知識庫構(gòu)建、人機(jī)交互過程的意圖理解、機(jī)器人自主決策方法、異構(gòu)集群的任務(wù)調(diào)度與協(xié)同、云邊端協(xié)同的機(jī)器人算法推理加速等研究工作。
本期分享要點(diǎn)如下
1.大語言模型產(chǎn)業(yè)格局和機(jī)會
2.大語言模型的研究情況與進(jìn)展
3.宋偉研究員課題組相關(guān)進(jìn)展
4.大語言模型發(fā)展趨勢與商業(yè)化展望
以下內(nèi)容根據(jù)宋偉研究員直播分享實錄整理
"關(guān)注「leaderobot」微信公眾號,獲得更多機(jī)器人干貨分享"
? ? ??

01大語言模型產(chǎn)業(yè)格局與機(jī)會
? ? ? ? ?
隨著技術(shù)的進(jìn)步和發(fā)展,機(jī)器人的應(yīng)用已經(jīng)逐漸從工業(yè)領(lǐng)域擴(kuò)展至建筑、醫(yī)療、娛樂、服務(wù)等各個領(lǐng)域。
? ? ? ? ?
當(dāng)前,除了工業(yè)機(jī)器人之外,清潔機(jī)器人、配送機(jī)器人、炒菜機(jī)器人、送餐機(jī)器人等各式各樣的服務(wù)機(jī)器人開始步入人們的視野。
? ? ? ? ?
關(guān)于服務(wù)機(jī)器人的未來發(fā)展方向,國家近來發(fā)布的《“十四五”機(jī)器人產(chǎn)業(yè)發(fā)展規(guī)劃》《“機(jī)器人+”應(yīng)用行動實施方案》等政策中明確指出“要拓寬機(jī)器人應(yīng)用的深度與廣度,重點(diǎn)推進(jìn)養(yǎng)老助老、家居清潔、教育陪伴與人類日常生活密切相關(guān)的服務(wù)機(jī)器人研制及應(yīng)用”。
? ? ? ? ?

??
在技術(shù)的發(fā)展和助推下,未來我們生活中80%的任務(wù)可能都會由機(jī)器人去完成、去解決,類似于人形機(jī)器人的服務(wù)機(jī)器人或許將在生活中隨處可見。
? ? ? ? ?
但就現(xiàn)階段來看,讓服務(wù)機(jī)器人真正深度融入到我們的生活中,仍然存在眾多挑戰(zhàn)。其中,實現(xiàn)自主決策與作業(yè)是決定服務(wù)機(jī)器人能否深度融入人類生活的關(guān)鍵,而這涉及非結(jié)構(gòu)化環(huán)境下自主作業(yè)和人機(jī)交互意圖理解等兩大難題。
? ? ? ? ?
非結(jié)構(gòu)化環(huán)境下自主作業(yè)
? ? ? ? ?
以指揮服務(wù)機(jī)器人下樓買咖啡為例,服務(wù)機(jī)器人接收到這一命令后,首先需得對周圍環(huán)境進(jìn)行認(rèn)知判斷,然后導(dǎo)航行走至門口,完成開門動作,對出門后的環(huán)境進(jìn)行判斷、決策,確定目標(biāo)地點(diǎn)、行走路線、行走方式等,到達(dá)目標(biāo)地點(diǎn)后,機(jī)器人或許還需與人/機(jī)器進(jìn)行交互,然后利用末端執(zhí)行器拿取咖啡。
? ? ? ? ?

? ? ? ? ?
服務(wù)機(jī)器人在執(zhí)行此任務(wù)時,不僅需靈活應(yīng)對可能會隨時變化的環(huán)境,同時也需得兼?zhèn)溟_門、交互、拿取等執(zhí)行多類型任務(wù)的能力。目前服務(wù)機(jī)器人在執(zhí)行場景任務(wù)時面臨任務(wù)類型多、執(zhí)行序列長、操作難度高等挑戰(zhàn)。
? ? ? ? ?
人機(jī)交互的意圖理解
? ? ? ? ?
傳統(tǒng)人機(jī)交互包括圖形界面、手勢等多種方式,但主要都是基于預(yù)設(shè)編程,在機(jī)器人的實際應(yīng)用過程中,指令的下達(dá)會受到編程內(nèi)容限制。編程交互不僅程序繁瑣,同時還對用戶具有編程技能與經(jīng)驗要求,要真正掌握需花費(fèi)較多時間與精力。

? ?
在人類環(huán)境中,實現(xiàn)人機(jī)交互的理想方式當(dāng)然是使用人類的交互方式即語言去完成指令下達(dá),但由于語言的復(fù)雜性,人類自然交互指令的意圖難以準(zhǔn)確理解,且任務(wù)語義本身存在信息模糊情況,如何讓機(jī)器人真正“聽懂人話”,精準(zhǔn)理解任務(wù)指令和任務(wù)信息仍然是個問題。
? ? ? ? ?
那么如何解決以上兩個問題,實現(xiàn)機(jī)器人自主決策與作業(yè)?
? ? ? ? ?
以人類作為參考對象,可以發(fā)現(xiàn)人類能夠?qū)崿F(xiàn)自主決策與作業(yè)的關(guān)鍵在于學(xué)習(xí)和推理兩大能力,這同時也是機(jī)器人實現(xiàn)自主決策與作業(yè)的決定性因素。
? ? ? ? ?
人類推理能力的實現(xiàn)主要依賴于常識的累積,對于機(jī)器人來說,如何構(gòu)建常識、理解常識是個難點(diǎn)問題。
? ? ? ? ?
傳統(tǒng)知識工程一般是用行為樹、知識圖譜等離散的符號來表示連續(xù)的狀態(tài),存在表征能力有限、開放邊界常識的構(gòu)建成本高周期長等問題,難以處理機(jī)器人所需要的跨模態(tài)知識計算。其推理方式雖然種類多樣,但面對復(fù)雜未知問題的推理時,難以適應(yīng)未知任務(wù)與環(huán)境狀態(tài),本質(zhì)還是需要依靠人工經(jīng)驗。
整體來看,這一情況的解決主要涉及兩個關(guān)鍵研究問題,一為通用的機(jī)器人知識表示與計算,一為開放環(huán)境下的任務(wù)理解與自主決策。
? ? ? ? ?
02大語言模型的研究情況與進(jìn)展
? ? ? ? ?
大語言模型不是一個新生事物。2019年,谷歌發(fā)布了T5;2020年,Open AI發(fā)布了GPT-3;2021年,百度、華為、阿里、微軟、BLOOM等多個企業(yè)也均有推出相關(guān)研究成果。

但大語言模型真正進(jìn)入人們的視野,還是自2022年11月30日,Open AI發(fā)布ChatGPT開始。ChatGPT發(fā)布后僅5天便漲粉100萬,速度非??臁?/p>

ChatGPT到底是什么呢?其實它本身就是一個聊天機(jī)器人的程序,可以通過文本來做交互,說到底ChatGPT就是用來處理文字的。
? ? ? ? ?
在詢問ChatGPT它可以用來做什么時,ChatGPT首先給出的答案也是可以用來進(jìn)行各種自然語言處理任務(wù),為人類提供更好的交互體驗和智能化解決方案。
? ? ? ? ?
當(dāng)進(jìn)一步詢問ChatGPT自然語言處理之外的技能時,ChatGPT開始拓展技能,說可以做語音識別、圖像識別、機(jī)器人控制等,為人類提供更好的智能化解決方案。
? ? ? ? ?
從上面的問答交流,我們可以看到,ChatGPT可以采用自然語言的形式進(jìn)行交互,而不是傳統(tǒng)代碼程序,非常便捷,同時,ChatGPT對自然語言的理解和推理能力也很強(qiáng)。
? ? ? ? ?
機(jī)器人相關(guān)大語言模型應(yīng)用案例
? ? ? ? ?
從大語言模型爆火到現(xiàn)在,與機(jī)器人相關(guān)的應(yīng)用研究已經(jīng)有很多案例。
? ? ? ? ?
今年2月,微軟公開了其關(guān)于ChatGPT在機(jī)器人的研究,提出了一種機(jī)器人自主決策框架,利用大模型理解指令并自主調(diào)用已有的機(jī)器人函數(shù)。這一機(jī)器人自主決策的框架和形式改變了我們現(xiàn)在已有的服務(wù)機(jī)器人的開發(fā)范式。

今年3月,谷歌發(fā)布了具身多模態(tài)大模型PaLM-E,探索端到端解決感知-決策-執(zhí)行。相比ChatGPT,谷歌大模型PaLM-E可以處理圖片信息,具備了多模態(tài)處理能力。

通過將PaLM-E配置在整理機(jī)器人Everyday Robot上,Everyday Robot實現(xiàn)了根據(jù)人的自然語言指令來理解自身所處狀態(tài),進(jìn)行自主決策和作業(yè),實現(xiàn)了端到端的感知決策和作業(yè)。當(dāng)然,這里存在一個問題就是機(jī)器人的操作速度還比較緩慢。

今年5月,香港大學(xué)mmlab聯(lián)合上海人工智能實驗室opengvlab發(fā)布了EmbodiedGPT(具身GPT),它把圖片用Vision Transformer轉(zhuǎn)化成文本,然后輸入到Meta的大語言模型LLaMA中去做處理。當(dāng)然,它這里邊不太一樣的是會把我們機(jī)器人操控的一些相關(guān)技能關(guān)聯(lián)進(jìn)去,在仿真環(huán)境里,實現(xiàn)了這樣一個Demo。

最新的研究是斯坦福大學(xué)李飛飛團(tuán)隊在7月利用大語言模型提取機(jī)器人運(yùn)動規(guī)劃所需要的affordance與障礙物等約束,利用視覺語言模型將其grounding到感知空間,以關(guān)聯(lián)自然語言指令與操控規(guī)劃。

通過自然語言給機(jī)器人下達(dá)“打開上面抽屜,同時要小心不打翻花瓶”的指令,把語言與機(jī)器人感知到的視覺空間進(jìn)行關(guān)聯(lián),大語言模型+視覺語言模型就能從3D空間中分析出目標(biāo)和需要繞過的障礙,幫助機(jī)器人做運(yùn)動規(guī)劃。然后,在真實世界中未經(jīng)“訓(xùn)練”的機(jī)器人便可以直接執(zhí)行這個任務(wù)。

這個研究首次把自然語言的指令和操控的規(guī)劃聯(lián)系在一起,讓我們看到了大語言模型在機(jī)器人領(lǐng)域應(yīng)用的另一種可能性。
? ? ? ? ?
Prompt:利用大語言模型開展機(jī)器人自主決策與作業(yè)的核心
? ? ? ? ?
總結(jié)以上幾個與機(jī)器人相關(guān)的大語言模型應(yīng)用案例來看, prompt已經(jīng)成為機(jī)器人自主決策與作業(yè)框架的邏輯核心,鏈接感知、決策、執(zhí)行、反饋等環(huán)節(jié)。
? ? ? ? ?
那么究竟什么是prompt?Prompt(提示)是一種指令,其實就是要告訴大語言模型要執(zhí)行什么樣的任務(wù)或生成什么樣的輸出,以下圖為例,黃底部分其實就是一個prompt。

它主要分為4個部分,第一部分是用自然語言告知本次任務(wù)的目標(biāo),第二部分是告知機(jī)器人具有的技能,第三部分是告知以往成功的案例,第四部分是告知環(huán)境中存在物體。完成上述填寫之后,就可以通過大語言模型來生成想要的代碼。
該如何去開發(fā)人機(jī)交互類比較強(qiáng)的機(jī)器人?
? ? ? ? ?
第一步,需要開發(fā)一些跟機(jī)器人硬件相關(guān)的算法,比如定位導(dǎo)航算法、視覺感知算法、操控算法。
? ? ? ? ?
第二步,需要用自然語言的形式編寫一個提示(prompt)。
? ? ? ? ?
第三步,需要把prompt和指令輸入大語言模型,讓大語言模型去生成機(jī)器人可以部署的算法,在仿真環(huán)境中去驗證是否可行。
? ? ? ? ?
第四步,當(dāng)驗證都可行時,將算法部署到機(jī)器人上。
? ? ? ? ?
可以看到,這個流程與我們現(xiàn)在的開發(fā)流程大不一樣,可以大大提高機(jī)器人的算法開發(fā)與部署效率。
? ? ? ? ?
03宋偉研究員課題組相關(guān)進(jìn)展
? ? ? ? ?
宋偉研究員課題組從2022年10月份便開展了關(guān)于大語言模型在機(jī)器人自主決策與作業(yè)的應(yīng)用,主要包括以下幾個場景任務(wù)。
? ? ? ? ?
場景任務(wù)一:通過自然語言驅(qū)動機(jī)器人自主尋人、傳話、遞送。
在此場景中,用戶使用自然語言為機(jī)器人下達(dá)任務(wù)指令“你去幫我把書包送給同事A”,機(jī)器人收到指令后利用大模型做理解,調(diào)用開發(fā)好的對話技能主動詢問同事A所在位置,獲得具體位置后,機(jī)器人選用視覺、定位導(dǎo)航和移動相關(guān)技能來找到目標(biāo)交互人,并使用語音與同事A進(jìn)行交互,而后大模型決策使用遞送技能,伸手模擬遞送動作完成任務(wù)。

在此場景中,用戶使用自然語言為機(jī)器人下達(dá)任務(wù)指令“去茶水間桌子那問下同事A中午有沒有空一起吃飯,回來告訴我”,大模型決策使用移動技能至對應(yīng)位置,并使用對話技能向目標(biāo)對象確認(rèn)信息,進(jìn)而再調(diào)用移動與對話技能講目標(biāo)對象的回復(fù)傳達(dá)給用戶。
? ? ? ? ?
場景任務(wù)二:通過自然語言驅(qū)動機(jī)器人自主尋物與操作
此場景主要應(yīng)用了家庭服務(wù)機(jī)器人進(jìn)行意圖理解與自主決策測試。用戶讓機(jī)器人根據(jù)指令去拿指定品牌飲品,機(jī)器人通過調(diào)用視覺、定位導(dǎo)航、機(jī)械臂軌跡規(guī)劃等技能進(jìn)行開門或觀察環(huán)境,進(jìn)而完成目標(biāo)對象的尋找、抓取操作。通過將大語言模型與機(jī)器人結(jié)合,機(jī)器人實現(xiàn)了未知物體的抓取和未知環(huán)境的適應(yīng)。
場景任務(wù)三:通過自然語言驅(qū)動機(jī)器人精準(zhǔn)運(yùn)動規(guī)劃控制
借助大語言模型,團(tuán)隊還將四足狗的內(nèi)部傳感器信息與地圖結(jié)合實現(xiàn)了對四足狗運(yùn)動的精準(zhǔn)控制,可以指揮四足狗完成前進(jìn)、右轉(zhuǎn)彎、找東西等指令。
? ? ? ? ?
團(tuán)隊研究成果
利用先驗知識和多模態(tài)感知信息,團(tuán)隊提出了一種面向大語言模型的prompt生成方法。根據(jù)團(tuán)隊的研究經(jīng)驗,只有大語言模型是不行的,還是需要加上感知信息、先驗知識等內(nèi)容來補(bǔ)足大模型應(yīng)用于機(jī)器人作業(yè)所存在的一些問題,以實現(xiàn)大模型與實際環(huán)境信息的融合。由于相關(guān)論文仍在撰寫階段,因此多模感知、先驗知識等如何實現(xiàn)需待論文發(fā)布過后再為大家進(jìn)行詳細(xì)說明。

同時,團(tuán)隊也做了一些探索性研究。大模型輸出的任務(wù)規(guī)劃不能像人一樣再次應(yīng)用到持續(xù)的新任務(wù)中,因此針對大模型難以應(yīng)用增量經(jīng)驗的問題,團(tuán)隊提出了一種融合感知信息與規(guī)則的經(jīng)驗適配器。這本質(zhì)上是把這個實時反饋的信息跟前面作業(yè)成功的經(jīng)驗融合起來,用以提高持續(xù)任務(wù)規(guī)劃的成功率,目前這仍然處于在仿真環(huán)境驗證的階段,接下來團(tuán)隊將會部署到機(jī)器人。
針對大模型缺少場景具身知識的問題,團(tuán)隊構(gòu)建了多模態(tài)具身知識庫,用以增強(qiáng)機(jī)器人在開放環(huán)境下的自主決策與作業(yè)能力。根據(jù)大模型在具體作業(yè)場景的信息缺乏情況,團(tuán)隊正在著力構(gòu)建多模態(tài)知識庫,希望通過知識庫與大模型的結(jié)合來提高機(jī)器人的決策和作業(yè)能力。
? ? ? ? ?
04大語言模型發(fā)展趨勢與商業(yè)化展望
? ? ? ? ?
基于微軟、谷歌、斯坦福李飛飛團(tuán)隊等目前已有的關(guān)于大語言模型應(yīng)用的研究成果和課題組在進(jìn)行應(yīng)用測試過程中發(fā)現(xiàn)的問題,宋偉研究員對大語言模型的產(chǎn)業(yè)格局、技術(shù)發(fā)展趨勢等多個方面進(jìn)行了思考。
? ? ? ? ?
首先,如何看待大語言模型方面,宋偉研究員表示,大語言模型將成為服務(wù)機(jī)器人在非結(jié)構(gòu)化環(huán)境中自主決策與作業(yè)的底座技術(shù),我們要積極擁抱大語言模型,探索其應(yīng)用邊界。
其次,在大語言模型與機(jī)器人的結(jié)合應(yīng)用方面,宋偉研究員表示,僅僅依靠大語言模型“能說會道”并不足以支撐起機(jī)器人在物理世界的自主決策與作業(yè),仍需要結(jié)合機(jī)器人自身的多模感知和作業(yè)能力。
? ? ? ? ?
同時,宋偉研究員也就實際科研過程中發(fā)現(xiàn)的問題進(jìn)行了闡述,他指出,機(jī)器人的有限端部資源,以及實時性、魯棒性、準(zhǔn)確性與數(shù)據(jù)隱私等要求,需要開發(fā)能夠部署在邊-端的中小模型。
? ? ? ? ?
最后,對于大語言模型與服務(wù)機(jī)器人的結(jié)合,宋偉研究員進(jìn)行了展望。他表示,大語言模型是當(dāng)前通用人工智能技術(shù)發(fā)展的一項重要成果,而人形機(jī)器人普遍被認(rèn)為是通用作業(yè)機(jī)器人的形態(tài),兩者的結(jié)合可以形成像人一樣與環(huán)境交互的、具有身體體驗的智能體。
一方面,人形機(jī)器人成為智能的具身實體,它與環(huán)境的交互將為大語言模型源源不斷地提供多模態(tài)的感知信息,從而促進(jìn)大模型的進(jìn)化;另一方面,大語言模型為人形機(jī)器人提供認(rèn)知、學(xué)習(xí)的能力,使其更好地適應(yīng)復(fù)雜未知的環(huán)境,并促進(jìn)機(jī)器人本體的進(jìn)化。
從某種程度而言,我們?nèi)祟惥涂梢钥醋魇侵悄芘c本體協(xié)同進(jìn)化的結(jié)果。這種結(jié)合形成的具身智能人形機(jī)器人打破了虛擬世界與物理世界之間的邊界,將促進(jìn)通用人工智能技術(shù)與通用作業(yè)機(jī)器人技術(shù)的協(xié)同進(jìn)化,從而促進(jìn)家庭服務(wù)機(jī)器人關(guān)鍵技術(shù)的攻關(guān)與應(yīng)用。