行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài),具身智能是關(guān)鍵鑰匙
原創(chuàng) | 文 BFT機(jī)器人

01
“具身智能”機(jī)器人是人工智能終極形態(tài)
近期英偉達(dá)創(chuàng)始人CEO黃仁勛強(qiáng)調(diào)“具身智能”的重大價(jià)值。
黃仁勛在ITF Wold2023半導(dǎo)體大會(huì)上表示,人工智能的下一個(gè)浪潮是具身智能(Embodied AI),即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng),比如機(jī)器人、自動(dòng)駕駛汽車,甚至聊天機(jī)器人,他們都能很好的理解物理世界。同時(shí),黃仁勛公布 Nividia VIMA,一個(gè)多模態(tài)具身視覺語言模型。據(jù)介紹,VIMA 可以通過視覺執(zhí)行任務(wù),也可以通過文本提示來做任務(wù),比如重新排列這些方塊以與場景匹配;它能明白概念,采取適當(dāng)行動(dòng),他可以在演示中學(xué)習(xí),并且將行為控制在合理范疇內(nèi)。
什么是具身智能?具身智能意味著什么?
具身智能”的機(jī)器人是人工智能的終極形態(tài)。
1950年,圖靈在他的論文一《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是,有身體并支持物理交的智能體,如智能服務(wù)機(jī)器人、自動(dòng)駕駛汽車等,具身智能機(jī)器人指的是,像人一樣能夠與環(huán)境交互感知、自助規(guī)劃、決策、行動(dòng)、執(zhí)行任務(wù)的機(jī)器人。
它包含人工智能領(lǐng)域幾乎所有的技術(shù),包括機(jī)器視覺、自然語言理解、認(rèn)知和推理、機(jī)器人學(xué)、博弈倫理、機(jī)器學(xué)習(xí)等,橫跨多個(gè)學(xué)科方向,是人工智能的集大成者。

資料來源:申萬宏源研究
現(xiàn)有機(jī)器人難以適應(yīng)現(xiàn)實(shí)世界,是因?yàn)槠鋵W(xué)習(xí)模式為“旁觀型學(xué)習(xí)方式”。
目前大部分深度學(xué)習(xí)模型訓(xùn)練使用的數(shù)據(jù)來自于互聯(lián)網(wǎng)(Internat AI)而非現(xiàn)實(shí)世界第一人稱視角只能學(xué)習(xí)到數(shù)據(jù)中心的固定模式,但無法在真實(shí)世界中直接學(xué)習(xí),因此也無法適應(yīng)真實(shí)世界。現(xiàn)實(shí)當(dāng)中的人類是通過對現(xiàn)實(shí)世界的觀察、互動(dòng)、反饋等學(xué)習(xí),大腦中的部分認(rèn)知依賴物理身體與世界持續(xù)不斷的交互,因此學(xué)習(xí)到越來越多的技能來適應(yīng)環(huán)境。
具身智能是通往通用人工智能的關(guān)鍵鑰匙,賦予機(jī)器人實(shí)踐學(xué)習(xí)的能力。
斯坦福大學(xué)的李飛飛教授稱“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”上海交通大學(xué)的盧策吾教授通過貓學(xué)習(xí)走路來做出形象比喻:“如圖中的貓樣,主動(dòng)貓是具身的智能,它可以在環(huán)境中自由行動(dòng),從而學(xué)習(xí)行走的能力。被動(dòng)貓只能被動(dòng)的觀察世界,最終失去了行走能力?!?/p>
實(shí)踐性學(xué)習(xí)方法與旁觀型學(xué)方法的不同點(diǎn)在于,實(shí)踐性學(xué)習(xí)是機(jī)器人像人一樣,通過物理身體與環(huán)境的互動(dòng)來學(xué)習(xí),可以主動(dòng)感知或者執(zhí)行任務(wù)的方法來感知世界,對世界進(jìn)行建模,增強(qiáng)對世界的認(rèn)知和鍛煉行能力。


具身智能的現(xiàn)實(shí)應(yīng)用存在諸多難點(diǎn),涉及到多學(xué)科知識(shí)。
拆解具身智能的應(yīng)用過程當(dāng)人要求機(jī)器人完成某一項(xiàng)任務(wù),機(jī)器人要經(jīng)過的步驟包括:能夠聽懂人類語言 分解任務(wù)規(guī)劃子任務(wù)移動(dòng)中識(shí)別物體 與環(huán)境交互 最終完成相應(yīng)任務(wù)。這個(gè)過程涉及到自然語言理解、邏輯推理、機(jī)器視覺、運(yùn)動(dòng)控制、機(jī)器學(xué)習(xí)、運(yùn)動(dòng)規(guī)劃、機(jī)械控制等。因此要實(shí)現(xiàn)完全的具身智能,依然有很長的一段路要走。
02
谷歌、微軟、UCBerkeley等走在技術(shù)前沿
具身智能已成為全球?qū)W術(shù)和企業(yè)的重要的研究方向。
今年的 IROS(機(jī)器人領(lǐng)域頂級學(xué)術(shù)會(huì)議)將具身智能作為重要主題。目前谷歌、微軟等技術(shù)團(tuán)隊(duì)、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地。參考申萬TMT 團(tuán)隊(duì)的《跨模態(tài):更多應(yīng)用場景出現(xiàn),中國公司得到更大機(jī)會(huì)》、《Meta 發(fā)布 SAM 分割模型,或成 CV大模型第一步》,我們對最新的機(jī)器人算法模型進(jìn)行梳理:
谷歌:視覺語言大模型 PaLM-E
2023年3月6日,來自谷歌和德國林工業(yè)大學(xué)的一組人工智能研究人員公布了史上最大視覺語言模型 PaLM-E( Pathways Language Model with Embodied)。
PaLM 包括了 40B 語言模型與 22B 視覺 ViT(Vison Transformer)模型,最終參數(shù)量達(dá) 562E。PaLM-E本身是個(gè)多模態(tài)的大模型不僅能理解文本,還能理解圖片(ViT)可以理解圖片中的語義信息。ViT將大模型能力泛化至CV領(lǐng)域,賦予大模型視覺能力。
兩相結(jié)合,PaLM-E 模型具備多模態(tài)能力,能觀察物理實(shí)體世界的信息,由大模型進(jìn)行分析理解,再將決策結(jié)果反饋至物理世界,由此溝通物理和虛擬兩個(gè)世界。

亮點(diǎn)在于多模態(tài)大模型應(yīng)用于人機(jī)交互領(lǐng)域。
1)發(fā)現(xiàn)參數(shù)擴(kuò)大有助于提升人機(jī)交互中的語言能力:語言模型越大,在視覺語言與機(jī)器人任務(wù)的訓(xùn)練中,保持的語言能力就越強(qiáng),5620 億參數(shù)的 PaLM-E 幾乎保持了它所有的語言能力。
2)對于機(jī)器人的長跨度、長周期任務(wù),以往通常需要人工協(xié)助, PaLM-E 通過自主學(xué)習(xí)全部完成,如下圖左。
3)展示了模型的泛化能力,研究人員要求機(jī)器人將“綠色色塊推到烏龜旁邊”的指令,即便機(jī)器人之前沒有見過這只烏龜擺,也能完成任務(wù)。

同時(shí) PaLM-E 通過分析來自機(jī)器人攝像頭的數(shù)據(jù)來實(shí)現(xiàn)對高級命令的執(zhí)行,而無需對場景進(jìn)行預(yù)處理。這消除了人類對數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要,并允許更自主的機(jī)器人控制。
Meta : SAM 分割模型
2023年4月6日,Meta 推出一個(gè)AI模型 Segment Anything Model(SAM分割一切模型),能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割。SAM 任務(wù)目的:零樣本( zero-shot)或者簡單 prompt 下,就對任意圖片進(jìn)行精細(xì)分割。
SAM 證明,多種多樣的分割任務(wù)是可以被一個(gè)通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點(diǎn),我們期待一個(gè)模型可以無監(jiān)督完成分割、檢測、識(shí)別、跟蹤等所有 CV 任務(wù),屆時(shí)視覺大模型應(yīng)用會(huì)得到極大發(fā)展。

圖7:SAM的任務(wù)模型數(shù)據(jù)綜述
微軟: ChatGPT for Robotics
在Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT生成機(jī)器人的高層控制代碼,從而可以通過自然語言和ChatGPT交流,使用 ChatGPT來控制機(jī)械臂、無人機(jī)、移動(dòng)機(jī)器人等機(jī)器人。
目前的機(jī)器人的應(yīng)用基礎(chǔ)是代碼,工程師需要經(jīng)常編寫代碼和規(guī)范來控制機(jī)器人的行為,這個(gè)過程緩慢、昂貴且低效,使用場景有限。ChatGPT 帶來一種新的機(jī)器人應(yīng)用范例通過大型語言模型(LLM)將人的語言快速轉(zhuǎn)換為代碼。在這種情境下,人們不需要學(xué)習(xí)復(fù)雜的編程語言或機(jī)器人系統(tǒng)的詳細(xì)信息,就可以控制機(jī)器人來完成各種任務(wù),更輕松的與機(jī)器人互動(dòng)。
目前實(shí)驗(yàn)已經(jīng)能夠通過給 ChatGPT的對話框輸入指令,讓其控制機(jī)器人在房間中找到“健康飲料”“有糖和紅色標(biāo)志的東西”(可樂),以及一面供無人機(jī)自拍的鏡子。

資料來源:申萬宏源研究
伯克利的 LM-Nav 模型
UC Berkeley、波蘭華沙大學(xué)聯(lián)合谷歌機(jī)器人團(tuán)隊(duì)發(fā)表論文《LM-Nav:具有大型預(yù)訓(xùn)練語言、視覺和動(dòng)作模型的機(jī)器人導(dǎo)航系統(tǒng)》,該模型結(jié)合了三種預(yù)訓(xùn)練模型,從而無需用戶注釋即可執(zhí)行自然語言指令。
其中,大語言模型(LLM)用于完成自然語言處理的任務(wù);視覺和語言模型(VLM )將圖像和文本信息進(jìn)行關(guān)聯(lián),即用戶指令和機(jī)器人視覺感知的外部環(huán)境進(jìn)行關(guān)聯(lián);視覺導(dǎo)航模型(VNM)用于從其觀察到的信息中直接進(jìn)行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時(shí)間進(jìn)行關(guān)聯(lián)


03
具身智能落地應(yīng)用機(jī)器人的方向和節(jié)奏?
隨著具身智能的發(fā)展,跨模態(tài)大模型應(yīng)用于機(jī)器人的案例不斷出現(xiàn),各行各業(yè)、各種形態(tài)的機(jī)器人有望持續(xù)涌現(xiàn)。
技術(shù)層面,我們認(rèn)為具身智能最先解決的可能是人機(jī)交互問題,現(xiàn)有GPT等多模態(tài)大語言模型已經(jīng)開始應(yīng)用,讓機(jī)器人聽得懂人的語言指令,其次解決機(jī)器人的決策能力,即分析、推理、判斷等能力,深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等將是機(jī)器人重要的學(xué)習(xí)手段,最后解決機(jī)器人的執(zhí)行能力,讓機(jī)器人處理現(xiàn)實(shí)中的復(fù)雜任務(wù)。
考慮到降本周期、應(yīng)用難度、市場接受度等因素,我們認(rèn)為最先應(yīng)用的落地的可能是價(jià)格不敏感的、應(yīng)用難度較低、市場接受度較高的機(jī)器人類型,排序如下:
商用服務(wù)機(jī)器人:
接待機(jī)器人、迎賓機(jī)器人、服務(wù)機(jī)器人、導(dǎo)購機(jī)器人等,商用場景的價(jià)格敏感度較低,應(yīng)用場景簡單,市場接受度高,或成為最先落地的場景;
特定行業(yè)的功能型機(jī)器人:
電力巡檢類操作類機(jī)器人、軌道交通的檢修機(jī)器人、礦山里的機(jī)器人、農(nóng)業(yè)機(jī)器人、建筑機(jī)器人等,此類環(huán)境危險(xiǎn)惡劣,對機(jī)器人的需求度高價(jià)格不敏感;
家庭服務(wù)機(jī)器人:
家務(wù)機(jī)器人、陪伴機(jī)器人等,toC 場景的價(jià)格敏感度較高,并且家庭是非結(jié)構(gòu)化環(huán)境,外部環(huán)境和任務(wù)較為復(fù)雜,因此落地進(jìn)度或慢于toB 場景;
通用型人形機(jī)器人:
人形機(jī)器人具有最完善的具身智能,能夠集成各項(xiàng)人工智能技術(shù),也是最為通用的機(jī)器人類型,潛在應(yīng)用空間最為廣闊,或成為機(jī)器人的終極形態(tài)。

文章來源:申萬宏源研究文章編輯:BFT智能機(jī)器人系統(tǒng)
更多精彩內(nèi)容請關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時(shí)回應(yīng)。