散文網(wǎng) » 科技 »學(xué)習(xí) » 行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙

2023-05-23 10:24 作者:BFT白芙堂機(jī)器人 0人讀過 | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

01

“具身智能”機(jī)器人是人工智能終極形態(tài)

近期英偉達(dá)創(chuàng)始人CEO黃仁勛強(qiáng)調(diào)“具身智能”的重大價(jià)值。

黃仁勛在ITF Wold2023半導(dǎo)體大會(huì)上表示，人工智能的下一個(gè)浪潮是具身智能(Embodied AI)，即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)，比如機(jī)器人、自動(dòng)駕駛汽車，甚至聊天機(jī)器人，他們都能很好的理解物理世界。同時(shí)，黃仁勛公布 Nividia VIMA，一個(gè)多模態(tài)具身視覺語言模型。據(jù)介紹，VIMA 可以通過視覺執(zhí)行任務(wù)，也可以通過文本提示來做任務(wù)，比如重新排列這些方塊以與場景匹配;它能明白概念，采取適當(dāng)行動(dòng)，他可以在演示中學(xué)習(xí)，并且將行為控制在合理范疇內(nèi)。

什么是具身智能?具身智能意味著什么?

具身智能”的機(jī)器人是人工智能的終極形態(tài)。

1950年，圖靈在他的論文一《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是，有身體并支持物理交的智能體，如智能服務(wù)機(jī)器人、自動(dòng)駕駛汽車等，具身智能機(jī)器人指的是，像人一樣能夠與環(huán)境交互感知、自助規(guī)劃、決策、行動(dòng)、執(zhí)行任務(wù)的機(jī)器人。

它包含人工智能領(lǐng)域幾乎所有的技術(shù)，包括機(jī)器視覺、自然語言理解、認(rèn)知和推理、機(jī)器人學(xué)、博弈倫理、機(jī)器學(xué)習(xí)等，橫跨多個(gè)學(xué)科方向，是人工智能的集大成者。

資料來源：申萬宏源研究

現(xiàn)有機(jī)器人難以適應(yīng)現(xiàn)實(shí)世界，是因?yàn)槠鋵W(xué)習(xí)模式為“旁觀型學(xué)習(xí)方式”。

目前大部分深度學(xué)習(xí)模型訓(xùn)練使用的數(shù)據(jù)來自于互聯(lián)網(wǎng)(Internat AI)而非現(xiàn)實(shí)世界第一人稱視角只能學(xué)習(xí)到數(shù)據(jù)中心的固定模式，但無法在真實(shí)世界中直接學(xué)習(xí)，因此也無法適應(yīng)真實(shí)世界。現(xiàn)實(shí)當(dāng)中的人類是通過對現(xiàn)實(shí)世界的觀察、互動(dòng)、反饋等學(xué)習(xí)，大腦中的部分認(rèn)知依賴物理身體與世界持續(xù)不斷的交互，因此學(xué)習(xí)到越來越多的技能來適應(yīng)環(huán)境。

具身智能是通往通用人工智能的關(guān)鍵鑰匙，賦予機(jī)器人實(shí)踐學(xué)習(xí)的能力。

斯坦福大學(xué)的李飛飛教授稱“具身的含義不是身體本身，而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”上海交通大學(xué)的盧策吾教授通過貓學(xué)習(xí)走路來做出形象比喻:“如圖中的貓樣，主動(dòng)貓是具身的智能，它可以在環(huán)境中自由行動(dòng)，從而學(xué)習(xí)行走的能力。被動(dòng)貓只能被動(dòng)的觀察世界，最終失去了行走能力?！?/p>

實(shí)踐性學(xué)習(xí)方法與旁觀型學(xué)方法的不同點(diǎn)在于，實(shí)踐性學(xué)習(xí)是機(jī)器人像人一樣，通過物理身體與環(huán)境的互動(dòng)來學(xué)習(xí)，可以主動(dòng)感知或者執(zhí)行任務(wù)的方法來感知世界，對世界進(jìn)行建模，增強(qiáng)對世界的認(rèn)知和鍛煉行能力。

具身智能的現(xiàn)實(shí)應(yīng)用存在諸多難點(diǎn)，涉及到多學(xué)科知識(shí)。

拆解具身智能的應(yīng)用過程當(dāng)人要求機(jī)器人完成某一項(xiàng)任務(wù)，機(jī)器人要經(jīng)過的步驟包括:能夠聽懂人類語言分解任務(wù)規(guī)劃子任務(wù)移動(dòng)中識(shí)別物體與環(huán)境交互最終完成相應(yīng)任務(wù)。這個(gè)過程涉及到自然語言理解、邏輯推理、機(jī)器視覺、運(yùn)動(dòng)控制、機(jī)器學(xué)習(xí)、運(yùn)動(dòng)規(guī)劃、機(jī)械控制等。因此要實(shí)現(xiàn)完全的具身智能，依然有很長的一段路要走。

02

谷歌、微軟、UCBerkeley等走在技術(shù)前沿

具身智能已成為全球?qū)W術(shù)和企業(yè)的重要的研究方向。

今年的 IROS(機(jī)器人領(lǐng)域頂級學(xué)術(shù)會(huì)議)將具身智能作為重要主題。目前谷歌、微軟等技術(shù)團(tuán)隊(duì)、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地。參考申萬TMT 團(tuán)隊(duì)的《跨模態(tài):更多應(yīng)用場景出現(xiàn)，中國公司得到更大機(jī)會(huì)》、《Meta 發(fā)布 SAM 分割模型，或成 CV大模型第一步》，我們對最新的機(jī)器人算法模型進(jìn)行梳理:

谷歌:視覺語言大模型 PaLM-E

2023年3月6日，來自谷歌和德國林工業(yè)大學(xué)的一組人工智能研究人員公布了史上最大視覺語言模型 PaLM-E( Pathways Language Model with Embodied)。

PaLM 包括了 40B 語言模型與 22B 視覺 ViT(Vison Transformer)模型，最終參數(shù)量達(dá) 562E。PaLM-E本身是個(gè)多模態(tài)的大模型不僅能理解文本，還能理解圖片(ViT)可以理解圖片中的語義信息。ViT將大模型能力泛化至CV領(lǐng)域，賦予大模型視覺能力。

兩相結(jié)合，PaLM-E 模型具備多模態(tài)能力，能觀察物理實(shí)體世界的信息，由大模型進(jìn)行分析理解，再將決策結(jié)果反饋至物理世界，由此溝通物理和虛擬兩個(gè)世界。

亮點(diǎn)在于多模態(tài)大模型應(yīng)用于人機(jī)交互領(lǐng)域。

1)發(fā)現(xiàn)參數(shù)擴(kuò)大有助于提升人機(jī)交互中的語言能力:語言模型越大，在視覺語言與機(jī)器人任務(wù)的訓(xùn)練中，保持的語言能力就越強(qiáng)，5620 億參數(shù)的 PaLM-E 幾乎保持了它所有的語言能力。

2)對于機(jī)器人的長跨度、長周期任務(wù)，以往通常需要人工協(xié)助， PaLM-E 通過自主學(xué)習(xí)全部完成，如下圖左。

3)展示了模型的泛化能力，研究人員要求機(jī)器人將“綠色色塊推到烏龜旁邊”的指令，即便機(jī)器人之前沒有見過這只烏龜擺，也能完成任務(wù)。

同時(shí) PaLM-E 通過分析來自機(jī)器人攝像頭的數(shù)據(jù)來實(shí)現(xiàn)對高級命令的執(zhí)行，而無需對場景進(jìn)行預(yù)處理。這消除了人類對數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要，并允許更自主的機(jī)器人控制。

Meta : SAM 分割模型

2023年4月6日，Meta 推出一個(gè)AI模型 Segment Anything Model(SAM分割一切模型)，能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割。SAM 任務(wù)目的:零樣本( zero-shot)或者簡單 prompt 下，就對任意圖片進(jìn)行精細(xì)分割。

SAM 證明，多種多樣的分割任務(wù)是可以被一個(gè)通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點(diǎn)，我們期待一個(gè)模型可以無監(jiān)督完成分割、檢測、識(shí)別、跟蹤等所有 CV 任務(wù)，屆時(shí)視覺大模型應(yīng)用會(huì)得到極大發(fā)展。

圖7：SAM的任務(wù)模型數(shù)據(jù)綜述

微軟: ChatGPT for Robotics

在Microsoft Research 的 ChatGPT for Robotics 文章中，研究者使用 ChatGPT生成機(jī)器人的高層控制代碼，從而可以通過自然語言和ChatGPT交流，使用 ChatGPT來控制機(jī)械臂、無人機(jī)、移動(dòng)機(jī)器人等機(jī)器人。

目前的機(jī)器人的應(yīng)用基礎(chǔ)是代碼，工程師需要經(jīng)常編寫代碼和規(guī)范來控制機(jī)器人的行為,這個(gè)過程緩慢、昂貴且低效，使用場景有限。ChatGPT 帶來一種新的機(jī)器人應(yīng)用范例通過大型語言模型(LLM)將人的語言快速轉(zhuǎn)換為代碼。在這種情境下，人們不需要學(xué)習(xí)復(fù)雜的編程語言或機(jī)器人系統(tǒng)的詳細(xì)信息，就可以控制機(jī)器人來完成各種任務(wù)，更輕松的與機(jī)器人互動(dòng)。

目前實(shí)驗(yàn)已經(jīng)能夠通過給 ChatGPT的對話框輸入指令，讓其控制機(jī)器人在房間中找到“健康飲料”“有糖和紅色標(biāo)志的東西”(可樂),以及一面供無人機(jī)自拍的鏡子。

資料來源：申萬宏源研究

伯克利的 LM-Nav 模型

UC Berkeley、波蘭華沙大學(xué)聯(lián)合谷歌機(jī)器人團(tuán)隊(duì)發(fā)表論文《LM-Nav:具有大型預(yù)訓(xùn)練語言、視覺和動(dòng)作模型的機(jī)器人導(dǎo)航系統(tǒng)》，該模型結(jié)合了三種預(yù)訓(xùn)練模型，從而無需用戶注釋即可執(zhí)行自然語言指令。

其中，大語言模型(LLM)用于完成自然語言處理的任務(wù);視覺和語言模型(VLM )將圖像和文本信息進(jìn)行關(guān)聯(lián)，即用戶指令和機(jī)器人視覺感知的外部環(huán)境進(jìn)行關(guān)聯(lián);視覺導(dǎo)航模型(VNM)用于從其觀察到的信息中直接進(jìn)行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時(shí)間進(jìn)行關(guān)聯(lián)

03

具身智能落地應(yīng)用機(jī)器人的方向和節(jié)奏？

隨著具身智能的發(fā)展，跨模態(tài)大模型應(yīng)用于機(jī)器人的案例不斷出現(xiàn)，各行各業(yè)、各種形態(tài)的機(jī)器人有望持續(xù)涌現(xiàn)。

技術(shù)層面，我們認(rèn)為具身智能最先解決的可能是人機(jī)交互問題，現(xiàn)有GPT等多模態(tài)大語言模型已經(jīng)開始應(yīng)用，讓機(jī)器人聽得懂人的語言指令，其次解決機(jī)器人的決策能力，即分析、推理、判斷等能力，深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等將是機(jī)器人重要的學(xué)習(xí)手段，最后解決機(jī)器人的執(zhí)行能力，讓機(jī)器人處理現(xiàn)實(shí)中的復(fù)雜任務(wù)。

考慮到降本周期、應(yīng)用難度、市場接受度等因素，我們認(rèn)為最先應(yīng)用的落地的可能是價(jià)格不敏感的、應(yīng)用難度較低、市場接受度較高的機(jī)器人類型，排序如下:

商用服務(wù)機(jī)器人:

接待機(jī)器人、迎賓機(jī)器人、服務(wù)機(jī)器人、導(dǎo)購機(jī)器人等，商用場景的價(jià)格敏感度較低，應(yīng)用場景簡單，市場接受度高，或成為最先落地的場景；

特定行業(yè)的功能型機(jī)器人:

電力巡檢類操作類機(jī)器人、軌道交通的檢修機(jī)器人、礦山里的機(jī)器人、農(nóng)業(yè)機(jī)器人、建筑機(jī)器人等，此類環(huán)境危險(xiǎn)惡劣，對機(jī)器人的需求度高價(jià)格不敏感;

家庭服務(wù)機(jī)器人:

家務(wù)機(jī)器人、陪伴機(jī)器人等，toC 場景的價(jià)格敏感度較高，并且家庭是非結(jié)構(gòu)化環(huán)境，外部環(huán)境和任務(wù)較為復(fù)雜，因此落地進(jìn)度或慢于toB 場景；

通用型人形機(jī)器人:

人形機(jī)器人具有最完善的具身智能，能夠集成各項(xiàng)人工智能技術(shù)，也是最為通用的機(jī)器人類型，潛在應(yīng)用空間最為廣闊，或成為機(jī)器人的終極形態(tài)。

文章來源：申萬宏源研究文章編輯：BFT智能機(jī)器人系統(tǒng)

更多精彩內(nèi)容請關(guān)注公眾號(hào)：BFT機(jī)器人

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問，請與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙

01

02

03

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙

01

02

03

本文作者的其他文章

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài)，具身智能是關(guān)鍵鑰匙的評論 (共條)