最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài),具身智能是關(guān)鍵鑰匙

2023-05-23 10:24 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

圖片


01


“具身智能”機(jī)器人是人工智能終極形態(tài)


近期英偉達(dá)創(chuàng)始人CEO黃仁勛強(qiáng)調(diào)“具身智能”的重大價(jià)值。


黃仁勛在ITF Wold2023半導(dǎo)體大會(huì)上表示,人工智能的下一個(gè)浪潮是具身智能(Embodied AI),即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng),比如機(jī)器人、自動(dòng)駕駛汽車,甚至聊天機(jī)器人,他們都能很好的理解物理世界。同時(shí),黃仁勛公布 Nividia VIMA,一個(gè)多模態(tài)具身視覺語言模型。據(jù)介紹,VIMA 可以通過視覺執(zhí)行任務(wù),也可以通過文本提示來做任務(wù),比如重新排列這些方塊以與場景匹配;它能明白概念,采取適當(dāng)行動(dòng),他可以在演示中學(xué)習(xí),并且將行為控制在合理范疇內(nèi)。

什么是具身智能?具身智能意味著什么?


具身智能”的機(jī)器人是人工智能的終極形態(tài)。


1950年,圖靈在他的論文一《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是,有身體并支持物理交的智能體,如智能服務(wù)機(jī)器人、自動(dòng)駕駛汽車等,具身智能機(jī)器人指的是,像人一樣能夠與環(huán)境交互感知、自助規(guī)劃、決策、行動(dòng)、執(zhí)行任務(wù)的機(jī)器人。


它包含人工智能領(lǐng)域幾乎所有的技術(shù),包括機(jī)器視覺、自然語言理解、認(rèn)知和推理、機(jī)器人學(xué)、博弈倫理、機(jī)器學(xué)習(xí)等,橫跨多個(gè)學(xué)科方向,是人工智能的集大成者。


圖片

資料來源:申萬宏源研究


現(xiàn)有機(jī)器人難以適應(yīng)現(xiàn)實(shí)世界,是因?yàn)槠鋵W(xué)習(xí)模式為“旁觀型學(xué)習(xí)方式”。


目前大部分深度學(xué)習(xí)模型訓(xùn)練使用的數(shù)據(jù)來自于互聯(lián)網(wǎng)(Internat AI)而非現(xiàn)實(shí)世界第一人稱視角只能學(xué)習(xí)到數(shù)據(jù)中心的固定模式,但無法在真實(shí)世界中直接學(xué)習(xí),因此也無法適應(yīng)真實(shí)世界。現(xiàn)實(shí)當(dāng)中的人類是通過對現(xiàn)實(shí)世界的觀察、互動(dòng)、反饋等學(xué)習(xí),大腦中的部分認(rèn)知依賴物理身體與世界持續(xù)不斷的交互,因此學(xué)習(xí)到越來越多的技能來適應(yīng)環(huán)境。


具身智能是通往通用人工智能的關(guān)鍵鑰匙,賦予機(jī)器人實(shí)踐學(xué)習(xí)的能力。


斯坦福大學(xué)的李飛飛教授稱“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”上海交通大學(xué)的盧策吾教授通過貓學(xué)習(xí)走路來做出形象比喻:“如圖中的貓樣,主動(dòng)貓是具身的智能,它可以在環(huán)境中自由行動(dòng),從而學(xué)習(xí)行走的能力。被動(dòng)貓只能被動(dòng)的觀察世界,最終失去了行走能力?!?/p>


實(shí)踐性學(xué)習(xí)方法與旁觀型學(xué)方法的不同點(diǎn)在于,實(shí)踐性學(xué)習(xí)是機(jī)器人像人一樣,通過物理身體與環(huán)境的互動(dòng)來學(xué)習(xí),可以主動(dòng)感知或者執(zhí)行任務(wù)的方法來感知世界,對世界進(jìn)行建模,增強(qiáng)對世界的認(rèn)知和鍛煉行能力。


圖片
圖片

具身智能的現(xiàn)實(shí)應(yīng)用存在諸多難點(diǎn),涉及到多學(xué)科知識(shí)。


拆解具身智能的應(yīng)用過程當(dāng)人要求機(jī)器人完成某一項(xiàng)任務(wù),機(jī)器人要經(jīng)過的步驟包括:能夠聽懂人類語言 分解任務(wù)規(guī)劃子任務(wù)移動(dòng)中識(shí)別物體 與環(huán)境交互 最終完成相應(yīng)任務(wù)。這個(gè)過程涉及到自然語言理解、邏輯推理、機(jī)器視覺、運(yùn)動(dòng)控制、機(jī)器學(xué)習(xí)、運(yùn)動(dòng)規(guī)劃、機(jī)械控制等。因此要實(shí)現(xiàn)完全的具身智能,依然有很長的一段路要走。


02


谷歌、微軟、UCBerkeley等走在技術(shù)前沿

具身智能已成為全球?qū)W術(shù)和企業(yè)的重要的研究方向。


今年的 IROS(機(jī)器人領(lǐng)域頂級學(xué)術(shù)會(huì)議)將具身智能作為重要主題。目前谷歌、微軟等技術(shù)團(tuán)隊(duì)、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地。參考申萬TMT 團(tuán)隊(duì)的《跨模態(tài):更多應(yīng)用場景出現(xiàn),中國公司得到更大機(jī)會(huì)》、《Meta 發(fā)布 SAM 分割模型,或成 CV大模型第一步》,我們對最新的機(jī)器人算法模型進(jìn)行梳理:


谷歌:視覺語言大模型 PaLM-E


2023年3月6日,來自谷歌和德國林工業(yè)大學(xué)的一組人工智能研究人員公布了史上最大視覺語言模型 PaLM-E( Pathways Language Model with Embodied)。


PaLM 包括了 40B 語言模型與 22B 視覺 ViT(Vison Transformer)模型,最終參數(shù)量達(dá) 562E。PaLM-E本身是個(gè)多模態(tài)的大模型不僅能理解文本,還能理解圖片(ViT)可以理解圖片中的語義信息。ViT將大模型能力泛化至CV領(lǐng)域,賦予大模型視覺能力。


兩相結(jié)合,PaLM-E 模型具備多模態(tài)能力,能觀察物理實(shí)體世界的信息,由大模型進(jìn)行分析理解,再將決策結(jié)果反饋至物理世界,由此溝通物理和虛擬兩個(gè)世界。


圖片


亮點(diǎn)在于多模態(tài)大模型應(yīng)用于人機(jī)交互領(lǐng)域。


1)發(fā)現(xiàn)參數(shù)擴(kuò)大有助于提升人機(jī)交互中的語言能力:語言模型越大,在視覺語言與機(jī)器人任務(wù)的訓(xùn)練中,保持的語言能力就越強(qiáng),5620 億參數(shù)的 PaLM-E 幾乎保持了它所有的語言能力。


2)對于機(jī)器人的長跨度、長周期任務(wù),以往通常需要人工協(xié)助, PaLM-E 通過自主學(xué)習(xí)全部完成,如下圖左。


3)展示了模型的泛化能力,研究人員要求機(jī)器人將“綠色色塊推到烏龜旁邊”的指令,即便機(jī)器人之前沒有見過這只烏龜擺,也能完成任務(wù)。


圖片

同時(shí) PaLM-E 通過分析來自機(jī)器人攝像頭的數(shù)據(jù)來實(shí)現(xiàn)對高級命令的執(zhí)行,而無需對場景進(jìn)行預(yù)處理。這消除了人類對數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要,并允許更自主的機(jī)器人控制。


Meta : SAM 分割模型


2023年4月6日,Meta 推出一個(gè)AI模型 Segment Anything Model(SAM分割一切模型),能夠根據(jù)文本指令等方式實(shí)現(xiàn)圖像分割。SAM 任務(wù)目的:零樣本( zero-shot)或者簡單 prompt 下,就對任意圖片進(jìn)行精細(xì)分割。


SAM 證明,多種多樣的分割任務(wù)是可以被一個(gè)通用大模型涵蓋的。SAM 做到的分割切并不是 CV大模型的終點(diǎn),我們期待一個(gè)模型可以無監(jiān)督完成分割、檢測、識(shí)別、跟蹤等所有 CV 任務(wù),屆時(shí)視覺大模型應(yīng)用會(huì)得到極大發(fā)展。


圖片

圖7:SAM的任務(wù)模型數(shù)據(jù)綜述


微軟: ChatGPT for Robotics


在Microsoft Research 的 ChatGPT for Robotics 文章中,研究者使用 ChatGPT生成機(jī)器人的高層控制代碼,從而可以通過自然語言和ChatGPT交流,使用 ChatGPT來控制機(jī)械臂、無人機(jī)、移動(dòng)機(jī)器人等機(jī)器人。


目前的機(jī)器人的應(yīng)用基礎(chǔ)是代碼,工程師需要經(jīng)常編寫代碼和規(guī)范來控制機(jī)器人的行為,這個(gè)過程緩慢、昂貴且低效,使用場景有限。ChatGPT 帶來一種新的機(jī)器人應(yīng)用范例通過大型語言模型(LLM)將人的語言快速轉(zhuǎn)換為代碼。在這種情境下,人們不需要學(xué)習(xí)復(fù)雜的編程語言或機(jī)器人系統(tǒng)的詳細(xì)信息,就可以控制機(jī)器人來完成各種任務(wù),更輕松的與機(jī)器人互動(dòng)。


目前實(shí)驗(yàn)已經(jīng)能夠通過給 ChatGPT的對話框輸入指令,讓其控制機(jī)器人在房間中找到“健康飲料”“有糖和紅色標(biāo)志的東西”(可樂),以及一面供無人機(jī)自拍的鏡子。


圖片

資料來源:申萬宏源研究


伯克利的 LM-Nav 模型


UC Berkeley、波蘭華沙大學(xué)聯(lián)合谷歌機(jī)器人團(tuán)隊(duì)發(fā)表論文《LM-Nav:具有大型預(yù)訓(xùn)練語言、視覺和動(dòng)作模型的機(jī)器人導(dǎo)航系統(tǒng)》,該模型結(jié)合了三種預(yù)訓(xùn)練模型,從而無需用戶注釋即可執(zhí)行自然語言指令。


其中,大語言模型(LLM)用于完成自然語言處理的任務(wù);視覺和語言模型(VLM )將圖像和文本信息進(jìn)行關(guān)聯(lián),即用戶指令和機(jī)器人視覺感知的外部環(huán)境進(jìn)行關(guān)聯(lián);視覺導(dǎo)航模型(VNM)用于從其觀察到的信息中直接進(jìn)行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時(shí)間進(jìn)行關(guān)聯(lián)


圖片

圖片


03


具身智能落地應(yīng)用機(jī)器人的方向和節(jié)奏?


隨著具身智能的發(fā)展,跨模態(tài)大模型應(yīng)用于機(jī)器人的案例不斷出現(xiàn),各行各業(yè)、各種形態(tài)的機(jī)器人有望持續(xù)涌現(xiàn)。

技術(shù)層面,我們認(rèn)為具身智能最先解決的可能是人機(jī)交互問題,現(xiàn)有GPT等多模態(tài)大語言模型已經(jīng)開始應(yīng)用,讓機(jī)器人聽得懂人的語言指令,其次解決機(jī)器人的決策能力,即分析、推理、判斷等能力,深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等將是機(jī)器人重要的學(xué)習(xí)手段,最后解決機(jī)器人的執(zhí)行能力,讓機(jī)器人處理現(xiàn)實(shí)中的復(fù)雜任務(wù)。


考慮到降本周期、應(yīng)用難度、市場接受度等因素,我們認(rèn)為最先應(yīng)用的落地的可能是價(jià)格不敏感的、應(yīng)用難度較低、市場接受度較高的機(jī)器人類型,排序如下:

商用服務(wù)機(jī)器人:


接待機(jī)器人、迎賓機(jī)器人、服務(wù)機(jī)器人、導(dǎo)購機(jī)器人等,商用場景的價(jià)格敏感度較低,應(yīng)用場景簡單,市場接受度高,或成為最先落地的場景;


特定行業(yè)的功能型機(jī)器人:


電力巡檢類操作類機(jī)器人、軌道交通的檢修機(jī)器人、礦山里的機(jī)器人、農(nóng)業(yè)機(jī)器人、建筑機(jī)器人等,此類環(huán)境危險(xiǎn)惡劣,對機(jī)器人的需求度高價(jià)格不敏感;


家庭服務(wù)機(jī)器人:


家務(wù)機(jī)器人、陪伴機(jī)器人等,toC 場景的價(jià)格敏感度較高,并且家庭是非結(jié)構(gòu)化環(huán)境,外部環(huán)境和任務(wù)較為復(fù)雜,因此落地進(jìn)度或慢于toB 場景;


通用型人形機(jī)器人:


人形機(jī)器人具有最完善的具身智能,能夠集成各項(xiàng)人工智能技術(shù),也是最為通用的機(jī)器人類型,潛在應(yīng)用空間最為廣闊,或成為機(jī)器人的終極形態(tài)。


圖片


文章來源:申萬宏源研究文章編輯:BFT智能機(jī)器人系統(tǒng)


更多精彩內(nèi)容請關(guān)注公眾號(hào):BFT機(jī)器人

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時(shí)回應(yīng)。

行業(yè)報(bào)告 | 機(jī)器人是人工智能終極形態(tài),具身智能是關(guān)鍵鑰匙的評論 (共 條)

分享到微博請遵守國家法律
乌兰察布市| 腾冲县| 雅安市| 陵川县| 天门市| 普宁市| 安化县| 白河县| 曲松县| 钟山县| 漳浦县| 营口市| 桃园县| 华蓥市| 漠河县| 修文县| 南靖县| 拜城县| 汉川市| 大兴区| 内江市| 浮山县| 资源县| 保定市| 信宜市| 河西区| 贡山| 大新县| 准格尔旗| 海口市| 咸丰县| 囊谦县| 五大连池市| 天柱县| 澳门| 绥阳县| 民权县| 汉阴县| 宁南县| 涞源县| 延吉市|