最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

計(jì)算機(jī)行業(yè)報(bào)告:大模型如何引領(lǐng)具身智能新發(fā)展

2023-08-11 09:31 作者:報(bào)告派  | 我要投稿

報(bào)告出品方:長(zhǎng)江證券

以下為報(bào)告原文節(jié)選

------

1.什么是具身智能?

具身智能有哪些特點(diǎn)?

具身智能機(jī)器人需要以第一人稱的身份融入周邊環(huán)境

具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。第三人稱只能做到旁觀式學(xué)習(xí),而第一人稱可以主動(dòng)與現(xiàn)實(shí)世界互動(dòng),通過物理形態(tài)的互動(dòng)中汲取新知識(shí)。




具身智能需要高泛化性

具身智能機(jī)器人需要與復(fù)雜世界進(jìn)行互動(dòng),因此決策控制系統(tǒng)需要高泛化性

當(dāng)前機(jī)器人的感知、決策、控制系統(tǒng)由大量傳統(tǒng)算法組合而成,如SLAM算法、路徑規(guī)劃算法等;而傳統(tǒng)算法模型即使經(jīng)歷大量的訓(xùn)練,仍存在較多小概率場(chǎng)景(corner case)難以覆蓋,泛化能力較低。
以特斯拉自動(dòng)駕駛系統(tǒng)Copilot為例,2021年特斯拉輔助自動(dòng)駕駛系統(tǒng)錯(cuò)誤地把卡車的白色貨廂識(shí)別成了天空,導(dǎo)致Model Y撞上貨車發(fā)生車禍。純白的貨車停在十字路口屬于小概率場(chǎng)景,自動(dòng)駕駛算法由于沒有經(jīng)過同場(chǎng)景訓(xùn)練,所以無法生成對(duì)應(yīng)決策。




具身智能需要思維鏈能力

具身智能需要拆解復(fù)雜任務(wù)以及根據(jù)環(huán)境變化不斷調(diào)整自己的動(dòng)作和任務(wù)目標(biāo),因此需要思維鏈能力

在現(xiàn)實(shí)世界中,機(jī)器人難以一次性完成整個(gè)復(fù)雜動(dòng)作,因此需要將復(fù)雜動(dòng)作拆解成多個(gè)簡(jiǎn)單步驟完成;此外,由于現(xiàn)實(shí)世界遠(yuǎn)比機(jī)器人訓(xùn)練場(chǎng)景復(fù)雜,機(jī)器人不是唯一客體,所以在任務(wù)過程中會(huì)受到各種干擾,環(huán)境也會(huì)不斷變化;因此具身智能機(jī)器人需要較強(qiáng)的思維鏈能力。
以下圖為例,向PaLM-E機(jī)器人發(fā)出任務(wù)指令:“把零食從抽屜中拿給我”,機(jī)器人將其拆解為5個(gè)步驟。在執(zhí)行過程中,人類把機(jī)械臂抓取的零食打落回抽屜。搭載PaLM-E的機(jī)械臂仍能調(diào)整任務(wù)目標(biāo),完成任務(wù)。




大模型是具身智能機(jī)器人的必備選項(xiàng)

大模型具備高泛化性與思維鏈能力,因此成為具身智能系統(tǒng)必備選項(xiàng)

大模型的出現(xiàn)有望徹底顛覆機(jī)器人的軟件開發(fā)范式。預(yù)訓(xùn)練賦予了大模型知識(shí)壓縮的能力,因此預(yù)訓(xùn)練后的大模型具備較高的泛化能力,可以應(yīng)對(duì)從未見過的任務(wù)場(chǎng)景。有較高泛化能力的系統(tǒng)可以應(yīng)對(duì)小概率場(chǎng)景(corner case),有望大幅度降低了算法開發(fā)的復(fù)雜度。當(dāng)模型的參數(shù)擴(kuò)大到一定的量級(jí),大模型會(huì)涌現(xiàn)出思維鏈能力。因此大模型是具身智能機(jī)器人的必備選項(xiàng)。




具身智能是大模型的終極應(yīng)用場(chǎng)景

從文本到圖像再到現(xiàn)實(shí)世界,具身智能是大模型的終極應(yīng)用場(chǎng)景

目前大模型技術(shù)已從單純的大語(yǔ)言模型(LLM)發(fā)展到圖像-語(yǔ)言多模態(tài)模型(VLM);隨著谷歌圖像-語(yǔ)言-動(dòng)作多模態(tài)模型(VLA)的推出,大模型有望在人形機(jī)器人場(chǎng)景快速滲透。
從文本到圖像再到現(xiàn)實(shí)世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù)據(jù)規(guī)模的數(shù)量級(jí)迅速增長(zhǎng),大模型的應(yīng)用場(chǎng)景和價(jià)值量也成比例擴(kuò)張,具身智能有望在未來成為大模型終極應(yīng)用場(chǎng)景。




2.本輪大模型進(jìn)步對(duì)具身智能的影響?

人形機(jī)器人可以分為服務(wù)型和勞動(dòng)型

按照使用場(chǎng)景的不同,人形機(jī)器人可以分為服務(wù)型機(jī)器人

和勞動(dòng)型機(jī)器人服務(wù)型機(jī)器人主要用于客服與接待場(chǎng)景,此類場(chǎng)景對(duì)人機(jī)交互有較高需求,因此服務(wù)型機(jī)器人通常外表高度擬人,配備了人機(jī)交互系統(tǒng),有成熟的語(yǔ)言識(shí)別、合成算法;但往往機(jī)械硬件配置較低,機(jī)動(dòng)性差,難以完成精細(xì)動(dòng)作。服務(wù)型機(jī)器人的主機(jī)廠有達(dá)闥、優(yōu)必選等。
勞動(dòng)型主要用于工業(yè)、電力巡檢、安防等場(chǎng)景,可以將人力從簡(jiǎn)單重復(fù)勞動(dòng)或者重體力勞動(dòng)中解放出來。勞動(dòng)型機(jī)器人重視精準(zhǔn)動(dòng)作控制,通常配備高性能電機(jī)、高強(qiáng)度關(guān)節(jié),機(jī)動(dòng)性較強(qiáng),但難以完成復(fù)雜的人機(jī)交互。勞動(dòng)型機(jī)器人的主機(jī)廠有特斯拉、云深處、宇樹科技等。




服務(wù)型機(jī)器人-短期方案

服務(wù)型機(jī)器人的短期方案:大語(yǔ)言模型(LLM)+感知算法+決策控制算法

大語(yǔ)言模型的出現(xiàn)給服務(wù)型機(jī)器人帶來了巨大的技術(shù)供給。在大模型出現(xiàn)之前,服務(wù)型機(jī)器人的人機(jī)交互主要靠深度學(xué)習(xí)模型完成,但深度學(xué)習(xí)沒有文本生成能力,所以針對(duì)不同的問題只能給出固定答案,且由于泛化性較低只能解決常見問題。在大模型出現(xiàn)之后,機(jī)器人人機(jī)交互能力大幅度提高,只需在大模型下游搭配語(yǔ)音算法即可解決覆蓋絕大部分服務(wù)場(chǎng)景。機(jī)器人的大模型系統(tǒng)搭載于云端,全部語(yǔ)言交互由云端計(jì)算生成。

在運(yùn)動(dòng)控制方面,由于服務(wù)型機(jī)器人不需要精準(zhǔn)動(dòng)作行為,所以決策控制算法相比勞動(dòng)型機(jī)器人較為簡(jiǎn)單。服務(wù)型機(jī)器人的大模型僅僅用于人機(jī)交互方面,無法對(duì)機(jī)器人的決策控制產(chǎn)生影響。




勞動(dòng)型機(jī)器人-短期方案

勞動(dòng)型機(jī)器人的短期方案:感知算法+復(fù)雜決策控制算法

短時(shí)間內(nèi),由于多模態(tài)大模型發(fā)展尚不成熟,大模型僅能在人機(jī)交互方面為機(jī)器人賦能,在運(yùn)動(dòng)控制方面仍需技術(shù)迭代。所以在動(dòng)作控制方面,勞動(dòng)型機(jī)器人的動(dòng)作由感知算法配合復(fù)雜的決策控制算法共同完成。由于機(jī)器視覺技術(shù)仍存在短板,所以機(jī)器人往往還需要激光雷達(dá)/IMU等傳感器配合其感知環(huán)境。




人型機(jī)器人中期方案

人型機(jī)器人的中期方案:圖像-語(yǔ)言大模型(VLM)+控制算法

VLM大模型將文本數(shù)據(jù)與圖像數(shù)據(jù)混合編碼喂入深度神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練,得到了具有圖像邏輯思維能力的多模態(tài)大模型。和傳統(tǒng)的感知決策控制算法相比,VLM可以參與人形機(jī)器人的決策,僅控制部分需要傳統(tǒng)算法參與。此方案在決策方面有較強(qiáng)的泛化能力,可以應(yīng)對(duì)從未見過的場(chǎng)景,并且具備邏輯推理能力。
目前該技術(shù)方案的瓶頸在于圖像-語(yǔ)言多模態(tài)大模型尚未發(fā)展成熟,預(yù)計(jì)仍需要1-3年時(shí)間VLM才能在機(jī)器人場(chǎng)景獲得較高的滲透率。




人型機(jī)器人遠(yuǎn)期方案

人型機(jī)器人的遠(yuǎn)期方案:圖像-語(yǔ)言-動(dòng)作多模態(tài)大模型(VLA)

VLA模型是人形機(jī)器人觸及具身智能的關(guān)鍵因素。相比于圖像-語(yǔ)言模型,VLA把機(jī)器人動(dòng)作數(shù)據(jù)也作為一種模態(tài)融入大模型算法,因此可以用單個(gè)模型完成感知、決策、控制全流程計(jì)算。將動(dòng)作數(shù)據(jù)作為模態(tài)融入后,機(jī)器人動(dòng)作將成為思維鏈的一環(huán),因此決策與控制的銜接更流暢,更具邏輯性。
目前VLA方案的瓶頸在于機(jī)器人動(dòng)作數(shù)據(jù)難以匹配其他兩種模態(tài)的數(shù)據(jù)規(guī)模,所以三種模態(tài)的同步數(shù)據(jù)較為稀少,需要VLM中期方案的長(zhǎng)期積累。VLA方案預(yù)計(jì)需要2-5年時(shí)間才能獲得較高滲透率。




3.巨頭的布局和行動(dòng)?

短期:決策控制算法改良-ChatGPTforRobotics

微軟推出了ChatGPTforRobotics模式,可以大幅度提高算法開發(fā)效率

在人類用自然語(yǔ)言指派任務(wù)后,ChatGPT可以迅速根據(jù)要求生成相應(yīng)的代碼,機(jī)器人會(huì)根據(jù)代碼完成對(duì)應(yīng)任務(wù)。以往面對(duì)新任務(wù)時(shí)需要人工開發(fā)算法,ChatGPTforRobotics模式可以大幅度降低新任務(wù)的算法開發(fā)難度。
ChatGPTforRobotics模式缺點(diǎn):本質(zhì)上決策還是由人類來做,需要人實(shí)時(shí)監(jiān)督,所以距離具身智能仍有一段距離;決策過程需要人與ChatGPT的多輪互動(dòng),所以動(dòng)作延遲較大。




--- 報(bào)告摘錄結(jié)束 更多內(nèi)容請(qǐng)閱讀報(bào)告原文 ---

報(bào)告合集專題一覽 X 由【報(bào)告派】定期整理更新

(特別說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請(qǐng)參閱報(bào)告原文。)

精選報(bào)告來源:報(bào)告派


科技 / 電子 / 半導(dǎo)體 /

人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語(yǔ)音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機(jī) | 可穿戴設(shè)備 |半導(dǎo)體 | 芯片產(chǎn)業(yè) | 第三代半導(dǎo)體 | 藍(lán)牙 | 晶圓 | 功率半導(dǎo)體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測(cè) | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費(fèi)電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險(xiǎn)行業(yè) | 保險(xiǎn)科技 | 財(cái)產(chǎn)保險(xiǎn) |

計(jì)算機(jī)行業(yè)報(bào)告:大模型如何引領(lǐng)具身智能新發(fā)展的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
石楼县| 长泰县| 集贤县| 金平| 五原县| 读书| 富民县| 信阳市| 陵水| 宝坻区| 分宜县| 娄烦县| 武汉市| 姜堰市| 崇文区| 仙桃市| 安塞县| 惠来县| 河源市| 宿州市| 台北县| 宝山区| 东乌| 乐亭县| 伊春市| 连南| 瑞昌市| 房山区| 禄丰县| 长汀县| 红河县| 遂宁市| 邵阳市| 白河县| 三门峡市| 工布江达县| 神池县| 大荔县| 朔州市| 仁化县| 衡阳市|