最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

行業(yè)報告 | 行業(yè)機器人,正在走向現(xiàn)實

2023-05-23 11:09 作者:BFT白芙堂機器人  | 我要投稿

原創(chuàng) | 文 BFT機器人?


圖片

01

核心要點


過去一年機器人產(chǎn)業(yè)發(fā)展迅速,AI 和機械技術(shù)新成果不斷。


1) 2022 特斯拉 AI 日活動中首次推出人形機器人 Optimus 原型機。


2) 微軟將ChatGPT 的能力擴展到機器人領(lǐng)域,用語言直觀地控制機械臂、無人機、家庭助理機器人等多個平臺。


3 )谷歌推出有 5620 億參數(shù)的 PalM-E 模型將 540B PaLM 和 ViT-22B 結(jié)合,用于機器人規(guī)劃操作。


4)騰訊推出自研機器人靈巧手 TRX-Hand 和機械臂 TRX-Arm,靈活程度堪比人手。


5) 第六屆數(shù)字中國建設(shè)峰會上,阿里 CEO 張勇透露,阿里云工程師正在實驗將千問大模型接入工業(yè)機器人。


6)NVIDIA 創(chuàng)始人黃仁勛在比利時舉行的ITF 2023 年半導(dǎo)體大會上表示下一波人工智能浪潮是“具身智能(embodied AI)”,并展示了多模態(tài)人工智能系統(tǒng) VIMA。


7)特斯拉 2023股東大會上發(fā)布了人形機器人 Optimus 最新進展演示,包括電機轉(zhuǎn)矩控制能力: 環(huán)境探索與記憶能力: 基于人類動作演示的 AI 訓(xùn)練方式: 端到端的控制能力。


多模態(tài) GPT 是通向行業(yè)機器人的鑰匙。


行業(yè)機器人相對通用機器人,聚焦于特定領(lǐng)域,分為工業(yè)機器人、服務(wù)機器人和特種機器人。行業(yè)機器人的實現(xiàn)難度相對通用機器人更低,而多模態(tài) GPT 的發(fā)展是通往行業(yè)機器人的鑰匙。多模態(tài) GPT 助力機器人在交互能力、規(guī)劃控制能力、泛化能力、感知能力等多方面得到極大提升。


從今年下半年開始的 5年內(nèi),隨著 GPT 的發(fā)展帶來 AI泛化能力提升,以及硬件水平的提高,通用視覺、通用機械臂、通用 AGV、行業(yè)機器人、真正的智能家居會進入生活未來 5~10 年,結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領(lǐng)域得到應(yīng)用。


ViT+GPT 成為典型范式。


ViT 是可行性得到了充分驗證的實現(xiàn)多模態(tài)的典型方案,將語言模型的 transformer 架構(gòu)用于視覺模型,代替了傳統(tǒng)的CNN,統(tǒng)一了 CV和 NLP 的架構(gòu)。建議關(guān)注算法&行業(yè)機器人潛力和硬件供應(yīng)商公司,具體分析可見 2023 年 5月3日的報告《下半年的超級場景:多模態(tài) GPT》


02


機器人產(chǎn)業(yè)發(fā)展迅速,

AI和機械技術(shù)新成果不斷


2022年10月1日,特斯拉推出人形機器人Optimus。


2022年10月1日,特斯拉AI日活動中特斯拉人形機器人擎天柱 Optimus 原型機正式亮相,全身具有 40 個執(zhí)行器。


分別為身體上 28 個結(jié)構(gòu)執(zhí)行器與手部 12 個執(zhí)行器。身體執(zhí)行器分為 6類,從各項指標(biāo)推測,為3 類使用諧波方案+3 類直線傳動方案,分別為肩部 6 個、肘部 2個、腕部 6個、腰部2個、髓部 6個、膝部2個、踝部 4個。


初代原型機 Bumble C 現(xiàn)場展示了行走、揮手等功能,并播放了該版本機器人在辦公室澆水、在工廠搬運盒子與零部件的視頻,展現(xiàn)了基本功能實現(xiàn)與承重能力。二代機 Optimus 由于出廠時間短尚未將行走功能訓(xùn)練成熟,但指關(guān)節(jié)快速進行了 1、2、6、握拳等動作,展示了高精度與高靈敏度,給未來功能迭代提供了極大想象空間。


圖片

2023 年 2月,微軟將 ChatGPT 的能力擴展到機器人領(lǐng)域,用語言直觀地控制機械臂、無人機、家庭助理機器人等多個平臺。


圖片

2023年3月6日,谷歌推出有 5620億參數(shù)的 PalM-E模型,將540B PaLM和ViT22B 結(jié)合。


通過 ViT 將連續(xù)的具體觀察結(jié)果 (例如圖像、狀態(tài)估計或其他傳感器模態(tài)以類似于語言的方式注入到語言模型中,可以執(zhí)行多種具體任務(wù),包括機器人操作規(guī)劃、視覺問題解答、生成字幕等。并具備能與數(shù)據(jù)集中不存在的物體交互的泛化能力。


圖片


圖片

2023年4月25日,騰訊推出自研機器人靈巧手TRX-Hand 和機械臂TRX-Arm,靈活程度堪比人手。


圖片

據(jù)科創(chuàng)版日報消息,4月 27 日,在第六屆數(shù)字中國建設(shè)峰會上,阿里巴巴董事會主席兼CEO、阿里云智能集團 CEO 張勇透露,阿里云工程師正在實驗將千問大模型接入工業(yè)機器人。


在釘釘對話框輸入一句人類語言,可遠(yuǎn)程指揮機器人工作。阿里云當(dāng)天發(fā)布的一個演示視頻,展現(xiàn)了這一實驗成果?!拔铱柿?,找點東西喝吧?!惫こ處熗ㄟ^釘釘對話框向機器人發(fā)出指令后,千問大模型立即理解了指令內(nèi)容并回答,“好的,我找找有什么喝的?!彪S后,千問大模型在后臺自動編寫了一組代碼發(fā)給機器人,機器人開始識別周邊環(huán)境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,順利遞送給工程師。


圖片

資料來源國盛證券


2023年5月17 日,NVIDIA 創(chuàng)始人黃仁勛在比利時舉行的ITF 2023 年半導(dǎo)體大會上表示:下一波人工智能浪潮是“具身智能 (embodied AI)”,即能夠理解、推理并與物理世界互動的智能系統(tǒng),包括機器人、自動駕駛汽車等。


具體來說,具身智能能夠通過自己的物理軀體來與環(huán)境交互感知,然后自主進行規(guī)劃、決策和行動,而不是被動的等待數(shù)據(jù)投喂。


黃仁勛在會上還向觀眾介紹了多模態(tài)人工智能系統(tǒng) VIMA,許多機器人操作任務(wù)可以表示為交錯語言和圖像1視頻幀的多模態(tài)提示,VIMA 能夠處理這些提示并自回歸地輸出電機動作。


VIMA 使用預(yù)訓(xùn)練的 T5 模型對多模態(tài)提示進行編碼,并通過交叉注意層對機器人控制器進行調(diào)節(jié)。該控制器是一個 trasformer 解碼器,可以預(yù)測以提示和交互歷史為條件的電機命令。


VIMA 可以根據(jù)視覺文本提示執(zhí)行任務(wù),例如“重新排列對象以匹配此場景”??梢詫W(xué)習(xí)概念并采取相應(yīng)的行動,例如“這是一個小部件”、“那是一個東西”,然后“把這個小部件放在那個東西里”。VIMA在NVIDIAAL上運行,其數(shù)字空生在 3D開發(fā)和模擬平臺 NVIDIA Omniverse 中運行。


黃仁勛說,了解物理學(xué)的人工智能可以學(xué)習(xí)模仿物理學(xué)并做出符合物理定律的預(yù)測。


圖片


為了訓(xùn)練和評估 VIMA,NVIDIA 開發(fā)了一個新的模擬基準(zhǔn) VIMA-Bench。


其中包含數(shù)千個帶的有多模態(tài)提示的桌面任務(wù)、600K+用于模仿學(xué)習(xí)的專家軌跡,以及用于系統(tǒng)泛化的四個級別評估協(xié)議。VIMA 在模型容量和數(shù)據(jù)大小上都實現(xiàn)了強大的可擴展性。在給定相同訓(xùn)練數(shù)據(jù)的情況下,它在最難的零樣本泛化任務(wù)中能優(yōu)于之前的 SOTA 方法。


圖片

特斯拉 2023 股東大會上,人形機器人 Optimus 發(fā)布了最新進展。


包括電機轉(zhuǎn)矩控制能力、環(huán)境探索與記憶能力、基于人類動作演示的 AI 訓(xùn)練方式; 端到端的控制,提升復(fù)雜任務(wù)能力。


圖片

圖片

圖片

馬斯克在股東會上表示 Optimus 機器人的電機、控制器和電子設(shè)備,全部是自主設(shè)計的因為特斯拉有世界一流的電機和電子團隊。


同時對于 FSD,馬斯克覺得其實也越來越接近廣義的現(xiàn)實世界的人工智能了。特斯拉開發(fā)的 AI系統(tǒng)希望未來可以轉(zhuǎn)移到任何東西上。


馬斯克認(rèn)為特斯拉現(xiàn)在做的工作,其實是被極大的低估的。


未來人形機器人的需求,可能會遠(yuǎn)遠(yuǎn)超過對汽車的需求。所以馬斯克個人預(yù)測,對于特斯拉長期來講,未來長期價值可能都是 Optimus 給的,并且對這個預(yù)測非常有信心。


03


多模態(tài)GPT是通向行業(yè)機器人的鑰匙


行業(yè)機器人,相對于通用機器人,聚焦于完成特定行業(yè)的需求,又可以分為三大類:


工業(yè)機器人:?


應(yīng)用于制造業(yè)代替人工,目前已經(jīng)廣泛應(yīng)用于汽車、電子、化工等行業(yè)。


服務(wù)機器人:


應(yīng)用于直接服務(wù)人類用戶,包括零售、餐飲、醫(yī)療、教育等場景。


特種機器人:


應(yīng)用于極端環(huán)境或是特殊任務(wù),比如在極端天氣、礦難、洪災(zāi)、火災(zāi)等事件中進行救援或是太空、深海探索等特殊場景。


行業(yè)機器人的實現(xiàn)難度相對通用機器人更低,而多模態(tài) GPT 的發(fā)展是通往行業(yè)機器人的鑰匙。多模態(tài) GPT 助力機器人在交互能力、規(guī)劃控制能力、泛化能力、感知能力等多方面得到極大提升。


交互能力:?


傳統(tǒng)的模型往往只能讓機器人理解少數(shù)特定指令,甚至無法通過自然語言下達指令。GPT模型能讓機器人更好地理解人類指令,從而更好地完成各類需求,使用自然語言與機器人交互也能極大提升用戶交互體驗。


規(guī)劃控制能力:


傳統(tǒng)的機器人模型難以實現(xiàn)復(fù)雜任務(wù),GPT 模型具備很強的邏輯能力,可以賦能機器人完成復(fù)雜的規(guī)劃控制操作。這種能力在 ChatGPT 的代碼能力上便能體現(xiàn),寫代碼是邏輯性很強且需要多步驟的復(fù)雜任務(wù)。


2022 年谷歌的論文《Chain-of-Thought Prompting Elicits Reasoning in Large Lanquage Models》也探索過使用思維鏈提示法,能激發(fā)出大型語言模型處理復(fù)雜問題的推理能力。


泛化能力:?


機器人應(yīng)用的下游場景差別很大,若想要實現(xiàn)應(yīng)用大規(guī)??焖俾涞?,需要增強模型泛化能力,提升模型的通用性,以降低推廣成本。GPT模型作為生成式模型,具備很強泛化能力,比如 chatqpt 有很強的多語言能力,即使其大部分訓(xùn)練數(shù)據(jù)為英文,并且在翻譯、對話和文本生成等各類不同任務(wù)。


感知能力:?


多模態(tài)的發(fā)展讓機器人可以同時處理包括視覺、文本、傳感器等不同模態(tài)的輸入,賦予機器人更強的感知能力。


2023年 1月 19 日,工信部等十七部門發(fā)布《“機器人+”應(yīng)用行動實施方案》。方案中提出目標(biāo): 到 2025年,制造業(yè)機器人密度較 2020 年實現(xiàn)翻番,服務(wù)機器人、特種機器人行業(yè)應(yīng)用深度和廣度顯著提升,機器人促進經(jīng)濟社會高質(zhì)量發(fā)展的能力明顯增強。


從今年下半年開始的 1~5 年內(nèi),隨著 GPT 的發(fā)展帶來 AI 泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業(yè)服務(wù)機器人、真正的智能家居會進入生活。在5-10 年內(nèi),結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領(lǐng)域得到應(yīng)用。


04


ViT+GPT是典型范式


ViT 模型將語言模型的 transformer 架構(gòu)用于視覺模型,代替了傳統(tǒng)的 CNN,統(tǒng)一了CV和NLP 的架構(gòu)。


Transformer 架構(gòu)從 2017 年被提出以來,迅速代替 RNN 成為了自然語言處理的主流架構(gòu),但視覺領(lǐng)域依然以 CNN 結(jié)構(gòu)為主。2020 年 10 月,谷歌推出VisionTransformer ( ViT) 模型,證明了不使用 CNN,直接將 Transformer 結(jié)構(gòu)應(yīng)用于視覺模型也可以很好地執(zhí)行圖像分類任務(wù)。


Transformer 將句子中的每個詞 (token) 并行輸入編碼器,ViT 直接將圖像拆分為多個塊,將每個塊的位置和包含的圖像信息當(dāng)做是一個詞,輸入到編碼器中,訓(xùn)練好的編碼器可以將圖像輸出為一個包含了圖像特征的編碼,類似于在語言模型中將一句話輸出為一個包含了語言信息的編碼,之后通過 MLP 層將編碼器的輸出轉(zhuǎn)化為不同分類的概率。


圖片


ViT 應(yīng)用于各種模態(tài),使用 transformer 編碼器得到包含輸入模態(tài)特征的編碼,可行性已經(jīng)得到了以上業(yè)界眾多工作的驗證,成為了多模態(tài) GPT 的典型范式。


出品:國盛證券

告編輯:智能機器人系統(tǒng)



更多精彩內(nèi)容請關(guān)注公眾號:BFT機器人

本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。

行業(yè)報告 | 行業(yè)機器人,正在走向現(xiàn)實的評論 (共 條)

分享到微博請遵守國家法律
如皋市| 通榆县| 务川| 峡江县| 玉环县| 正安县| 中阳县| 二手房| 百色市| 拉萨市| 承德县| 新乡市| 长葛市| 大余县| 陆丰市| 奉贤区| 美姑县| 武隆县| 会宁县| 翁牛特旗| 南乐县| 麻城市| 邢台县| 江阴市| 霍邱县| 商河县| 金华市| 九江县| 德清县| 辽阳市| 漠河县| 河曲县| 乌兰察布市| 祁门县| 宁远县| 共和县| 留坝县| 平昌县| 沅江市| 中西区| 锡林郭勒盟|