最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

動嘴操控“終結(jié)者”!谷歌打造最強(qiáng)chatgpt機(jī)器人

2023-08-01 18:43 作者:AI研習(xí)所  | 我要投稿

我們知道,在掌握了網(wǎng)絡(luò)中的語言和圖像之后,大模型終究要走進(jìn)現(xiàn)實(shí)世界,「具身智能」應(yīng)該是下一步發(fā)展的方向。把大模型接入機(jī)器人,用簡單的自然語言代替復(fù)雜指令形成具體行動規(guī)劃,且無需額外數(shù)據(jù)和訓(xùn)練,這個愿景看起來很美好,但似乎也有些遙遠(yuǎn)。畢竟機(jī)器人領(lǐng)域,難是出了名的。然而 AI 的進(jìn)化速度比我們想象得還要快。

  上周五,谷歌 DeepMind 宣布推出 RT-2:全球第一個控制機(jī)器人的視覺 - 語言 - 動作(VLA)模型?,F(xiàn)在不再用復(fù)雜指令,機(jī)器人也能直接像 ChatGPT 一樣操縱了。給機(jī)器人發(fā)命令,從沒這么簡單過。

  RT-2 到達(dá)了怎樣的智能化程度?

加載了RT-2多任務(wù)模型的機(jī)械臂可以直接聽從人類的語言指令做出反應(yīng)。比如命令它“撿起已滅絕的動物”,機(jī)械臂就能從獅子、鯨魚、恐龍這三個塑料玩具中準(zhǔn)確選擇恐龍;


在此之前,機(jī)器人無法可靠地理解它們從未見過的物體,更無法做把「滅絕動物」到「塑料恐龍玩偶」聯(lián)系起來這種有關(guān)推理的事。

  命令它將香蕉放到2+1的總和的位置,機(jī)械臂就能準(zhǔn)確將香蕉放置在數(shù)字3的位置;



跟機(jī)器人說,把可樂罐給泰勒?斯威夫特:  


  乍一看上述行為沒什么了不起,但細(xì)思不由得令人瞠目稱奇。過去的機(jī)器人只能完成極為準(zhǔn)確的單一指令,而有了RT-2加持的機(jī)器人甚至已經(jīng)可以獨(dú)立進(jìn)行思考,完成符號、數(shù)字、圖像、物品的理解和推理。也就是說該模型可以教會機(jī)器人更好地識別視覺和語言模態(tài),能夠解釋人類用自然語言發(fā)出的指令,并推斷出如何做出相應(yīng)的行動。真正突破了傳統(tǒng)數(shù)據(jù)庫記錄復(fù)刻的基礎(chǔ)形態(tài),進(jìn)化成為自主知識推理應(yīng)用的高級形態(tài)。

RT-2 是如何實(shí)現(xiàn)的?

  高容量視覺語言模型(VLM)在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,使這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進(jìn)行操作。但要讓機(jī)器人達(dá)到類似的能力水平,他們需要收集每個物體、環(huán)境、任務(wù)和情況的第一手機(jī)器人數(shù)據(jù)。 RT-2 建立在視覺 - 語言模型(VLM)的基礎(chǔ)上,又創(chuàng)造了一種新的概念:視覺 - 語言 - 動作(VLA)模型,它可以從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中進(jìn)行學(xué)習(xí),并將這些知識轉(zhuǎn)化為機(jī)器人可以控制的通用指令。該模型甚至能夠使用思維鏈提示,比如哪種飲料最適合疲憊的人 (能量飲料)。


RT-2 架構(gòu)及訓(xùn)練過程

其實(shí)早在去年,谷歌就曾推出過 RT-1 版本的機(jī)器人,只需要一個單一的預(yù)訓(xùn)練模型,RT-1 就能從不同的感官輸入(如視覺、文本等)中生成指令,從而執(zhí)行多種任務(wù)。

  作為預(yù)訓(xùn)練模型,要想構(gòu)建得好自然需要大量用于自監(jiān)督學(xué)習(xí)的數(shù)據(jù)。RT-2 建立在 RT-1 的基礎(chǔ)上,并且使用了 RT-1 的演示數(shù)據(jù),這些數(shù)據(jù)是由 13 個機(jī)器人在辦公室、廚房環(huán)境中收集的,歷時 17 個月。

前面我們已經(jīng)提到 RT-2 建立在 VLM 基礎(chǔ)之上,其中 VLM模型已經(jīng)在 Web 規(guī)模的數(shù)據(jù)上訓(xùn)練完成,可用來執(zhí)行諸如視覺問答、圖像字幕生成或物體識別等任務(wù)。此外,研究人員還對先前提出的兩個 VLM 模型 PaLI-X(Pathways Language and Image model)和 PaLM-E(Pathways Language model Embodied)進(jìn)行了適應(yīng)性調(diào)整,當(dāng)做 RT-2 的主干,并將這些模型的視覺 - 語言 - 動作版本稱為 RT-2-PaLI-X 以RT-2-PaLM-E 。為了使視覺 - 語言模型能夠控制機(jī)器人,還差對動作控制這一步。該研究采用了非常簡單的方法:他們將機(jī)器人動作表示為另一種語言,即文本 token,并與 Web 規(guī)模的視覺 - 語言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。
對機(jī)器人的動作編碼基于 Brohan 等人為 RT-1 模型提出的離散化方法。如下圖所示,該研究將機(jī)器人動作表示為文本字符串,這種字符串可以是機(jī)器人動作 token 編號的序列,例如「1 128 91 241 5 101 127 217」。


  該字符串以一個標(biāo)志開始,該標(biāo)志指示機(jī)器人是繼續(xù)還是終止當(dāng)前情節(jié),然后機(jī)器人根據(jù)指示改變末端執(zhí)行器的位置和旋轉(zhuǎn)以及機(jī)器人抓手等命令。由于動作被表示為文本字符串,因此機(jī)器人執(zhí)行動作命令就像執(zhí)行字符串命令一樣簡單。有了這種表示,我們可以直接對現(xiàn)有的視覺 - 語言模型進(jìn)行微調(diào),并將其轉(zhuǎn)換為視覺 - 語言 - 動作模型。

  在推理過程中,文本 token 被分解為機(jī)器人動作,從而實(shí)現(xiàn)閉環(huán)控制。


  實(shí)驗(yàn)

  研究人員對 RT-2 模型進(jìn)行了一系列定性和定量實(shí)驗(yàn)。

  下圖展示了 RT-2 在語義理解和基本推理方面的性能。例如,對于「把草莓放進(jìn)正確的碗里」這一項(xiàng)任務(wù),RT-2 不僅需要對草莓和碗進(jìn)行表征理解,還需要在場景上下文中進(jìn)行推理,以知道草莓應(yīng)該與相似的水果放在一起。而對于「拾起即將從桌子上掉下來的袋子」這一任務(wù),RT-2 需要理解袋子的物理屬性,以消除兩個袋子之間的歧義并識別處于不穩(wěn)定位置的物體。需要說明的是,所有這些場景中測試的交互過程在機(jī)器人數(shù)據(jù)中從未見過。


  下圖表明在四個基準(zhǔn)測試上,RT-2 模型優(yōu)于之前的 RT-1 和視覺預(yù)訓(xùn)練 (VC-1) 基線。


  RT-2 保留了機(jī)器人在原始任務(wù)上的性能,并提高了機(jī)器人在以前未見過場景中的性能,從 RT-1 的 32% 提高到 62%。


  一系列結(jié)果表明,視覺 - 語言模型(VLM)是可以轉(zhuǎn)化為強(qiáng)大的視覺 - 語言 - 動作(VLA)模型的,通過將 VLM 預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,可以直接控制機(jī)器人。

  和 ChatGPT 類似,這樣的能力如果大規(guī)模應(yīng)用起來,世界會發(fā)生重大改變。它可能真正開啟了在有人環(huán)境下使用機(jī)器人的大門,所有需要體力勞動的崗位都會被替代?;蛟S,機(jī)器人總動員中,那個聰明的瓦力離我們不遠(yuǎn)了。


動嘴操控“終結(jié)者”!谷歌打造最強(qiáng)chatgpt機(jī)器人的評論 (共 條)

分享到微博請遵守國家法律
罗甸县| 敦化市| 和龙市| 马尔康县| 绿春县| 长治市| 泸溪县| 和林格尔县| 益阳市| 顺昌县| 孝感市| 达日县| 古蔺县| 乌恰县| 大同县| 通州市| 文昌市| 白银市| 澳门| 镇赉县| 瓮安县| 南部县| 德庆县| 四会市| 潜江市| 龙门县| 广平县| 司法| 云南省| 保德县| 清原| 哈巴河县| 寿宁县| 五寨县| 南昌市| 云南省| 陆良县| 湖口县| 红原县| 长武县| 荆门市|