谷歌發(fā)布RT-2大模型,讓機(jī)器人像人類那樣思考
原創(chuàng) | 文 BFT機(jī)器人

大語言模型是指基于深度學(xué)習(xí)技術(shù)的大規(guī)模預(yù)訓(xùn)練模型,它能夠通過學(xué)習(xí)大量的文本數(shù)據(jù)來生成人類類似的語言表達(dá),機(jī)器人可以通過對大量的語言數(shù)據(jù)進(jìn)行學(xué)習(xí),從中掌握人類的語言表達(dá)方式,進(jìn)而能夠更好地與人進(jìn)行交流和理解。
通過學(xué)習(xí)舉一反三的能力,機(jī)器人可以不僅僅是單純地根據(jù)輸入做出回應(yīng),還能夠具備一定的推理和判斷能力,從而更好地適應(yīng)復(fù)雜的交流場景。
7月28日,谷歌DeepMind推出了一款新的機(jī)器人模型Robotics Transformer 2(RT-2),它是全球第一個控制機(jī)器人的視覺-語言-動作(VLA)模型,它可以使機(jī)器人能夠直接通過拍攝或者感知環(huán)境的方式獲取視覺信息,通過語言理解模塊理解人類的語言指令,然后通過動作執(zhí)行模塊進(jìn)行相應(yīng)的動作操作?,F(xiàn)在不再用復(fù)雜指令,機(jī)器人也能直接像ChatGPT 一樣操縱了。

RT-2的架構(gòu)和訓(xùn)練:對一個預(yù)訓(xùn)練的VLM模型在機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行共同微調(diào)
RT-2的突出之處在于,它可以通過對少量機(jī)器人訓(xùn)練數(shù)據(jù)的處理,不僅使單個模型能夠執(zhí)行基礎(chǔ)模型中的復(fù)雜推理,還能夠輸出機(jī)器人動作。
為了展現(xiàn)RT-2的能力,谷歌通過機(jī)械臂進(jìn)行演示,在這次演示中,展示了其卓越的機(jī)器學(xué)習(xí)和人工智能技術(shù),例如,對AI說“撿起已滅絕的動物”,機(jī)械臂會在一堆塑料玩具中精準(zhǔn)的選擇恐龍。

搭載RT-2的機(jī)器人能按人類指令行事
在此之前,機(jī)器人無法可靠地理解那些它們從未接觸過的物品,也不能做到把“滅絕的動物”和“塑料恐龍玩具”聯(lián)系在一起。
谷歌DeepMind機(jī)器人技術(shù)主管Vincent表示,以往讓機(jī)器人丟垃圾必須經(jīng)過專門的訓(xùn)練,讓其理解垃圾的概念,并學(xué)會如何撿起和丟掉垃圾。然而,現(xiàn)在有了RT-2,它可以從網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)識別和處理垃圾的方法,這意味著我們不再需要針對不同場景逐一進(jìn)行訓(xùn)練了。

在所有類別中,與之前的基線相比(例如之前在大規(guī)模視覺數(shù)據(jù)集上預(yù)訓(xùn)練的RT-1模型和Visual Cortex(VC-1)等模型),RT-2的泛化性能提高到了3倍以上。RT-2在機(jī)器人數(shù)據(jù)中保持了對原始任務(wù)的性能,并提高了機(jī)器人在之前未曾見過的情景上的性能,從RT-1的32%提高到62%,顯示了大規(guī)模預(yù)訓(xùn)練的顯著好處。

思維鏈推理可以學(xué)習(xí)一個獨(dú)立的模型,既可以規(guī)劃長期技能序列,又可以預(yù)測機(jī)器人的動作
真實(shí)的世界復(fù)雜且沒有規(guī)律,機(jī)器人往往需要通過非常復(fù)雜的指令才能做到人類簡單的事情,這個過程就像人類嬰兒從無知無能逐漸成長為能夠獨(dú)立思考和行動的成年人一樣,機(jī)器人也需要通過不斷的學(xué)習(xí)和訓(xùn)練來提高自己的能力,而借助 RT-2 的強(qiáng)大功能,機(jī)器人可以自己分析更多信息,自行推斷下一步該做什么。簡而言之,RT-2 的能力在于將信息轉(zhuǎn)化為行動,這顯示了其快速適應(yīng)新環(huán)境和情況的潛力。
隨著技術(shù)的不斷發(fā)展,RT-2將為我們帶來更多的驚喜和改變,讓我們期待著機(jī)器人技術(shù)在未來的發(fā)展中發(fā)揮更大的作用。
作者?| 音音
排版 | 居居手
更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人
(公眾號后臺回復(fù)“優(yōu)惠活動”查看BFT機(jī)器人年終鉅惠福利內(nèi)容)
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時(shí)回應(yīng)。