谷歌推出AI模型機器人RT2 將文本和圖像輸出為機器人動作
去年年底,ChatGPT火遍全球,全世界都見識了大語言模型的強大力量。人們對大模型不再陌生,開始使用基于大模型的應用繪畫、作圖、搜索資料、設計劇情等,而妙用不止于此。谷歌推出了Robotics Transformer 2(RT2),這是一個視覺-語言-動作(VLA)模型,可以將文本和圖像輸出為機器人動作。

?
谷歌介紹,RT-2基于Transformer模型開發(fā),根據(jù)互聯(lián)網(wǎng)上的文本和圖像進行訓練,直接指示機器人執(zhí)行動作。就像用文本訓練大語言模型學習人類知識一樣,RT-2可以將網(wǎng)絡數(shù)據(jù)喂給機器人,指導機器人的行為。為了展示RT-2的能力,谷歌發(fā)布了一個演示視頻,讓搭載RT-2的機器人完成一些它此前從未經(jīng)過訓練的項目。
視頻中,面對一堆隨意放在桌上的物品,搭載了RT-2模型的機械臂能夠聽懂人類語言并做出相應的反應。比如,命令它“撿起已滅絕的動物”,機械臂就能從獅子、鯨魚、恐龍這三個塑料玩具中準確選擇恐龍;如果命令它將香蕉放到2+1的總和的位置,機械臂直接把香蕉放在了數(shù)字3的位置;再讓它把草莓放入碗里,機器人也能夠無視蘋果、橘子等水果,選對草莓。不過,在演示過程中,機器人也出現(xiàn)了錯誤,它不能準確地識別汽水口味,這讓它看起來還有不小的優(yōu)化空間。即便還不夠完美,但機器人能夠自主理解、推理和執(zhí)行任務,已經(jīng)是一個長足的進步。
DeepMind機器人技術(shù)主管 Vincent 以“扔垃圾”這個看似簡單的操作舉例,如果想要以前的系統(tǒng)執(zhí)行丟棄垃圾的行為,必須明確訓練它識別和處理垃圾,而RT-2可以從大量網(wǎng)絡數(shù)據(jù)中學習并理解什么是垃圾,并在未經(jīng)特定訓練的情況下進行識別。盡管未曾接受過相關(guān)動作訓練,但它能掌握如何丟棄垃圾的方法?!翱紤]到垃圾的抽象性,比如各種薯片包或香蕉皮在你食用后就成為了垃圾,RT-2 能通過其視覺語言培訓數(shù)據(jù)理解這個概念,并完成任務。RT-2就給機器人輸入了認知能力,讓它能夠在互聯(lián)網(wǎng)上學習和進步,甚至還能進行一般推理。這對于機器人產(chǎn)業(yè)來說,不亞于一次物種進化。
谷歌表示,RT-2 讓我們更接近機器人的未來。機器人的靈巧性仍達不到人類水平,在一些基本任務上也會失敗,但谷歌利用人工智能語言模型,賦予機器人推理和隨機應變的新技能,是一個很有希望的突破。相信,隨著人工智能技術(shù)的不斷發(fā)展,機器人將越來越多地被用于執(zhí)行各種任務。
相關(guān)素材整理于《為機器人裝“大腦” 谷歌發(fā)布RT-2大模型》一文
?