像教小孩一樣訓(xùn)練AI大模型!谷歌Deepmind如何指導(dǎo)訓(xùn)練機(jī)器人任務(wù)
谷歌DeepMind有一個(gè)名為RT-2人工智能模型,可以指導(dǎo)它從未被訓(xùn)練過的機(jī)器人任務(wù)。
該模型從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí)。然后,它將此信息轉(zhuǎn)換為機(jī)器的簡單說明。
在測試中,該模型被要求采取機(jī)器人數(shù)據(jù)中從未見過的動(dòng)作,例如將橙子放入匹配的碗中。為了遵循這些命令,系統(tǒng)必須從基于網(wǎng)絡(luò)的數(shù)據(jù)中轉(zhuǎn)換知識(shí)。根據(jù)DeepMind的數(shù)據(jù),該模型在這些操作中取得了62%的成功率 - 是其前身RT-1模型的兩倍。
“就像語言模型在網(wǎng)絡(luò)上的文本上進(jìn)行訓(xùn)練以學(xué)習(xí)一般思想和概念一樣,RT-2從網(wǎng)絡(luò)數(shù)據(jù)中轉(zhuǎn)移知識(shí)以告知機(jī)器人行為,”DeepMind機(jī)器人負(fù)責(zé)人Vincent Vanhoucke說?!皳Q句話說,RT-2可以說是真正的機(jī)器人。
測試表明RT-2具有令人印象深刻的泛化能力。它還改進(jìn)了以前從未遇到過的對(duì)機(jī)器人數(shù)據(jù)的語義和視覺理解。
此外,該模型可以使用基本的推理來遵循新的用戶命令。令人印象深刻的是,它甚至可以執(zhí)行多階段語義推理。例如,當(dāng)指示選擇一個(gè)可以用作錘子的物體時(shí),RT-2正確地將巖石識(shí)別為最佳選擇。
在另一項(xiàng)評(píng)估中,該模型被命令將一瓶番茄醬推向藍(lán)色立方體。
場景中有幾個(gè)項(xiàng)目,但訓(xùn)練數(shù)據(jù)集中唯一的項(xiàng)目是立方體。盡管如此,RT-2還是成功地將番茄醬推向了指定的目的地。
DeepMind將RT-2視為人工智能的突破。倫敦實(shí)驗(yàn)室表示,該模型使我們更接近有用機(jī)器人的未來。.
“RT-2不僅展示了人工智能的進(jìn)步如何迅速級(jí)聯(lián)到機(jī)器人技術(shù)中,它還顯示了對(duì)更多通用機(jī)器人的巨大希望,”Vanhoucke說。“雖然在以人為中心的環(huán)境中啟用有用的機(jī)器人仍有大量工作要做,但RT-2向我們展示了機(jī)器人技術(shù)的令人興奮的未來。
從谷歌DeepMind? RT-2的訓(xùn)練方式來看,這不就是像教會(huì)小孩一樣訓(xùn)練學(xué)習(xí)各種事物?難怪大模型越來越變得聰明,不是嗎?
參考來源:https://robotics-transformer2.github.io/assets/rt2.pdf