【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(17)——ChatGPT幫你控制機(jī)器人
今天發(fā)現(xiàn)了一篇論文,其實(shí)也沒(méi)有太當(dāng)回事。粗略看一下,用ChatGPT在機(jī)器人領(lǐng)域搞事,大概也就是玩具應(yīng)用吧,水個(gè)動(dòng)態(tài)得了。晚上讀這篇論文發(fā)現(xiàn)這篇論文有點(diǎn)東西的,于是打算再講一講。此篇應(yīng)該比較短。


1.最先想到強(qiáng)化學(xué)習(xí)
談到機(jī)器人控制、使用API、做決策,我最先想到的當(dāng)然是強(qiáng)化學(xué)習(xí)了。雖然強(qiáng)化學(xué)習(xí)的戰(zhàn)績(jī)真的很優(yōu)秀,AlphaGO用了強(qiáng)化學(xué)習(xí)、ChatGPT也用了強(qiáng)化學(xué)習(xí)甚至最近谷歌也在研究在機(jī)器視覺(jué)領(lǐng)域搞強(qiáng)化學(xué)習(xí),但本尊的強(qiáng)化學(xué)習(xí)其實(shí)還是處于欠發(fā)展的階段,至少transformer在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用都還在探索過(guò)程中。
一聯(lián)想到強(qiáng)化學(xué)習(xí),我就默認(rèn)這篇論文可能是玩具研究了。

2.這篇論文想做什么
這篇論文想做的其實(shí)非常簡(jiǎn)單,即將自然語(yǔ)言通過(guò)ChatGPT轉(zhuǎn)化為符合物理和邏輯規(guī)律的機(jī)器人指令序列,或者說(shuō),讓人類指揮ChatGPT根據(jù)API指導(dǎo)機(jī)器人完成一定的任務(wù)。需要注意的是,這里的API并不是很多情況下很高級(jí)的API(例如就簡(jiǎn)單控制個(gè)上下左右),甚至可以是很多底層的代碼、函數(shù),或者就像論文中所說(shuō)的,它應(yīng)該要適應(yīng)各種不同的機(jī)器人。

3.這篇論文做到了什么
這篇文章給出了一些控制的例子,都挺讓我震撼的,例如控制一個(gè)機(jī)器人用視覺(jué)來(lái)投籃(甚至用的是opencv的函數(shù)來(lái)實(shí)現(xiàn)視覺(jué),RM視覺(jué)組:?)、控制一臺(tái)真正的無(wú)人機(jī)在真實(shí)世界飛行等。
用ChatGPT有什么好處呢?
(1)ChatGPT可以自己構(gòu)造復(fù)雜的概念和代碼塊。ChatGPT的能力在這里真的好用,這意味著它可以獨(dú)自開發(fā)一些新的API或API組合,一層層搭建比較復(fù)雜的控制方案
(2)ChatGPT的開放域能力。開放域能力也是ChatGPT的眾多技能之一,這意味著我們的控制可以做更多步,靈活性也更高。

4.結(jié)語(yǔ)
當(dāng)然,其實(shí)讓這玩意直接控制RM的機(jī)器人應(yīng)該還是有些勉強(qiáng),論文也提出這東西也是吃提示的,在現(xiàn)實(shí)中的應(yīng)用應(yīng)該問(wèn)題會(huì)很多
最后,非常生草的是,這篇論文是ChatGPT參與撰寫的。所以微軟你帶頭搞這種事情嗎...