GPT-4玩《我的世界》15倍速攀科技,不看畫面全靠代碼操作
把GPT-4放進(jìn)一個(gè)虛擬世界會(huì)怎么樣?比如《我的世界》。
英偉達(dá)開發(fā)最新方法Voyager,在游戲中點(diǎn)亮科技樹的速度是此前方法的15.3倍,同時(shí)獲得的獨(dú)特物品是此前的3.3倍,探索范圍是2.3倍。

更關(guān)鍵的是,Voyager目前完全借助游戲畫面推理,一切操作與反饋通過文本和游戲的Javascript API進(jìn)行。
被其他AI玩家視為噩夢(mèng)的挖鉆石也不在話下。
結(jié)合人類反饋,蓋個(gè)房子也不是問題。

更不用說(shuō)擼樹、游泳、摸魚……這些基礎(chǔ)操作。
(視頻請(qǐng)到微信公眾號(hào)文章中查看)
這項(xiàng)成果來(lái)自英偉達(dá)科學(xué)家Jim Fan(范麟熙)團(tuán)隊(duì)。
Voyager的出現(xiàn)甚至引發(fā)了一些網(wǎng)友的恐懼。
當(dāng)GPT-4不再只是一款大語(yǔ)言模型,而擁有了與其他工具交互進(jìn)行復(fù)雜動(dòng)作的能力,學(xué)會(huì)推理和創(chuàng)造,真正的“人工智能”即將降臨……

深度廣度雙雙提升
團(tuán)隊(duì)將Voyager的表現(xiàn)與ReAct、Reflexion和AutoGPT進(jìn)行了對(duì)比。
在地圖探索距離上,Voyager達(dá)到了其他AI玩家的2.3倍。

而在科技樹方面,只有Voyager成功解鎖了鉆石工具。
對(duì)于其他工具,Voyager解鎖的效率也最高。
下表中,括號(hào)前的數(shù)字表示提示迭代的次數(shù),越少說(shuō)明效率越高;括號(hào)中的數(shù)字則表示在3次試驗(yàn)中AI玩家的成功率。

除了能點(diǎn)亮訓(xùn)練過的科技樹,Voyager在零點(diǎn)測(cè)試中表現(xiàn)同樣出色。
研究人員讓這些AI玩家制造沒有訓(xùn)練過的鉆石鎬、金劍、巖漿桶和指南針。
結(jié)果只有Voyager取得了100%的成功率,效率也比其他玩家更高。

如果有人工的幫助,給予評(píng)價(jià)或指導(dǎo),Voyager還能構(gòu)造建筑。
之所以需要人工,是因?yàn)樵谘邪l(fā)Voyager時(shí)GPT-4還不具備視覺能力。

如何實(shí)現(xiàn)
Voyager主要由三部分組成,即自動(dòng)任務(wù)生成系統(tǒng)、技能庫(kù)和迭代提示機(jī)制。

顧名思義,自動(dòng)任務(wù)生成器負(fù)責(zé)根據(jù)宏觀目標(biāo)生成具體任務(wù)及操作游戲的代碼并進(jìn)行優(yōu)化。Voyager使用的是一個(gè)流行的Javascript Minecraft 操作庫(kù) (Mineflayer)。
GPT-4根據(jù)Voyager發(fā)送的提示生成代碼調(diào)用這個(gè)操作庫(kù),并根據(jù)JS運(yùn)行情況和游戲反饋對(duì)代碼中的錯(cuò)誤進(jìn)行修正。
Voyager發(fā)送給GPT的提示中主要包含四部分內(nèi)容:
一是鼓勵(lì)GPT嘗試多種方式,同時(shí)又加以限制的總方針。
二是目前的狀態(tài),包括生命和饑餓值、持有物、位置和周圍環(huán)境等。
三是之前成功和失敗的操作,反映目前的工作進(jìn)展。
四是額外信息,讓GPT-3.5根據(jù)前述狀態(tài)提問并調(diào)用知識(shí)庫(kù)自答,將過程傳給GPT-4。

說(shuō)完了任務(wù)生成器,再看看Voyager的技能庫(kù)。
通過讓GPT-3.5(成本考慮)對(duì)生成的代碼進(jìn)行注釋,并納入技能庫(kù)同時(shí)建立索引。
操作時(shí)則先用GPT-3.5生成操作說(shuō)明,調(diào)用數(shù)據(jù)庫(kù)中最匹配的五個(gè)。
然后,GPT-4將決定是調(diào)用數(shù)據(jù)庫(kù)中的已有技能還是重新生成代碼。

這一過程給GPT的提示則由五部分組成:
一是代碼生成的指導(dǎo),如“你生成的代碼將被反復(fù)使用”。
二是控制API及相關(guān)技能。
三是上一步中生成的代碼,以及對(duì)應(yīng)的運(yùn)行狀況和反饋。
四是當(dāng)前的狀態(tài),具體內(nèi)容和代碼生成器部分相同。
五是利用思維鏈方式,讓GPT生成代碼前進(jìn)行推理。
最后再來(lái)看看Voyager的迭代提示機(jī)制,這一機(jī)制用于Voyager的自我提升。
這一機(jī)制會(huì)收集環(huán)境反饋、運(yùn)行錯(cuò)誤等信息。

同時(shí)結(jié)合對(duì)任務(wù)成功與否的自我檢測(cè),對(duì)自身進(jìn)行優(yōu)化。
下圖就展示了自我檢測(cè)的幾個(gè)實(shí)例。

消融測(cè)試結(jié)果顯示,缺少這一環(huán)節(jié)會(huì)導(dǎo)致Voyager運(yùn)行質(zhì)量的顯著下降。

論文地址:
https://arxiv.org/abs/2305.16291
項(xiàng)目主頁(yè):
https://voyager.minedojo.org
GitHub頁(yè)面:
https://github.com/MineDojo/Voyager
參考鏈接:
[1]https://twitter.com/DrJimFan/status/1662115266933972993
[2]https://m.weibo.cn/status/4905873598054632