散文網(wǎng) » 生活 »日常 » 猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

2023-08-14 13:47 作者:IT手機(jī)世界 0人讀過 | 我要投稿

注意，這位玩家正在熟練地玩著《我的世界》，ta 游刃有余地進(jìn)行著收集零食和打碎積木的操作。

鏡頭一轉(zhuǎn)，我們才發(fā)現(xiàn)：玩家的真實(shí)身份，竟然是一只猩猩！

沒錯(cuò)，這是一項(xiàng)來自「猩猩行動(dòng)計(jì)劃（Ape Initiative）」的非人類生物神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)。而實(shí)驗(yàn)的主角 Kanzi，是一只 42 歲的倭黑猩猩。

經(jīng)過訓(xùn)練后，它學(xué)會(huì)了各種技能，挑戰(zhàn)了鄉(xiāng)村、沙漠神殿、下界傳送門等環(huán)境，一路通關(guān)到達(dá)終點(diǎn)。

而 AI 專家發(fā)現(xiàn)，猩猩訓(xùn)練師教會(huì)它學(xué)技能的過程，竟然跟人類教 AI 玩 Minecraft 有諸多類似之處，比如上下文強(qiáng)化學(xué)習(xí)、RLHF、模仿學(xué)習(xí)、課程學(xué)習(xí)等。

當(dāng)猩猩學(xué)會(huì)玩《我的世界》

Kanzi 是來自 Ape Initiative 的一只倭黑猩猩，它是世界上最聰明的猩猩之一，聽得懂英語，還會(huì)使用觸摸屏。

在 Ape Initiative，Kanzi 能接觸到各種電子觸摸屏，這或許為它快速上手《我的世界》打好了基礎(chǔ)。

人們第一次向 Kanzi 展示《我的世界》時(shí)，它一坐到屏幕前就發(fā)現(xiàn)了綠色的箭頭，然后用手指劃向了這個(gè)目標(biāo)物上。

學(xué)習(xí)三種技能

才不過幾秒鐘，Kanzi 就發(fā)現(xiàn)了該怎樣在《我的世界》中移動(dòng)。隨后，它還學(xué)會(huì)了收集獎(jiǎng)勵(lì)。

每收集一個(gè)獎(jiǎng)勵(lì)，它都會(huì)得到花生、葡萄、蘋果之類的零食獎(jiǎng)勵(lì)。

Kanzi 的操作越來越嫻熟。它會(huì)分辨和目標(biāo)箭頭同樣是綠色柱形的障礙物，在收集獎(jiǎng)勵(lì)時(shí)繞開它們。

當(dāng)然，Kanzi 也會(huì)遇到難關(guān)。它需要使用 break 工具擊碎大的積木塊，但這個(gè)操作，它此前從未見過。

眼看 Kanzi 卡住了，人類在旁邊開始幫忙，指著所需的工具按鈕。然而 Kanzi 看完后仍然沒能領(lǐng)悟。

人類只好親自上手，用工具敲碎了木塊。Kanzi 看完后若有所思，在所有人期待的目光中，它也有樣學(xué)樣，點(diǎn)擊按鈕后擊碎了木塊。人們瞬間爆發(fā)出歡呼。

現(xiàn)在，Kanzi 的技能樹已經(jīng)集齊了兩樣：收集零食、打碎積木。

在學(xué)習(xí)山洞技能的時(shí)候，工作人員發(fā)現(xiàn)，如果從試圖擊碎的木塊上滑落，Kanzi 就會(huì)直接走掉。因此，人們?yōu)樗貏e定制了一個(gè)任務(wù) ——

在一個(gè)到處都是鉆石墻的山洞中擊碎木塊，來證明它掌握了收藏和擊碎的技能。

在山洞里一切都很順利，然而，Kanzi 卻遇到了一個(gè)問題：它在墻角被卡住了。此時(shí)，就需要人類伸出援手。

最終，Kanzi 到達(dá)了洞穴底部，擊碎了最后一道墻。

人群爆發(fā)出歡呼，Kanzi 也高興地和工作人員擊掌。

騙過人類

接下來，有意思的來了：工作人員邀請了一位人類玩家，和 Kanzi 一起玩游戲，當(dāng)然，他對于 Kanzi 的身份并不知情。

工作人員打算看一看，這位玩家會(huì)在多長時(shí)間后意識(shí)到，和自己一起玩游戲的并不是人類。

開始，這位小哥只是覺得，對方的移動(dòng)速度慢到不可思議，當(dāng) Kanzi 的畫面被展現(xiàn)到眼前，小哥直接被嚇到后仰。

走出迷宮

之后再玩《我的世界》，Kanzi 越戰(zhàn)越勇。

每當(dāng) Kanzi 收集到一個(gè)獎(jiǎng)勵(lì)，人們就會(huì)用歡呼的形式肯定它的行為，如果它失敗了，訓(xùn)練員也會(huì)用鼓掌和歡呼鼓勵(lì)它繼續(xù)進(jìn)行游戲。

這時(shí)，它已經(jīng)學(xué)會(huì)解鎖地下迷宮的地圖：

擊碎面前的障礙物：

找到紫水晶：

當(dāng) Kanzi 卡住的時(shí)候，它會(huì)出去散散心，拿回一根木棍放到自己旁邊。就算不幸失敗，Kanzi 也會(huì)點(diǎn)擊按鈕，讓自己重生。

最后一關(guān)，是一個(gè)充滿分岔路的巨大迷宮。

因?yàn)檫t遲無法走出迷宮，Kanzi 焦躁起來，開始拿著樹枝尖叫，或者氣得把樹枝折斷。

最終，它讓自己平靜下來繼續(xù)闖關(guān)，走出了迷宮。立刻，掌聲和歡呼聲把 Kanzi 包圍了。

看來，《我的世界》是被 Kanzi 這只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之處

看著一只倭黑猩猩熟練地玩著電子游戲，多少會(huì)有點(diǎn)讓人覺得有些荒誕和不可思議。

英偉達(dá)高級科學(xué)家 Jim Fan 對此評論道 ——

盡管 Kanzi 和它的祖先們一生從未見過《我的世界》，但它很快就適應(yīng)了電子屏幕上顯示的《我的世界》中的紋理和物理特性。

而這與它們一直以來接觸和生活的自然環(huán)境截然不同。這種泛化水平遠(yuǎn)遠(yuǎn)超出了現(xiàn)今為止最強(qiáng)大的視覺模型。

訓(xùn)練動(dòng)物玩《我的世界》的技巧本質(zhì)上與訓(xùn)練人工智能的原則是相同的：

- 基于上下文的強(qiáng)化學(xué)習(xí)：

每當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時(shí)，他就會(huì)得到一個(gè)水果或花生，激勵(lì)他繼續(xù)遵循游戲中的規(guī)則。

- RLHF：

Kanzi 并不理解人類的語言，但它能看到訓(xùn)練人員為他加油打氣，還會(huì)偶爾給出回應(yīng)。來自訓(xùn)練人員的歡呼給了 Kanzi 一個(gè)強(qiáng)烈的信號(hào)：它走在正確的道路上。

- 模仿學(xué)習(xí)：

訓(xùn)練員為 Kanzi 演示了如何完成任務(wù)之后，它就立即掌握了相關(guān)操作的含義。演示的效果遠(yuǎn)遠(yuǎn)超出比單獨(dú)使用獎(jiǎng)勵(lì)的策略。

- 課程學(xué)習(xí)（Curriculum learning）：

訓(xùn)練員和 Kanzi 從非常簡單的環(huán)境開始，逐步教導(dǎo) Kanzi 掌握控制技能。最后，Kanzi 能夠穿越復(fù)雜的洞穴、迷宮和下界。

不僅如此，即便是使用了類似的訓(xùn)練技巧，動(dòng)物的視覺系統(tǒng)就能在極短的時(shí)間內(nèi)識(shí)別和適應(yīng)新的環(huán)境，而 AI 視覺模型則會(huì)花費(fèi)更多的時(shí)間和訓(xùn)練成本，甚至常常難以達(dá)到理想效果。

我們再次陷入莫拉維克悖論（Moravec's paradox）的深淵：

人工智能與人類的能力表現(xiàn)相反。在我們認(rèn)為無需思考或作為本能的低級智能活動(dòng)中（如感知和運(yùn)動(dòng)控制），人工智能表現(xiàn)很糟糕。但在需要推理、抽象的高級智能活動(dòng)中（如邏輯推理和語言理解），人工智能卻很容易超越人類。

這正好對應(yīng)了這個(gè)實(shí)驗(yàn)呈現(xiàn)的結(jié)果：

我們最好的人工智能（GPT-4）在理解語言方面接近人類水平，但在感知、識(shí)別方面遠(yuǎn)遠(yuǎn)落后于動(dòng)物。

網(wǎng)友：原來猩猩打游戲也會(huì)生氣

Kanzi 和 LLMs 都可以玩《我的世界》，但 Kanzi 的學(xué)習(xí)方式和 LLMs 之間存在著不可小覷的差異，我們要注意這一點(diǎn)。

面對 Kanzi 優(yōu)異的學(xué)習(xí)能力，網(wǎng)友們開始了惡搞。

有人預(yù)見 6 年以后的世界將成為猩球大戰(zhàn)......

或者是猩猩喝可樂，融入人類社會(huì)......

甚至馬老板也中槍了，被做成了「猴版」馬斯克。

也有人說，Kanzi 是第一個(gè)擁有游戲玩家憤怒的非人類，ta 很滿意。

「如果 Kanzi 有自己的游戲頻道，我會(huì)老老實(shí)實(shí)看的。」

「在玩游戲上，人類與倭黑猩猩沒有太大區(qū)別。我們都受到獎(jiǎng)勵(lì)的激勵(lì)，以執(zhí)行某些任務(wù)并完成目標(biāo)，唯一的區(qū)別是獎(jiǎng)勵(lì)的實(shí)際內(nèi)容?！?/p>

「在《我的世界》中，Kanzi 開采鉆石的獎(jiǎng)勵(lì)更即時(shí)、更原始（食物），而我們開采鉆石的獎(jiǎng)勵(lì)則更延遲且與游戲相關(guān)?？傊?，有點(diǎn)瘋狂?！?/p>

先是 GPT 學(xué)會(huì)了玩《我的世界》，現(xiàn)在倭黑猩猩也可以玩了，這讓人不禁開始期待能用上 Neuralink 的未來。

Jim Fan 教 AI 智能體玩《我的世界》

在教 AI 玩 Minecraft 上，人類早已積累了許多先進(jìn)經(jīng)驗(yàn)。

早在今年 5 月，Jim Fan 團(tuán)隊(duì)就曾把英偉達(dá)的 AI 智能體接入 GPT-4，做出了一個(gè)全新的 AI 智能體 Voyager。

Voyager 不僅性能完勝 AutoGPT，而且還可以在游戲中進(jìn)行全場景的終身學(xué)習(xí)！它可以自主寫代碼獨(dú)霸《我的世界》，完全無需人類插手。

可以說，Voyager 出現(xiàn)后，我們離通用人工智能 AGI，又近了一步。

真?數(shù)字生命

接入 GPT-4 之后，Voyager 根本不用人類操心，完全就是自學(xué)成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能，還學(xué)會(huì)了自個(gè)進(jìn)行開放式探索。

通過自我驅(qū)動(dòng)，它不斷擴(kuò)充著自己的物品和裝備，配備不同等級的盔甲，用盾牌格擋上海，用柵欄圈養(yǎng)動(dòng)物。

大語言模型的出現(xiàn)，給構(gòu)建具身智能體帶來了全新的可能性。因?yàn)榛?LLM 的智能體可以利用預(yù)訓(xùn)練模型中蘊(yùn)含的世界知識(shí)，生成一致的行動(dòng)計(jì)劃或可執(zhí)行策略。

而在智能體中引入 GPT-4，就開啟了一種全新的范式（靠代碼執(zhí)行「訓(xùn)練」，而非靠梯度下降），讓智能體擺脫了無法終身學(xué)習(xí)的缺陷。

OpenAI 科學(xué)家 Karpathy 也對此盛贊：這是個(gè)用于高級技能的「無梯度架構(gòu)」。在這里，LLM 就相當(dāng)于是前額葉皮層，通過代碼生成了較低級的 mineflayer API。

3 個(gè)關(guān)鍵組件

為了讓 Voyager 成為有效的終身學(xué)習(xí)智能體，來自英偉達(dá)、加州理工學(xué)院等機(jī)構(gòu)的團(tuán)隊(duì)提出了 3 個(gè)關(guān)鍵組件：

1. 一個(gè)迭代提示機(jī)制，能結(jié)合游戲反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來改進(jìn)程序
2. 一個(gè)技能代碼庫，用來存儲(chǔ)和檢索復(fù)雜行為
3. 一個(gè)自動(dòng)教程，可以最大化智能體的探索

首先，Voyager 會(huì)嘗試使用一個(gè)流行的 Minecraft JavaScript API（Mineflayer）來編寫一個(gè)實(shí)現(xiàn)特定目標(biāo)的程序。

游戲環(huán)境反饋和 JavaScript 執(zhí)行錯(cuò)誤（如果有的話）會(huì)幫助 GPT-4 改進(jìn)程序。

左：環(huán)境反饋。GPT-4 意識(shí)到在制作木棒之前還需要 2 塊木板。

右：執(zhí)行錯(cuò)誤。GPT-4 意識(shí)到它應(yīng)該制作一把木斧，而不是一把「相思木」斧，因?yàn)?Minecraft 中并沒有「相思木」斧。

通過提供智能體當(dāng)前的狀態(tài)和任務(wù)，GPT-4 會(huì)告訴程序是否完成了任務(wù)。

此外，如果任務(wù)失敗了，GPT-4 還會(huì)提出批評，建議如何完成任務(wù)。

其次，Voyager 通過在向量數(shù)據(jù)庫中存儲(chǔ)成功的程序，逐步建立一個(gè)技能庫。每個(gè)程序可以通過其文檔字符串的嵌入來檢索。

復(fù)雜的技能是通過組合簡單的技能來合成的，這會(huì)使 Voyager 的能力隨著時(shí)間的推移迅速增長，并緩解災(zāi)難性遺忘。

上：添加技能。每個(gè)技能都由其描述的嵌入索引，可以在將來的類似情況中檢索。

下：檢索技能。當(dāng)面對自動(dòng)課程提出的新任務(wù)時(shí)，會(huì)進(jìn)行查詢并識(shí)別前 5 個(gè)相關(guān)技能。

第三，自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài)，提出合適的探索任務(wù)。

例如，如果它發(fā)現(xiàn)自己在沙漠而非森林中，就學(xué)習(xí)采集沙子和仙人掌，而不是鐵。課程是由 GPT-4 基于「發(fā)現(xiàn)盡可能多樣化的東西」這個(gè)目標(biāo)生成的。

作為第一個(gè)由 LLM 驅(qū)動(dòng)、可以終身學(xué)習(xí)的具身智能體，Voyager 的訓(xùn)練過程和猩猩訓(xùn)練過程的相似之處，可以給我們許多啟示。

標(biāo)簽：