最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

猩猩學(xué)會(huì)玩《我的世界》,方法竟和 GPT-4 智能體相通?

2023-08-14 13:47 作者:IT手機(jī)世界  | 我要投稿

注意,這位玩家正在熟練地玩著《我的世界》,ta 游刃有余地進(jìn)行著收集零食和打碎積木的操作。

鏡頭一轉(zhuǎn),我們才發(fā)現(xiàn):玩家的真實(shí)身份,竟然是一只猩猩!


沒錯(cuò),這是一項(xiàng)來自「猩猩行動(dòng)計(jì)劃(Ape Initiative)」的非人類生物神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)。而實(shí)驗(yàn)的主角 Kanzi,是一只 42 歲的倭黑猩猩。

經(jīng)過訓(xùn)練后,它學(xué)會(huì)了各種技能,挑戰(zhàn)了鄉(xiāng)村、沙漠神殿、下界傳送門等環(huán)境,一路通關(guān)到達(dá)終點(diǎn)。

而 AI 專家發(fā)現(xiàn),猩猩訓(xùn)練師教會(huì)它學(xué)技能的過程,竟然跟人類教 AI 玩 Minecraft 有諸多類似之處,比如上下文強(qiáng)化學(xué)習(xí)、RLHF、模仿學(xué)習(xí)、課程學(xué)習(xí)等。

當(dāng)猩猩學(xué)會(huì)玩《我的世界》

Kanzi 是來自 Ape Initiative 的一只倭黑猩猩,它是世界上最聰明的猩猩之一,聽得懂英語,還會(huì)使用觸摸屏。

在 Ape Initiative,Kanzi 能接觸到各種電子觸摸屏,這或許為它快速上手《我的世界》打好了基礎(chǔ)。

人們第一次向 Kanzi 展示《我的世界》時(shí),它一坐到屏幕前就發(fā)現(xiàn)了綠色的箭頭,然后用手指劃向了這個(gè)目標(biāo)物上。

學(xué)習(xí)三種技能

才不過幾秒鐘,Kanzi 就發(fā)現(xiàn)了該怎樣在《我的世界》中移動(dòng)。隨后,它還學(xué)會(huì)了收集獎(jiǎng)勵(lì)。

每收集一個(gè)獎(jiǎng)勵(lì),它都會(huì)得到花生、葡萄、蘋果之類的零食獎(jiǎng)勵(lì)。

Kanzi 的操作越來越嫻熟。它會(huì)分辨和目標(biāo)箭頭同樣是綠色柱形的障礙物,在收集獎(jiǎng)勵(lì)時(shí)繞開它們。

當(dāng)然,Kanzi 也會(huì)遇到難關(guān)。它需要使用 break 工具擊碎大的積木塊,但這個(gè)操作,它此前從未見過。

眼看 Kanzi 卡住了,人類在旁邊開始幫忙,指著所需的工具按鈕。然而 Kanzi 看完后仍然沒能領(lǐng)悟。

人類只好親自上手,用工具敲碎了木塊。Kanzi 看完后若有所思,在所有人期待的目光中,它也有樣學(xué)樣,點(diǎn)擊按鈕后擊碎了木塊。人們瞬間爆發(fā)出歡呼。

現(xiàn)在,Kanzi 的技能樹已經(jīng)集齊了兩樣:收集零食、打碎積木。

在學(xué)習(xí)山洞技能的時(shí)候,工作人員發(fā)現(xiàn),如果從試圖擊碎的木塊上滑落,Kanzi 就會(huì)直接走掉。因此,人們?yōu)樗貏e定制了一個(gè)任務(wù) ——

在一個(gè)到處都是鉆石墻的山洞中擊碎木塊,來證明它掌握了收藏和擊碎的技能。

在山洞里一切都很順利,然而,Kanzi 卻遇到了一個(gè)問題:它在墻角被卡住了。此時(shí),就需要人類伸出援手。

最終,Kanzi 到達(dá)了洞穴底部,擊碎了最后一道墻。

人群爆發(fā)出歡呼,Kanzi 也高興地和工作人員擊掌。

騙過人類

接下來,有意思的來了:工作人員邀請了一位人類玩家,和 Kanzi 一起玩游戲,當(dāng)然,他對于 Kanzi 的身份并不知情。

工作人員打算看一看,這位玩家會(huì)在多長時(shí)間后意識(shí)到,和自己一起玩游戲的并不是人類。

開始,這位小哥只是覺得,對方的移動(dòng)速度慢到不可思議,當(dāng) Kanzi 的畫面被展現(xiàn)到眼前,小哥直接被嚇到后仰。

走出迷宮

之后再玩《我的世界》,Kanzi 越戰(zhàn)越勇。

每當(dāng) Kanzi 收集到一個(gè)獎(jiǎng)勵(lì),人們就會(huì)用歡呼的形式肯定它的行為,如果它失敗了,訓(xùn)練員也會(huì)用鼓掌和歡呼鼓勵(lì)它繼續(xù)進(jìn)行游戲。

這時(shí),它已經(jīng)學(xué)會(huì)解鎖地下迷宮的地圖:

擊碎面前的障礙物:

找到紫水晶:

當(dāng) Kanzi 卡住的時(shí)候,它會(huì)出去散散心,拿回一根木棍放到自己旁邊。就算不幸失敗,Kanzi 也會(huì)點(diǎn)擊按鈕,讓自己重生。

最后一關(guān),是一個(gè)充滿分岔路的巨大迷宮。

因?yàn)檫t遲無法走出迷宮,Kanzi 焦躁起來,開始拿著樹枝尖叫,或者氣得把樹枝折斷。

最終,它讓自己平靜下來繼續(xù)闖關(guān),走出了迷宮。立刻,掌聲和歡呼聲把 Kanzi 包圍了。

看來,《我的世界》是被 Kanzi 這只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之處

看著一只倭黑猩猩熟練地玩著電子游戲,多少會(huì)有點(diǎn)讓人覺得有些荒誕和不可思議。

英偉達(dá)高級科學(xué)家 Jim Fan 對此評論道 ——

盡管 Kanzi 和它的祖先們一生從未見過《我的世界》,但它很快就適應(yīng)了電子屏幕上顯示的《我的世界》中的紋理和物理特性。

而這與它們一直以來接觸和生活的自然環(huán)境截然不同。這種泛化水平遠(yuǎn)遠(yuǎn)超出了現(xiàn)今為止最強(qiáng)大的視覺模型。

訓(xùn)練動(dòng)物玩《我的世界》的技巧本質(zhì)上與訓(xùn)練人工智能的原則是相同的:

- 基于上下文的強(qiáng)化學(xué)習(xí):

每當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時(shí),他就會(huì)得到一個(gè)水果或花生,激勵(lì)他繼續(xù)遵循游戲中的規(guī)則。

- RLHF:

Kanzi 并不理解人類的語言,但它能看到訓(xùn)練人員為他加油打氣,還會(huì)偶爾給出回應(yīng)。來自訓(xùn)練人員的歡呼給了 Kanzi 一個(gè)強(qiáng)烈的信號(hào):它走在正確的道路上。

- 模仿學(xué)習(xí):

訓(xùn)練員為 Kanzi 演示了如何完成任務(wù)之后,它就立即掌握了相關(guān)操作的含義。演示的效果遠(yuǎn)遠(yuǎn)超出比單獨(dú)使用獎(jiǎng)勵(lì)的策略。

- 課程學(xué)習(xí)(Curriculum learning):

訓(xùn)練員和 Kanzi 從非常簡單的環(huán)境開始,逐步教導(dǎo) Kanzi 掌握控制技能。最后,Kanzi 能夠穿越復(fù)雜的洞穴、迷宮和下界。

不僅如此,即便是使用了類似的訓(xùn)練技巧,動(dòng)物的視覺系統(tǒng)就能在極短的時(shí)間內(nèi)識(shí)別和適應(yīng)新的環(huán)境,而 AI 視覺模型則會(huì)花費(fèi)更多的時(shí)間和訓(xùn)練成本,甚至常常難以達(dá)到理想效果。

我們再次陷入莫拉維克悖論(Moravec's paradox)的深淵:

人工智能與人類的能力表現(xiàn)相反。在我們認(rèn)為無需思考或作為本能的低級智能活動(dòng)中(如感知和運(yùn)動(dòng)控制),人工智能表現(xiàn)很糟糕。但在需要推理、抽象的高級智能活動(dòng)中(如邏輯推理和語言理解),人工智能卻很容易超越人類。

這正好對應(yīng)了這個(gè)實(shí)驗(yàn)呈現(xiàn)的結(jié)果:

我們最好的人工智能(GPT-4)在理解語言方面接近人類水平,但在感知、識(shí)別方面遠(yuǎn)遠(yuǎn)落后于動(dòng)物。

網(wǎng)友:原來猩猩打游戲也會(huì)生氣

Kanzi 和 LLMs 都可以玩《我的世界》,但 Kanzi 的學(xué)習(xí)方式和 LLMs 之間存在著不可小覷的差異,我們要注意這一點(diǎn)。

面對 Kanzi 優(yōu)異的學(xué)習(xí)能力,網(wǎng)友們開始了惡搞。

有人預(yù)見 6 年以后的世界將成為猩球大戰(zhàn)......

或者是猩猩喝可樂,融入人類社會(huì)......

甚至馬老板也中槍了,被做成了「猴版」馬斯克。

也有人說,Kanzi 是第一個(gè)擁有游戲玩家憤怒的非人類,ta 很滿意。

「如果 Kanzi 有自己的游戲頻道,我會(huì)老老實(shí)實(shí)看的。」

「在玩游戲上,人類與倭黑猩猩沒有太大區(qū)別。我們都受到獎(jiǎng)勵(lì)的激勵(lì),以執(zhí)行某些任務(wù)并完成目標(biāo),唯一的區(qū)別是獎(jiǎng)勵(lì)的實(shí)際內(nèi)容?!?/p>

「在《我的世界》中,Kanzi 開采鉆石的獎(jiǎng)勵(lì)更即時(shí)、更原始(食物),而我們開采鉆石的獎(jiǎng)勵(lì)則更延遲且與游戲相關(guān)??傊?,有點(diǎn)瘋狂?!?/p>

先是 GPT 學(xué)會(huì)了玩《我的世界》,現(xiàn)在倭黑猩猩也可以玩了,這讓人不禁開始期待能用上 Neuralink 的未來。

Jim Fan 教 AI 智能體玩《我的世界》

在教 AI 玩 Minecraft 上,人類早已積累了許多先進(jìn)經(jīng)驗(yàn)。

早在今年 5 月,Jim Fan 團(tuán)隊(duì)就曾把英偉達(dá)的 AI 智能體接入 GPT-4,做出了一個(gè)全新的 AI 智能體 Voyager。

Voyager 不僅性能完勝 AutoGPT,而且還可以在游戲中進(jìn)行全場景的終身學(xué)習(xí)!它可以自主寫代碼獨(dú)霸《我的世界》,完全無需人類插手。

可以說,Voyager 出現(xiàn)后,我們離通用人工智能 AGI,又近了一步。

真?數(shù)字生命

接入 GPT-4 之后,Voyager 根本不用人類操心,完全就是自學(xué)成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學(xué)會(huì)了自個(gè)進(jìn)行開放式探索。

通過自我驅(qū)動(dòng),它不斷擴(kuò)充著自己的物品和裝備,配備不同等級的盔甲,用盾牌格擋上海,用柵欄圈養(yǎng)動(dòng)物。

大語言模型的出現(xiàn),給構(gòu)建具身智能體帶來了全新的可能性。因?yàn)榛?LLM 的智能體可以利用預(yù)訓(xùn)練模型中蘊(yùn)含的世界知識(shí),生成一致的行動(dòng)計(jì)劃或可執(zhí)行策略。

而在智能體中引入 GPT-4,就開啟了一種全新的范式(靠代碼執(zhí)行「訓(xùn)練」,而非靠梯度下降),讓智能體擺脫了無法終身學(xué)習(xí)的缺陷。

OpenAI 科學(xué)家 Karpathy 也對此盛贊:這是個(gè)用于高級技能的「無梯度架構(gòu)」。在這里,LLM 就相當(dāng)于是前額葉皮層,通過代碼生成了較低級的 mineflayer API。

3 個(gè)關(guān)鍵組件

為了讓 Voyager 成為有效的終身學(xué)習(xí)智能體,來自英偉達(dá)、加州理工學(xué)院等機(jī)構(gòu)的團(tuán)隊(duì)提出了 3 個(gè)關(guān)鍵組件:

  • 1. 一個(gè)迭代提示機(jī)制,能結(jié)合游戲反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來改進(jìn)程序

  • 2. 一個(gè)技能代碼庫,用來存儲(chǔ)和檢索復(fù)雜行為

  • 3. 一個(gè)自動(dòng)教程,可以最大化智能體的探索

首先,Voyager 會(huì)嘗試使用一個(gè)流行的 Minecraft JavaScript API(Mineflayer)來編寫一個(gè)實(shí)現(xiàn)特定目標(biāo)的程序。

游戲環(huán)境反饋和 JavaScript 執(zhí)行錯(cuò)誤(如果有的話)會(huì)幫助 GPT-4 改進(jìn)程序。

左:環(huán)境反饋。GPT-4 意識(shí)到在制作木棒之前還需要 2 塊木板。

右:執(zhí)行錯(cuò)誤。GPT-4 意識(shí)到它應(yīng)該制作一把木斧,而不是一把「相思木」斧,因?yàn)?Minecraft 中并沒有「相思木」斧。

通過提供智能體當(dāng)前的狀態(tài)和任務(wù),GPT-4 會(huì)告訴程序是否完成了任務(wù)。

此外,如果任務(wù)失敗了,GPT-4 還會(huì)提出批評,建議如何完成任務(wù)。

其次,Voyager 通過在向量數(shù)據(jù)庫中存儲(chǔ)成功的程序,逐步建立一個(gè)技能庫。每個(gè)程序可以通過其文檔字符串的嵌入來檢索。

復(fù)雜的技能是通過組合簡單的技能來合成的,這會(huì)使 Voyager 的能力隨著時(shí)間的推移迅速增長,并緩解災(zāi)難性遺忘。

上:添加技能。每個(gè)技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。

下:檢索技能。當(dāng)面對自動(dòng)課程提出的新任務(wù)時(shí),會(huì)進(jìn)行查詢并識(shí)別前 5 個(gè)相關(guān)技能。

第三,自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài),提出合適的探索任務(wù)。

例如,如果它發(fā)現(xiàn)自己在沙漠而非森林中,就學(xué)習(xí)采集沙子和仙人掌,而不是鐵。課程是由 GPT-4 基于「發(fā)現(xiàn)盡可能多樣化的東西」這個(gè)目標(biāo)生成的。

作為第一個(gè)由 LLM 驅(qū)動(dòng)、可以終身學(xué)習(xí)的具身智能體,Voyager 的訓(xùn)練過程和猩猩訓(xùn)練過程的相似之處,可以給我們許多啟示。


猩猩學(xué)會(huì)玩《我的世界》,方法竟和 GPT-4 智能體相通?的評論 (共 條)

分享到微博請遵守國家法律
镇康县| 辰溪县| 抚顺县| 岗巴县| 东台市| 吉隆县| 兴文县| 涟水县| 罗山县| 灵璧县| 屏东市| 喜德县| 霍邱县| 禄丰县| 宣威市| 乐平市| 拜泉县| 普兰店市| 木兰县| 沙田区| 明溪县| 阿坝县| 乌兰察布市| 苍梧县| 台东县| 神木县| 本溪| 大洼县| 大港区| 张北县| 金坛市| 夏邑县| 赤壁市| 陆川县| 奉节县| 古丈县| 浦东新区| 澎湖县| 伊宁市| 宜黄县| 民勤县|