手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 游戲 »單機(jī)游戲 » 在《我的世界》里挖鉆石把AI難哭，DeepMind最新算法終于扳回顏面

在《我的世界》里挖鉆石把AI難哭，DeepMind最新算法終于扳回顏面

2023-01-23 08:17 作者:反二俠 0人讀過(guò) | 我要投稿

又一個(gè)AI老大難問(wèn)題，被DeepMind攻克了：

一只名叫DreamerV3的AI，在啥也不知道的情況下被丟進(jìn)《我的世界》（MineCraft）里，摸爬滾打17天，還真就學(xué)會(huì)了如何從0開(kāi)始挖鉆石。

△就是從擼樹(shù)開(kāi)始的那種

要知道，之前為了攻克這個(gè)問(wèn)題，CMU、微軟、DeepMind和OpenAI還聯(lián)手在NeurIPS上拉了個(gè)比賽，叫MineRL。

結(jié)果搞了三四年，AI們也沒(méi)能在不參考人類經(jīng)驗(yàn)的情況下，完成挖鉆石任務(wù)。

此前表現(xiàn)最好的VPT選手，為了達(dá)成這一成就，可是狂看了70000+小時(shí)《我的世界》游戲視頻，并且用上了720個(gè)V100……

這不DeepMind的最新結(jié)果一出，研究人員都開(kāi)心壞了。

MineRL的發(fā)起人之一、前OpenAI研究科學(xué)家William Guss就第一時(shí)間跑來(lái)發(fā)表賀電：

4年了，“鉆石挑戰(zhàn)”終于被攻克了！

今年剛拿到了NeurIPS杰出數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)的MineDojo作者、英偉達(dá)AI科學(xué)家范麟熙則表示：

AI玩轉(zhuǎn)MineCraft背后，有個(gè)莫拉維克悖論：一些任務(wù)對(duì)于人類而言很困難（比如圍棋），但對(duì)AI來(lái)說(shuō)很簡(jiǎn)單。但像MineCraft這樣人類高玩無(wú)數(shù)的游戲，情況卻相反。
DreamerV3能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石，這讓我感到非常興奮。

如何做到

所以，這個(gè)0基礎(chǔ)挖鉆石任務(wù)，到底有啥難點(diǎn)？

首先，在《我的世界》里，初始世界是完全隨機(jī)生成的。

即使是人類玩家，想要快速挖到鉆石，也得有相當(dāng)豐富的經(jīng)驗(yàn)。比如，知道怎么推算鉆石的位置、掌握一些挖掘竅門（如魚(yú)骨挖礦法）等。

排除掉經(jīng)驗(yàn)的因素，對(duì)于AI來(lái)說(shuō)，這個(gè)挖鉆石的過(guò)程也挺復(fù)雜，至少得要7個(gè)步驟。

第一步，玩家在空手進(jìn)入《我的世界》中時(shí)，需要先擼樹(shù)來(lái)獲取木塊：

第二步，得用木塊用來(lái)合成工作臺(tái)：

第三步，在工作臺(tái)上合成木鎬，用來(lái)挖圓石：

第四步，獲得圓石之后，需要合成一個(gè)石鎬，用來(lái)快速挖鐵礦：

第五步，為了將鐵礦合成鐵錠，還需要做一個(gè)熔爐來(lái)燒鐵：

第六步，合成鐵鎬，用來(lái)挖鉆石：

第七步，尋找鉆石，然后用鐵鎬挖出鉆石：

p.s. 有玩家測(cè)試過(guò)，在AI知道鉆石等各種資源坐標(biāo)的情況下（開(kāi)外掛），也需要2-3分鐘才能搞定。

這也就意味著，AI必須在有限時(shí)間里，做出大量決策。

那么既然不能參考人類高手的經(jīng)驗(yàn)，自然就需要強(qiáng)化學(xué)習(xí)（Reinforcement Learning）出馬。

具體而言，DeepMind的研究人員提出了一種基于世界模型的通用算法。

在整體架構(gòu)上，DreamerV3由3個(gè)神經(jīng)網(wǎng)絡(luò)組成：世界模型、評(píng)委（critic）和演員（actor）。

世界模型要做的，是把環(huán)境輸入編碼為離散的表征，并通過(guò)預(yù)測(cè)來(lái)指導(dǎo)下一步要執(zhí)行的操作。

而評(píng)委和演員則會(huì)根據(jù)抽象出來(lái)的表征進(jìn)行學(xué)習(xí)。其中，評(píng)委網(wǎng)絡(luò)會(huì)輸出一個(gè)標(biāo)量值來(lái)代表行動(dòng)價(jià)值，從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動(dòng)。

這里面的一個(gè)核心點(diǎn)在于，DeepMind的研究人員希望DreamerV3不僅僅能處理同類型的問(wèn)題，還可以用固定超參數(shù)，掌握跨領(lǐng)域任務(wù)。

因此，研究人員需要系統(tǒng)地解決世界模型、評(píng)委和演員等各個(gè)組件中信號(hào)大小不同，以及穩(wěn)定平衡目標(biāo)的問(wèn)題。

研究人員發(fā)現(xiàn)：

以前的世界模型，需要根據(jù)復(fù)雜3D環(huán)境的視覺(jué)輸入，對(duì)表征損失進(jìn)行不同的縮放，在訓(xùn)練過(guò)程中還得調(diào)整不少超參數(shù)，但這里面其實(shí)有許多沒(méi)必要的細(xì)節(jié)。

而如果把自由比特（free bits）和KL平衡（KL balancing）結(jié)合起來(lái)，就可以在不調(diào)整超參數(shù)的情況下讓DreamerV3在不同領(lǐng)域中學(xué)習(xí)。

KL平衡是上一代DreamerV2中提出的一項(xiàng)新技術(shù)。能夠使預(yù)測(cè)向表征移動(dòng)的速度比表征向預(yù)測(cè)移動(dòng)的速度更快，帶來(lái)更精確的預(yù)測(cè)。

自由比特避免了簡(jiǎn)單環(huán)境下的過(guò)度擬合。

DreamerV3的三大塊都用上了固定超參數(shù)，具體如下：

實(shí)驗(yàn)結(jié)果

也就是說(shuō)，DreamerV3如今成了世界上第一個(gè)純靠自己摸索，就能在《我的世界》里速挖鉆石的AI。

并且DreamerV3的本事可不只是玩MC。

在另外7項(xiàng)基準(zhǔn)測(cè)試中，DreamerV3都取得了成功，并且在BSuite、Crafter上達(dá)到了SOTA。

值得一提的是，在這些任務(wù)中，訓(xùn)練智能體所用到的GPU資源都僅為1塊V100。研究人員表示，這意味著有更多的實(shí)驗(yàn)室能跑得動(dòng)這一模型。

另外，在需要時(shí)空推理的三維空間中，DreamerV3也能快速進(jìn)行學(xué)習(xí)。

在DeepMind為強(qiáng)化學(xué)習(xí)專門打造的3D平臺(tái)DMLab上，DreamerV3在任務(wù)中使用的交互次數(shù)僅為IMPALA的1/130。

目前，DreamerV3的代碼是coming soon的狀態(tài)。

感興趣的小伙伴可以蹲一波~

參考鏈接：
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010

— 完 —

標(biāo)簽：