最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

在《我的世界》里挖鉆石把AI難哭,DeepMind最新算法終于扳回顏面

2023-01-23 08:17 作者:反二俠  | 我要投稿

又一個(gè)AI老大難問(wèn)題,被DeepMind攻克了:

一只名叫DreamerV3的AI,在啥也不知道的情況下被丟進(jìn)《我的世界》(MineCraft)里,摸爬滾打17天,還真就學(xué)會(huì)了如何從0開(kāi)始挖鉆石。

△就是從擼樹(shù)開(kāi)始的那種

要知道,之前為了攻克這個(gè)問(wèn)題,CMU、微軟、DeepMind和OpenAI還聯(lián)手在NeurIPS上拉了個(gè)比賽,叫MineRL。

結(jié)果搞了三四年,AI們也沒(méi)能在不參考人類經(jīng)驗(yàn)的情況下,完成挖鉆石任務(wù)。

此前表現(xiàn)最好的VPT選手,為了達(dá)成這一成就,可是狂看了70000+小時(shí)《我的世界》游戲視頻,并且用上了720個(gè)V100……

這不DeepMind的最新結(jié)果一出,研究人員都開(kāi)心壞了。

MineRL的發(fā)起人之一、前OpenAI研究科學(xué)家William Guss就第一時(shí)間跑來(lái)發(fā)表賀電:

4年了,“鉆石挑戰(zhàn)”終于被攻克了!

今年剛拿到了NeurIPS杰出數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)的MineDojo作者、英偉達(dá)AI科學(xué)家范麟熙則表示:

AI玩轉(zhuǎn)MineCraft背后,有個(gè)莫拉維克悖論:一些任務(wù)對(duì)于人類而言很困難(比如圍棋),但對(duì)AI來(lái)說(shuō)很簡(jiǎn)單。但像MineCraft這樣人類高玩無(wú)數(shù)的游戲,情況卻相反。
DreamerV3能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石,這讓我感到非常興奮。

如何做到

所以,這個(gè)0基礎(chǔ)挖鉆石任務(wù),到底有啥難點(diǎn)?

首先,在《我的世界》里,初始世界是完全隨機(jī)生成的。

即使是人類玩家,想要快速挖到鉆石,也得有相當(dāng)豐富的經(jīng)驗(yàn)。比如,知道怎么推算鉆石的位置、掌握一些挖掘竅門(如魚(yú)骨挖礦法)等。

排除掉經(jīng)驗(yàn)的因素,對(duì)于AI來(lái)說(shuō),這個(gè)挖鉆石的過(guò)程也挺復(fù)雜,至少得要7個(gè)步驟。

第一步,玩家在空手進(jìn)入《我的世界》中時(shí),需要先擼樹(shù)來(lái)獲取木塊:

第二步,得用木塊用來(lái)合成工作臺(tái):

第三步,在工作臺(tái)上合成木鎬,用來(lái)挖圓石:

第四步,獲得圓石之后,需要合成一個(gè)石鎬,用來(lái)快速挖鐵礦:

第五步,為了將鐵礦合成鐵錠,還需要做一個(gè)熔爐來(lái)燒鐵:

第六步,合成鐵鎬,用來(lái)挖鉆石:

第七步,尋找鉆石,然后用鐵鎬挖出鉆石:

p.s. 有玩家測(cè)試過(guò),在AI知道鉆石等各種資源坐標(biāo)的情況下(開(kāi)外掛),也需要2-3分鐘才能搞定。

這也就意味著,AI必須在有限時(shí)間里,做出大量決策。

那么既然不能參考人類高手的經(jīng)驗(yàn),自然就需要強(qiáng)化學(xué)習(xí)(Reinforcement Learning)出馬。

具體而言,DeepMind的研究人員提出了一種基于世界模型的通用算法。

在整體架構(gòu)上,DreamerV3由3個(gè)神經(jīng)網(wǎng)絡(luò)組成:世界模型、評(píng)委(critic)和演員(actor)。

世界模型要做的,是把環(huán)境輸入編碼為離散的表征,并通過(guò)預(yù)測(cè)來(lái)指導(dǎo)下一步要執(zhí)行的操作。

而評(píng)委和演員則會(huì)根據(jù)抽象出來(lái)的表征進(jìn)行學(xué)習(xí)。其中,評(píng)委網(wǎng)絡(luò)會(huì)輸出一個(gè)標(biāo)量值來(lái)代表行動(dòng)價(jià)值,從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動(dòng)。

這里面的一個(gè)核心點(diǎn)在于,DeepMind的研究人員希望DreamerV3不僅僅能處理同類型的問(wèn)題,還可以用固定超參數(shù),掌握跨領(lǐng)域任務(wù)

因此,研究人員需要系統(tǒng)地解決世界模型、評(píng)委和演員等各個(gè)組件中信號(hào)大小不同,以及穩(wěn)定平衡目標(biāo)的問(wèn)題。

研究人員發(fā)現(xiàn):

以前的世界模型,需要根據(jù)復(fù)雜3D環(huán)境的視覺(jué)輸入,對(duì)表征損失進(jìn)行不同的縮放,在訓(xùn)練過(guò)程中還得調(diào)整不少超參數(shù),但這里面其實(shí)有許多沒(méi)必要的細(xì)節(jié)。

而如果把自由比特(free bits)和KL平衡(KL balancing)結(jié)合起來(lái),就可以在不調(diào)整超參數(shù)的情況下讓DreamerV3在不同領(lǐng)域中學(xué)習(xí)。

KL平衡是上一代DreamerV2中提出的一項(xiàng)新技術(shù)。能夠使預(yù)測(cè)向表征移動(dòng)的速度比表征向預(yù)測(cè)移動(dòng)的速度更快,帶來(lái)更精確的預(yù)測(cè)。

自由比特避免了簡(jiǎn)單環(huán)境下的過(guò)度擬合。

DreamerV3的三大塊都用上了固定超參數(shù),具體如下:

實(shí)驗(yàn)結(jié)果

也就是說(shuō),DreamerV3如今成了世界上第一個(gè)純靠自己摸索,就能在《我的世界》里速挖鉆石的AI。

并且DreamerV3的本事可不只是玩MC。

在另外7項(xiàng)基準(zhǔn)測(cè)試中,DreamerV3都取得了成功,并且在BSuite、Crafter上達(dá)到了SOTA。

值得一提的是,在這些任務(wù)中,訓(xùn)練智能體所用到的GPU資源都僅為1塊V100。研究人員表示,這意味著有更多的實(shí)驗(yàn)室能跑得動(dòng)這一模型。

另外,在需要時(shí)空推理的三維空間中,DreamerV3也能快速進(jìn)行學(xué)習(xí)。

在DeepMind為強(qiáng)化學(xué)習(xí)專門打造的3D平臺(tái)DMLab上,DreamerV3在任務(wù)中使用的交互次數(shù)僅為IMPALA的1/130。

目前,DreamerV3的代碼是coming soon的狀態(tài)。

感興趣的小伙伴可以蹲一波~

參考鏈接:
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010

— 完 —


在《我的世界》里挖鉆石把AI難哭,DeepMind最新算法終于扳回顏面的評(píng)論 (共 條)

使用qq登录你需要登录后才可以评论。
新源县| 额尔古纳市| 沙洋县| 朝阳市| 博爱县| 谢通门县| 汪清县| 安西县| 如皋市| 治多县| 台湾省| 平原县| 巴楚县| 厦门市| 清远市| 南昌市| 忻州市| 略阳县| 巴林右旗| 花莲市| 盐源县| 福鼎市| 龙游县| 大渡口区| 嘉祥县| 东兴市| 漳平市| 商丘市| 海林市| 秦安县| 右玉县| 邵武市| 诸城市| 永丰县| 罗山县| 福鼎市| 上饶市| 阿尔山市| 长宁区| 汉源县| 定兴县|