最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

使用離散世界模型掌握 Atari

2021-09-18 22:20 作者:雨夜的博客  | 我要投稿

深度強(qiáng)化學(xué)習(xí) (RL) 使人工代理能夠隨著時(shí)間的推移改進(jìn)他們的決策。傳統(tǒng)的無(wú)模型方法通過(guò)大量試錯(cuò)與環(huán)境交互來(lái)了解哪些動(dòng)作在不同情況下是成功的。相比之下,深度強(qiáng)化學(xué)習(xí)的最新進(jìn)展使基于模型的方法能夠從圖像輸入中學(xué)習(xí)準(zhǔn)確的世界模型并將其用于規(guī)劃。世界模型可以從更少的交互中學(xué)習(xí),促進(jìn)離線數(shù)據(jù)的泛化,實(shí)現(xiàn)前瞻性探索,并允許跨多個(gè)任務(wù)重用知識(shí)。

盡管有很多有趣的好處,但現(xiàn)有的世界模型(例如SimPLe)還不夠準(zhǔn)確,無(wú)法在最具競(jìng)爭(zhēng)力的強(qiáng)化學(xué)習(xí)基準(zhǔn)測(cè)試中與頂級(jí)的無(wú)模型方法競(jìng)爭(zhēng)——迄今為止,完善的Atari 基準(zhǔn)需要無(wú)模型算法,例如DQN、IQN和Rainbow,以達(dá)到人類水平的表現(xiàn)。因此,許多研究人員轉(zhuǎn)而專注于開(kāi)發(fā)特定于任務(wù)的規(guī)劃方法,例如VPN和MuZero,它通過(guò)預(yù)測(cè)預(yù)期任務(wù)獎(jiǎng)勵(lì)的總和來(lái)學(xué)習(xí)。然而,這些方法特定于單個(gè)任務(wù),目前尚不清楚它們將如何泛化到新任務(wù)或從無(wú)監(jiān)督數(shù)據(jù)集中學(xué)習(xí)。類似于最近計(jì)算機(jī)視覺(jué)中無(wú)監(jiān)督表示學(xué)習(xí)的突破 [ 1 , 2 ],世界模型旨在學(xué)習(xí)環(huán)境中比任何特定任務(wù)更通用的模式,以便以后更有效地解決任務(wù)。

今天,我們與DeepMind 和多倫多大學(xué)合作,推出DreamerV2,這是第一個(gè)基于世界模型的 RL 代理,可在 Atari 基準(zhǔn)測(cè)試中實(shí)現(xiàn)人類級(jí)別的性能。它構(gòu)成了Dreamer 代理的第二代,它純粹在從像素訓(xùn)練的世界模型的潛在空間內(nèi)學(xué)習(xí)行為。DreamerV2 完全依賴圖像中的一般信息,即使其表示不受這些獎(jiǎng)勵(lì)的影響,也能準(zhǔn)確預(yù)測(cè)未來(lái)的任務(wù)獎(jiǎng)勵(lì)。使用單個(gè) GPU,DreamerV2 在計(jì)算和樣本預(yù)算相同的情況下優(yōu)于頂級(jí)無(wú)模型算法。

DreamerV2 為 55 款 Atari 游戲中的一些游戲?qū)W習(xí)的行為。這些視頻顯示了來(lái)自環(huán)境的圖像。下面的博客文章中顯示了視頻預(yù)測(cè)。

世界的抽象模型

就像它的前身一樣,DreamerV2 學(xué)習(xí)世界模型,并使用它完全根據(jù)預(yù)測(cè)的軌跡來(lái)訓(xùn)練演員-評(píng)論家的行為。世界模型自動(dòng)學(xué)習(xí)計(jì)算其圖像的緊湊表示,這些表示發(fā)現(xiàn)有用的概念,例如對(duì)象位置,并學(xué)習(xí)這些概念如何響應(yīng)不同的動(dòng)作而變化。這讓代理生成其圖像的抽象,忽略不相關(guān)的細(xì)節(jié),并在單個(gè) GPU 上實(shí)現(xiàn)大規(guī)模并行預(yù)測(cè)。在 2 億個(gè)環(huán)境步驟中,DreamerV2 預(yù)測(cè)了 4680 億個(gè)緊湊狀態(tài)以學(xué)習(xí)其行為。

DreamerV2建立在我們推出了針對(duì)復(fù)發(fā)狀態(tài)空間模型(RSSM)沛和也用于DreamerV1。在訓(xùn)練期間,編碼器將每個(gè)圖像轉(zhuǎn)換為隨機(jī)表示,并納入世界模型的循環(huán)狀態(tài)。由于表示是隨機(jī)的,因此它們無(wú)法訪問(wèn)有關(guān)圖像的完美信息,而是僅提取進(jìn)行預(yù)測(cè)所需的信息,從而使代理對(duì)看不見(jiàn)的圖像具有魯棒性。從每個(gè)狀態(tài),解碼器重建相應(yīng)的圖像以學(xué)習(xí)一般表示。此外,還訓(xùn)練了一個(gè)小型獎(jiǎng)勵(lì)網(wǎng)絡(luò),以在計(jì)劃期間對(duì)結(jié)果進(jìn)行排名。為了在不生成圖像的情況下進(jìn)行規(guī)劃,預(yù)測(cè)器 學(xué)習(xí)猜測(cè)隨機(jī)表示,而無(wú)需訪問(wèn)計(jì)算它們的圖像。

重要的是,DreamerV2 向 RSSM 引入了兩種新技術(shù),可以為學(xué)習(xí)成功策略提供更加準(zhǔn)確的世界模型。第一種技術(shù)是表示與多個(gè)的各圖像分類變量在文獻(xiàn)[而不是由行星,DreamerV1使用高斯變量,并且有更多的世界模型1,2,3,4,5 ]。這導(dǎo)致世界模型根據(jù)離散概念對(duì)世界進(jìn)行推理,并能夠更準(zhǔn)確地預(yù)測(cè)未來(lái)的表示。

編碼器將每個(gè)圖像轉(zhuǎn)換為 32 個(gè)分布,每個(gè)分布超過(guò) 32 個(gè)類別,其含義在世界模型學(xué)習(xí)時(shí)自動(dòng)確定。從這些分布中采樣的one-hot 向量被連接到一個(gè)稀疏表示,該表示被傳遞到循環(huán)狀態(tài)。為了通過(guò)樣本進(jìn)行反向傳播,我們使用直通梯度使用自動(dòng)微分很容易實(shí)現(xiàn)。用分類變量表示圖像允許預(yù)測(cè)器準(zhǔn)確地學(xué)習(xí)可能的下一張圖像的 one-hot 向量的分布。相比之下,使用高斯預(yù)測(cè)器的早期世界模型無(wú)法準(zhǔn)確匹配可能的下一張圖像的多個(gè)高斯表示的分布。

DreamerV2的第二個(gè)新技術(shù)是KL平衡。許多以前的世界模型使用ELBO 目標(biāo)這鼓勵(lì)準(zhǔn)確重建,同時(shí)保持隨機(jī)表示(后驗(yàn))接近其預(yù)測(cè)(先驗(yàn)),以規(guī)范從每張圖像中提取的信息量并促進(jìn)泛化。由于目標(biāo)是端到端優(yōu)化的,因此可以通過(guò)將兩者中的任何一個(gè)帶到另一個(gè)來(lái)使隨機(jī)表示及其預(yù)測(cè)更加相似。然而,當(dāng)預(yù)測(cè)器尚不準(zhǔn)確時(shí),將表征帶入其預(yù)測(cè)可能會(huì)出現(xiàn)問(wèn)題。KL 平衡讓預(yù)測(cè)更快地向表示移動(dòng),反之亦然。這會(huì)導(dǎo)致更準(zhǔn)確的預(yù)測(cè),這是成功規(guī)劃的關(guān)鍵。

保持序列世界模型的長(zhǎng)期視頻預(yù)測(cè)。每個(gè)模型接收 5 幀作為輸入(未顯示),然后僅在給定動(dòng)作的情況下預(yù)測(cè)前進(jìn) 45 步。視頻預(yù)測(cè)僅用于深入了解世界模型的質(zhì)量。在規(guī)劃期間,只預(yù)測(cè)緊湊的表示,而不是圖像。

衡量 Atari 性能

DreamerV2 是第一個(gè)世界模型,它能夠在成熟且具有競(jìng)爭(zhēng)力的 Atari 基準(zhǔn)測(cè)試中以人類水平的表現(xiàn)學(xué)習(xí)成功的行為。我們選擇了之前許多研究有共同點(diǎn)的 55 款游戲,并推薦這組游戲用于未來(lái)的工作。遵循標(biāo)準(zhǔn)評(píng)估協(xié)議,代理允許使用 4 次動(dòng)作重復(fù)和粘性動(dòng)作進(jìn)行 200M 環(huán)境交互(25% 的機(jī)會(huì)忽略一個(gè)動(dòng)作并重復(fù)前一個(gè)動(dòng)作)。我們與頂級(jí)無(wú)模型代理 IQN 和 Rainbow 以及在多巴胺框架中實(shí)現(xiàn)的著名C51和DQN代理進(jìn)行比較。

對(duì) 55 場(chǎng)比賽的分?jǐn)?shù)進(jìn)行匯總存在不同的標(biāo)準(zhǔn)。理想情況下,新算法在所有條件下都會(huì)表現(xiàn)得更好。對(duì)于所有四種聚合方法,DreamerV2 在使用相同計(jì)算預(yù)算的情況下確實(shí)優(yōu)于所有比較的無(wú)模型算法。

  • 玩家中位數(shù)。最常見(jiàn)的是,每場(chǎng)比賽的分?jǐn)?shù)都通過(guò)對(duì)DQN 論文進(jìn)行評(píng)估的人類游戲玩家的表現(xiàn)進(jìn)行歸一化,并報(bào)告所有游戲歸一化分?jǐn)?shù)的中位數(shù)。不幸的是,中位數(shù)忽略了許多更簡(jiǎn)單和更難游戲的分?jǐn)?shù)。

  • 玩家的意思。平均值考慮了所有游戲的分?jǐn)?shù),但主要受人類玩家表現(xiàn)不佳的少數(shù)游戲的影響。這使得算法很容易在某些游戲(例如詹姆斯邦德、視頻彈球)上獲得較大的歸一化分?jǐn)?shù),然后支配平均值。

  • 記錄平均值。之前的工作建議基于人類世界記錄進(jìn)行標(biāo)準(zhǔn)化,但這樣的指標(biāo)仍然受到少數(shù)游戲的過(guò)度影響,在這些游戲中,人工代理很容易超過(guò)人類記錄。

  • 剪切記錄平均值。我們引入了一個(gè)新的度量標(biāo)準(zhǔn),通過(guò)世界紀(jì)錄對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化,并將它們剪輯為不超過(guò)記錄。這產(chǎn)生了一個(gè)信息豐富且穩(wěn)健的指標(biāo),該指標(biāo)將所有游戲的性能考慮到大致相等的數(shù)量。

盡管許多當(dāng)前的算法超過(guò)了人類游戲玩家的基線,但它們?nèi)赃h(yuǎn)遠(yuǎn)落后于人類世界紀(jì)錄。如上圖最右側(cè)的圖表所示,DreamerV2 在游戲中平均達(dá)到了人類記錄的 25%。削減記錄線的分?jǐn)?shù)讓我們可以集中精力開(kāi)發(fā)在所有比賽中更接近人類世界紀(jì)錄的方法,而不是僅僅在幾場(chǎng)比賽中超過(guò)它。

什么重要什么

不重要 為了深入了解 DreamerV2 的重要組成部分,我們進(jìn)行了廣泛的消融研究。重要的是,我們發(fā)現(xiàn)分類表示比高斯表示具有明顯的優(yōu)勢(shì),盡管高斯表示在先前的工作中已被廣泛使用。與大多數(shù)生成模型使用的 KL 正則化器相比,KL 平衡提供了更大的優(yōu)勢(shì)。

通過(guò)防止圖像重建或獎(jiǎng)勵(lì)預(yù)測(cè)梯度塑造模型狀態(tài),我們研究了它們對(duì)學(xué)習(xí)成功表示的重要性。我們發(fā)現(xiàn) DreamerV2 完全依賴于來(lái)自高維輸入圖像的通用信息,即使它們沒(méi)有使用有關(guān)獎(jiǎng)勵(lì)的信息進(jìn)行訓(xùn)練,它的表示也可以實(shí)現(xiàn)準(zhǔn)確的獎(jiǎng)勵(lì)預(yù)測(cè)。這反映了計(jì)算機(jī)視覺(jué)社區(qū)中無(wú)監(jiān)督表示學(xué)習(xí)的成功。

DreamerV2 的各種消融的 Atari 性能(剪切記錄平均值)。分類表示、KL 平衡和了解圖像對(duì)于 DreamerV2 的成功至關(guān)重要。使用特定于狹窄任務(wù)的獎(jiǎng)勵(lì)信息不會(huì)為學(xué)習(xí)世界模型提供額外的好處。

結(jié)論

我們展示了如何學(xué)習(xí)一個(gè)強(qiáng)大的世界模型,以在競(jìng)爭(zhēng)激烈的 Atari 基準(zhǔn)測(cè)試中達(dá)到人類水平的表現(xiàn),并超越頂級(jí)的無(wú)模型代理。這一結(jié)果表明,世界模型是一種在強(qiáng)化學(xué)習(xí)問(wèn)題上實(shí)現(xiàn)高性能的強(qiáng)大方法,可供從業(yè)者和研究人員使用。我們認(rèn)為這表明計(jì)算機(jī)視覺(jué)中無(wú)監(jiān)督表示學(xué)習(xí)的成功 [ 1 , 2 ] 現(xiàn)在開(kāi)始以世界模型的形式在強(qiáng)化學(xué)習(xí)中實(shí)現(xiàn)。在?Github上提供了 DreamerV2 的非官方實(shí)現(xiàn)并為未來(lái)的研究項(xiàng)目提供了一個(gè)富有成效的起點(diǎn)。我們將利用大型離線數(shù)據(jù)集、長(zhǎng)期記憶、分層規(guī)劃和定向探索的世界模型視為未來(lái)研究的令人興奮的途徑。


使用離散世界模型掌握 Atari的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
嘉鱼县| 钦州市| 林芝县| 潢川县| 温泉县| 连云港市| 改则县| 青田县| 南皮县| 临湘市| 增城市| 沾益县| 攀枝花市| 亚东县| 富宁县| 三台县| 潮安县| 钟山县| 内黄县| 涪陵区| 东山县| 长春市| 深水埗区| 习水县| 大兴区| 林芝县| 大名县| 上杭县| 吐鲁番市| 德清县| 长岛县| 晋州市| 鸡西市| 且末县| 景德镇市| 玛曲县| 营口市| 平远县| 周宁县| 上蔡县| 岱山县|