最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICLR2023 強(qiáng)化學(xué)習(xí)論文合集

2023-04-25 19:38 作者:AMiner科技  | 我要投稿

國(guó)際表征學(xué)習(xí)大會(huì)(International Conference on Learning Representations,簡(jiǎn)稱 ICLR)是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,關(guān)注有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究,在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文。

AMiner通過(guò)AI技術(shù),對(duì) ICLR2023 收錄的會(huì)議論文進(jìn)行了分類整理,今日分享的是強(qiáng)化學(xué)習(xí)主題論文,共108篇,我們?cè)谶@里展示十篇最受歡迎的論文,歡迎下載收藏!

1. In-context Reinforcement Learning with Algorithm Distillation

作者:Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald,DJ Strouse,Steven Hansen,Angelos Filos,Ethan Brooks,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih

AI綜述(大模型驅(qū)動(dòng)):我們提出了算法提取(AD),一種將強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)投影到神經(jīng)網(wǎng)絡(luò)中的方法。該算法利用因果序列模型將訓(xùn)練歷史建模為一項(xiàng)跨episode的連貫預(yù)測(cè)問(wèn)題。生成的訓(xùn)練歷史數(shù)據(jù)集通過(guò)源LR算法生成,然后由反向推理訓(xùn)練的因果轉(zhuǎn)換訓(xùn)練。我們證明,AD在各種環(huán)境中可以學(xué)習(xí)具有較少的獎(jiǎng)金、組合任務(wù)結(jié)構(gòu)和圖像的強(qiáng)化算法,并發(fā)現(xiàn)AD學(xué)習(xí)了一個(gè)比源數(shù)據(jù)收集的數(shù)據(jù)更快的數(shù)據(jù)效率的RL算法。

論文鏈接:aminer.cn/pub/6358a5709

2. Powderworld: A Platform for Understanding Generalization via Rich Task Distributions

作者:Kevin Frans,Phillip Isola

AI綜述(大模型驅(qū)動(dòng)):在 PowderWorld中,提供了兩個(gè)激勵(lì)挑戰(zhàn)分布,一個(gè)用于世界建模和一個(gè)用于強(qiáng)化學(xué)習(xí)。每個(gè)分布包含手工設(shè)計(jì)的測(cè)試任務(wù),以檢查泛化。實(shí)驗(yàn)表明,環(huán)境的復(fù)雜性提高了世界模型和某些強(qiáng)化學(xué)習(xí)agent的泛化,但可能阻礙了在高 variance環(huán)境中學(xué)習(xí)。為了解決這個(gè)問(wèn)題,我們提出了一種輕型但有表達(dá)能力的模擬環(huán)境。

論文鏈接:aminer.cn/pub/637ee0ee9

3. Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

作者:Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi

AI綜述(大模型驅(qū)動(dòng)):我們解決了將大型語(yǔ)言模型(LMs)與人類偏好的對(duì)齊問(wèn)題。如果我們認(rèn)為文本生成作為順序決策問(wèn)題的自然概念框架,強(qiáng)化學(xué)習(xí)(RL)似乎是一種自然的概念框架。然而,對(duì)于基于LM的生成器來(lái)說(shuō),這項(xiàng)任務(wù)面臨的實(shí)證挑戰(zhàn),包括訓(xùn)練不穩(wěn)定性以及缺乏開(kāi)放資源和改進(jìn)度量。

論文鏈接:aminer.cn/pub/633cf5cf9

4. Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier

作者:Pierluca D'Oro,Max Schwarzer,Evgenii Nikishin,Pierre-Luc Bacon,Marc G Bellemare,Aaron Courville

AI綜述(大模型驅(qū)動(dòng)):在本文中,我們證明了增強(qiáng)深度激勵(lì)學(xué)習(xí)算法的樣本效率的提高可以產(chǎn)生更好的重疊率擴(kuò)展能力。我們將嚴(yán)格修改的算法訓(xùn)練到使用比通常使用的更少的更新量來(lái)訓(xùn)練它們,以最大限度地提高他們?cè)贏tari100k和DeepMind控制suite基準(zhǔn)上的表現(xiàn)。然后,我們分析了需要為有利可圖的重疊率擴(kuò)展選擇提出的缺陷,并討論了固有的約束和權(quán)衡。

論文鏈接:aminer.cn/pub/63dcdb422

5. Extreme Q-Learning: MaxEnt RL without Entropy

作者:Divyansh Garg,Joey Hejna,Matthieu Geist,Stefano Ermon

AI綜述(大模型驅(qū)動(dòng)):我們描述了一種新的在線和 offline超大值學(xué)習(xí)規(guī)則,該規(guī)則直接使用極性價(jià)值理論(EVT)估計(jì)最大值。通過(guò)這樣做,我們可以避免計(jì)算出分布式動(dòng)作中使用的Q值,這通常是一種很大的錯(cuò)誤來(lái)源。我們的關(guān)鍵洞察是引入一個(gè)目標(biāo),它可以直接在最大熵下估計(jì)最優(yōu)軟值函數(shù)(LogSumExp)。

論文鏈接:aminer.cn/pub/63bb859d9

6. Evaluating Long-Term Memory in 3D Mazes

作者:Jurgis Pasukonis,Timothy Lillicrap,Danijar Hafner

AI綜述(大模型驅(qū)動(dòng)):我們介紹了記憶陋室,一種專門(mén)為評(píng)估戰(zhàn)術(shù)人員的長(zhǎng)壽能力的3D領(lǐng)域。與現(xiàn)有的基線相比,陋室測(cè)量長(zhǎng)壽能力不同,需要 agent將信息融合并本地化。我們提出了一個(gè)在線激勵(lì)學(xué)習(xí)基線,一個(gè)多種 offline數(shù)據(jù)集和 offline檢驗(yàn)評(píng)估。

論文鏈接:aminer.cn/pub/635753d49

7. Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization

作者:Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan

AI綜述(大模型驅(qū)動(dòng)):在標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練聚類算法通常認(rèn)為,當(dāng)使用分布式變化進(jìn)行決策時(shí),會(huì)產(chǎn)生一些不確定性。我們提出了一種聚類算法,該算法利用了與CQL相同的值隨機(jī)化,但使用少量手動(dòng)注釋的示例語(yǔ)料庫(kù)。與IQL相比,我們發(fā)現(xiàn)我們的算法增加了學(xué)習(xí)價(jià)值函數(shù)的稀疏性,這使得它比IQL具有更快的收斂速度和更好的一致性。此外,我們還比較了聚類算法的優(yōu)點(diǎn)和弱點(diǎn),并將其與其他基線進(jìn)行了比較。

論文鏈接:aminer.cn/pub/63dcdb422

8. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

作者:Zhendong Wang,Jonathan J Hunt,Mingyuan Zhou

AI綜述(大模型驅(qū)動(dòng)):offline reinforcement學(xué)習(xí)(RL),旨在學(xué)習(xí)一個(gè)有效的政策,使用以前收集的靜態(tài)數(shù)據(jù)集,是RL的一個(gè)重要范疇。標(biāo)準(zhǔn)的RL方法通常在這一任務(wù)中表現(xiàn)不佳,因?yàn)樵谕獠渴占瘎?dòng)作對(duì)齊錯(cuò)誤造成的函數(shù)近似錯(cuò)誤。然而,已經(jīng)提出了許多適當(dāng)?shù)囊?guī)則化方法來(lái)解決這個(gè)問(wèn)題,但這些方法通常受到有限的表達(dá)能力限制,有時(shí)會(huì)導(dǎo)致幾乎不optimal的解決方案。在本文中,我們提出了一種新的基于條件傳播模型的動(dòng)態(tài)調(diào)整算法,該算法利用了條件傳播模板作為高度表達(dá)性的政策類。在我們的方法中,我們?cè)跊Q策損失中學(xué)習(xí)了一個(gè)決策值函數(shù),并添加了一個(gè)最大化決策值的時(shí)間限制。我們表明,基于模型的政策的表達(dá)性和決策改善結(jié)合在一起,產(chǎn)生了卓越的性能。

論文鏈接:aminer.cn/pub/62fa0d149

9. Solving Continuous Control via Q-learning

作者:Tim Seyde,Peter Werner,Wilko Schwarting,Igor Gilitschenski,Martin Riedmiller,Daniela Rus,Markus Wulfmeier

AI綜述(大模型驅(qū)動(dòng)):我們提出了一種新的監(jiān)督學(xué)習(xí)方法,該方法結(jié)合了動(dòng)作分解和價(jià)值分解,并將單個(gè)agent控制應(yīng)用于協(xié)同優(yōu)化。我們證明了這種方法可以顯著減少監(jiān)督學(xué)習(xí)所需的復(fù)雜性。我們還將監(jiān)督學(xué)習(xí)擴(kuò)展到類似的協(xié)同學(xué)習(xí),以便在各種監(jiān)督任務(wù)中提供良好的性能。

論文鏈接:aminer.cn/pub/635753cc9

10. Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning

作者:Sasha Salter,Kristian Hartikainen,Walter Goodwin,Ingmar Posner

AI綜述(大模型驅(qū)動(dòng)):在本文中,我們展示了如何利用信息熵來(lái)限制學(xué)習(xí)者的表達(dá)性和推理能力。這項(xiàng)研究表明,雖然信息熵對(duì)學(xué)習(xí)能力的影響很大,但對(duì)傳理能力的影響并不大。我們提出了一種原則性的選擇方法,并將該方法應(yīng)用于一個(gè)復(fù)雜的、機(jī)器人堆棧堆棧領(lǐng)域的實(shí)驗(yàn)。

論文鏈接:aminer.cn/pub/61ea24995


想查看全部強(qiáng)化學(xué)習(xí)論文,可以點(diǎn)擊下方鏈接:

https://www.aminer.cn/conf/5ea1d518edb6e7d53c0100cb/ICLR2023

ICLR2023 強(qiáng)化學(xué)習(xí)論文合集的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
涟源市| 安塞县| 南郑县| 杂多县| 汨罗市| 阿拉善左旗| 彰武县| 遵义县| 克什克腾旗| 卓尼县| 余干县| 易门县| 塘沽区| 石阡县| 浦东新区| 盐亭县| 大庆市| 遂宁市| 紫云| 资源县| 盐池县| 兴业县| 朝阳区| 龙川县| 汾西县| 灵石县| 隆化县| 延安市| 崇阳县| 兴文县| 萍乡市| 嘉定区| 琼中| 涿鹿县| 多伦县| 廉江市| 滦平县| 元谋县| 江永县| 湘西| 绵阳市|