ICLR2023 強(qiáng)化學(xué)習(xí)論文合集
國(guó)際表征學(xué)習(xí)大會(huì)(International Conference on Learning Representations,簡(jiǎn)稱 ICLR)是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,關(guān)注有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究,在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文。
AMiner通過(guò)AI技術(shù),對(duì) ICLR2023 收錄的會(huì)議論文進(jìn)行了分類整理,今日分享的是強(qiáng)化學(xué)習(xí)主題論文,共108篇,我們?cè)谶@里展示十篇最受歡迎的論文,歡迎下載收藏!
1. In-context Reinforcement Learning with Algorithm Distillation
作者:Michael Laskin,Luyu Wang,Junhyuk Oh,Emilio Parisotto,Stephen Spencer,Richie Steigerwald,DJ Strouse,Steven Hansen,Angelos Filos,Ethan Brooks,Maxime Gazeau,Himanshu Sahni,Satinder Singh,Volodymyr Mnih
AI綜述(大模型驅(qū)動(dòng)):我們提出了算法提取(AD),一種將強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)投影到神經(jīng)網(wǎng)絡(luò)中的方法。該算法利用因果序列模型將訓(xùn)練歷史建模為一項(xiàng)跨episode的連貫預(yù)測(cè)問(wèn)題。生成的訓(xùn)練歷史數(shù)據(jù)集通過(guò)源LR算法生成,然后由反向推理訓(xùn)練的因果轉(zhuǎn)換訓(xùn)練。我們證明,AD在各種環(huán)境中可以學(xué)習(xí)具有較少的獎(jiǎng)金、組合任務(wù)結(jié)構(gòu)和圖像的強(qiáng)化算法,并發(fā)現(xiàn)AD學(xué)習(xí)了一個(gè)比源數(shù)據(jù)收集的數(shù)據(jù)更快的數(shù)據(jù)效率的RL算法。
論文鏈接:https://www.aminer.cn/pub/6358a57090e50fcafda59fe0/
2. Powderworld: A Platform for Understanding Generalization via Rich Task Distributions
作者:Kevin Frans,Phillip Isola
AI綜述(大模型驅(qū)動(dòng)):在 PowderWorld中,提供了兩個(gè)激勵(lì)挑戰(zhàn)分布,一個(gè)用于世界建模和一個(gè)用于強(qiáng)化學(xué)習(xí)。每個(gè)分布包含手工設(shè)計(jì)的測(cè)試任務(wù),以檢查泛化。實(shí)驗(yàn)表明,環(huán)境的復(fù)雜性提高了世界模型和某些強(qiáng)化學(xué)習(xí)agent的泛化,但可能阻礙了在高 variance環(huán)境中學(xué)習(xí)。為了解決這個(gè)問(wèn)題,我們提出了一種輕型但有表達(dá)能力的模擬環(huán)境。
論文鏈接:https://www.aminer.cn/pub/637ee0ee90e50fcafd0f709d/
3. Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization
作者:Rajkumar Ramamurthy,Prithviraj Ammanabrolu,Kianté Brantley,Jack Hessel,Rafet Sifa,Christian Bauckhage,Hannaneh Hajishirzi,Yejin Choi
AI綜述(大模型驅(qū)動(dòng)):我們解決了將大型語(yǔ)言模型(LMs)與人類偏好的對(duì)齊問(wèn)題。如果我們認(rèn)為文本生成作為順序決策問(wèn)題的自然概念框架,強(qiáng)化學(xué)習(xí)(RL)似乎是一種自然的概念框架。然而,對(duì)于基于LM的生成器來(lái)說(shuō),這項(xiàng)任務(wù)面臨的實(shí)證挑戰(zhàn),包括訓(xùn)練不穩(wěn)定性以及缺乏開(kāi)放資源和改進(jìn)度量。
論文鏈接:https://www.aminer.cn/pub/633cf5cf90e50fcafd772ddd/
4. Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
作者:Pierluca D'Oro,Max Schwarzer,Evgenii Nikishin,Pierre-Luc Bacon,Marc G Bellemare,Aaron Courville
AI綜述(大模型驅(qū)動(dòng)):在本文中,我們證明了增強(qiáng)深度激勵(lì)學(xué)習(xí)算法的樣本效率的提高可以產(chǎn)生更好的重疊率擴(kuò)展能力。我們將嚴(yán)格修改的算法訓(xùn)練到使用比通常使用的更少的更新量來(lái)訓(xùn)練它們,以最大限度地提高他們?cè)贏tari100k和DeepMind控制suite基準(zhǔn)上的表現(xiàn)。然后,我們分析了需要為有利可圖的重疊率擴(kuò)展選擇提出的缺陷,并討論了固有的約束和權(quán)衡。
論文鏈接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6077/
5. Extreme Q-Learning: MaxEnt RL without Entropy
作者:Divyansh Garg,Joey Hejna,Matthieu Geist,Stefano Ermon
AI綜述(大模型驅(qū)動(dòng)):我們描述了一種新的在線和 offline超大值學(xué)習(xí)規(guī)則,該規(guī)則直接使用極性價(jià)值理論(EVT)估計(jì)最大值。通過(guò)這樣做,我們可以避免計(jì)算出分布式動(dòng)作中使用的Q值,這通常是一種很大的錯(cuò)誤來(lái)源。我們的關(guān)鍵洞察是引入一個(gè)目標(biāo),它可以直接在最大熵下估計(jì)最優(yōu)軟值函數(shù)(LogSumExp)。
論文鏈接:https://www.aminer.cn/pub/63bb859d90e50fcafd06ee06/
6. Evaluating Long-Term Memory in 3D Mazes
作者:Jurgis Pasukonis,Timothy Lillicrap,Danijar Hafner
AI綜述(大模型驅(qū)動(dòng)):我們介紹了記憶陋室,一種專門(mén)為評(píng)估戰(zhàn)術(shù)人員的長(zhǎng)壽能力的3D領(lǐng)域。與現(xiàn)有的基線相比,陋室測(cè)量長(zhǎng)壽能力不同,需要 agent將信息融合并本地化。我們提出了一個(gè)在線激勵(lì)學(xué)習(xí)基線,一個(gè)多種 offline數(shù)據(jù)集和 offline檢驗(yàn)評(píng)估。
論文鏈接:https://www.aminer.cn/pub/635753d490e50fcafdddf445/
7. Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization
作者:Haoran Xu,Li Jiang,Jianxiong Li,Zhuoran Yang,Zhaoran Wang,Victor Wai Kin Chan,Xianyuan Zhan
AI綜述(大模型驅(qū)動(dòng)):在標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練聚類算法通常認(rèn)為,當(dāng)使用分布式變化進(jìn)行決策時(shí),會(huì)產(chǎn)生一些不確定性。我們提出了一種聚類算法,該算法利用了與CQL相同的值隨機(jī)化,但使用少量手動(dòng)注釋的示例語(yǔ)料庫(kù)。與IQL相比,我們發(fā)現(xiàn)我們的算法增加了學(xué)習(xí)價(jià)值函數(shù)的稀疏性,這使得它比IQL具有更快的收斂速度和更好的一致性。此外,我們還比較了聚類算法的優(yōu)點(diǎn)和弱點(diǎn),并將其與其他基線進(jìn)行了比較。
論文鏈接:https://www.aminer.cn/pub/63dcdb422c26941cf00b6097/
8. Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
作者:Zhendong Wang,Jonathan J Hunt,Mingyuan Zhou
AI綜述(大模型驅(qū)動(dòng)):offline reinforcement學(xué)習(xí)(RL),旨在學(xué)習(xí)一個(gè)有效的政策,使用以前收集的靜態(tài)數(shù)據(jù)集,是RL的一個(gè)重要范疇。標(biāo)準(zhǔn)的RL方法通常在這一任務(wù)中表現(xiàn)不佳,因?yàn)樵谕獠渴占瘎?dòng)作對(duì)齊錯(cuò)誤造成的函數(shù)近似錯(cuò)誤。然而,已經(jīng)提出了許多適當(dāng)?shù)囊?guī)則化方法來(lái)解決這個(gè)問(wèn)題,但這些方法通常受到有限的表達(dá)能力限制,有時(shí)會(huì)導(dǎo)致幾乎不optimal的解決方案。在本文中,我們提出了一種新的基于條件傳播模型的動(dòng)態(tài)調(diào)整算法,該算法利用了條件傳播模板作為高度表達(dá)性的政策類。在我們的方法中,我們?cè)跊Q策損失中學(xué)習(xí)了一個(gè)決策值函數(shù),并添加了一個(gè)最大化決策值的時(shí)間限制。我們表明,基于模型的政策的表達(dá)性和決策改善結(jié)合在一起,產(chǎn)生了卓越的性能。
論文鏈接:https://www.aminer.cn/pub/62fa0d1490e50fcafd2462dd/
9. Solving Continuous Control via Q-learning
作者:Tim Seyde,Peter Werner,Wilko Schwarting,Igor Gilitschenski,Martin Riedmiller,Daniela Rus,Markus Wulfmeier
AI綜述(大模型驅(qū)動(dòng)):我們提出了一種新的監(jiān)督學(xué)習(xí)方法,該方法結(jié)合了動(dòng)作分解和價(jià)值分解,并將單個(gè)agent控制應(yīng)用于協(xié)同優(yōu)化。我們證明了這種方法可以顯著減少監(jiān)督學(xué)習(xí)所需的復(fù)雜性。我們還將監(jiān)督學(xué)習(xí)擴(kuò)展到類似的協(xié)同學(xué)習(xí),以便在各種監(jiān)督任務(wù)中提供良好的性能。
論文鏈接:https://www.aminer.cn/pub/635753cc90e50fcafddddc66/
10. Priors, Hierarchy, and Information Asymmetry for Skill Transfer in Reinforcement Learning
作者:Sasha Salter,Kristian Hartikainen,Walter Goodwin,Ingmar Posner
AI綜述(大模型驅(qū)動(dòng)):在本文中,我們展示了如何利用信息熵來(lái)限制學(xué)習(xí)者的表達(dá)性和推理能力。這項(xiàng)研究表明,雖然信息熵對(duì)學(xué)習(xí)能力的影響很大,但對(duì)傳理能力的影響并不大。我們提出了一種原則性的選擇方法,并將該方法應(yīng)用于一個(gè)復(fù)雜的、機(jī)器人堆棧堆棧領(lǐng)域的實(shí)驗(yàn)。
論文鏈接:https://www.aminer.cn/pub/61ea24995244ab9dcbabc692/
想查看全部強(qiáng)化學(xué)習(xí)論文,可以點(diǎn)擊下方鏈接:
https://www.aminer.cn/conf/5ea1d518edb6e7d53c0100cb/ICLR2023