IJCAI2023 強(qiáng)化學(xué)習(xí)論文合集

國際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence, 簡稱為IJCAI)是人工智能領(lǐng)域中最主要的學(xué)術(shù)會(huì)議之一。該會(huì)議每兩年舉辦一次,匯聚了世界各地的學(xué)者、研究人員和工程師,分享最新的人工智能研究成果、探討前沿技術(shù)和趨勢(shì)、以及交流學(xué)術(shù)思想和見解。
AMiner通過AI技術(shù),對(duì) IJCAI2023 收錄的會(huì)議論文進(jìn)行了分類整理,今日分享的是強(qiáng)化學(xué)習(xí)主題論文,共13篇,我們?cè)谶@里展示五篇最受歡迎的論文,歡迎下載收藏!
1.CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing
作者:Philipp Altmann,Fabian Ritz,Leonard Feuchtinger,Jonas Nü?lein,Claudia Linnhoff-Popien,Thomy Phan
鏈接:https://www.aminer.cn/pub/6449e7ff582c1376bbfc67ed/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種新的訓(xùn)練數(shù)據(jù)推廣技術(shù),用于從有限的訓(xùn)練數(shù)據(jù)擴(kuò)展到看不見的情況。當(dāng)前最先進(jìn)的方法應(yīng)用數(shù)據(jù)增量技術(shù),以增加訓(xùn)練數(shù)據(jù)的多樣性。即使這避免了對(duì)培訓(xùn)環(huán)境不匹配,也阻礙了政策優(yōu)化。構(gòu)建一個(gè)合適的觀察器,只包含關(guān)鍵信息,已被證明是一項(xiàng)挑戰(zhàn)性的任務(wù)。為了提高數(shù)據(jù)效率和通用化能力,我們提出了一種 Compact Reshaped Observation Processing(Crop),通過提供唯一相關(guān)的信息,克服特定的訓(xùn)練布局過度擬合并推廣到看不見的環(huán)境中。
2.Safe Reinforcement Learning via Probabilistic Logic Shields
作者:Wen-Chi Yang,Giuseppe Marra,Gavin Rens,Luc De Raedt
鏈接:https://www.aminer.cn/pub/6406ac6f90e50fcafd0547cc/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種基于概率邏輯政策梯度(PLPG)的Safe RL技術(shù),它利用概率邏輯編程來模擬邏輯安全約束作為獨(dú)立于變量的函數(shù)。因此,PLPG可以靈活地應(yīng)用于任何政策梯度算法,同時(shí)提供相同的相干保證。在我們的實(shí)驗(yàn)中,我們證明了PLPG學(xué)習(xí)更安全的策略和比其他最先進(jìn)的保護(hù)技術(shù)更好。?
3.Learning to Send Reinforcements: Coordinating Multi-Agent Dynamic Police Patrol Dispatching and Rescheduling via Reinforcement Learning
作者:Waldy Joe,Hoong Chuin Lau
鏈接:https://www.aminer.cn/pub/64671279d68f896efaf15641/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文通過 Reinforcement Learning(RL)方法,解決了動(dòng)態(tài)警察巡邏計(jì)劃中多個(gè)agent的協(xié)同調(diào)度問題。該方法使用多 Agents Value Function Approximation(MAVFA)的調(diào)度算法來學(xué)習(xí)調(diào)度和調(diào)度政策,同時(shí)考慮到不同的部門之間的相互支持,以最大限度地提高警方的有效性和高效性。我們提出了一種基于重疊的最佳響應(yīng)程序和明確的協(xié)調(diào)機(jī)制,用于可擴(kuò)展和協(xié)調(diào)決策 Making。實(shí)驗(yàn)結(jié)果表明,該方法在處理類似的問題時(shí)表現(xiàn)更好。
4.Ensemble Reinforcement Learning in Continuous Spaces — A Hierarchical Multi-Step Approach for Policy Training
作者:Gang Chen,Victoria Huang
鏈接:https://www.aminer.cn/pub/6467125bd68f896efaf1417b/
ChatPaper綜述(大模型驅(qū)動(dòng)): Actor critic deep reinforcement學(xué)習(xí)(DRL)算法最近在解決多項(xiàng)式連續(xù)狀態(tài)和行為空間等復(fù)雜控制任務(wù)方面取得了顯著成功。然而,現(xiàn)有研究表明,演員批評(píng)DRL算法經(jīng)常未能有效地探索其學(xué)習(xí)環(huán)境,從而導(dǎo)致有限的學(xué)習(xí)穩(wěn)定性和性能較差。為了克服這一局限性,本文提出了一種新的訓(xùn)練技術(shù),將基于創(chuàng)新的多步整合方法的混合基礎(chǔ)學(xué)習(xí)算法訓(xùn)練為一個(gè)集合。該算法能夠有效地促進(jìn)學(xué)習(xí)者之間的協(xié)同優(yōu)化,通過保持學(xué)習(xí)者參數(shù)共享來實(shí)現(xiàn)。
5.Explainable Reinforcement Learning via a Causal World Model
作者:Zhongwei Yu,Jingqing Ruan,Dengpeng Xing
鏈接:https://www.aminer.cn/pub/6456389cd68f896efacf6c5c/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種基于原因世界的新框架,以生成促進(jìn)學(xué)習(xí)(RL)的解釋。該模型捕捉行為的影響,允許我們通過因果鏈閱讀行為的長期影響,通過因果鏈解釋行為的影響環(huán)境變量,最后導(dǎo)致獎(jiǎng)勵(lì)。與大多數(shù)解釋性模型相比,我們的模型在提高解釋能力時(shí)保持準(zhǔn)確,同時(shí)改善了解釋性,使其用于建模學(xué)習(xí)。

點(diǎn)擊下方鏈接可查看所有強(qiáng)化學(xué)習(xí)論文:
https://www.aminer.cn/conf/5ea1b5f2edb6e7d53c00c875/IJCAI2023