最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

IJCAI2023 強(qiáng)化學(xué)習(xí)論文合集

2023-06-07 15:09 作者:AMiner科技  | 我要投稿

國際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence, 簡稱為IJCAI)是人工智能領(lǐng)域中最主要的學(xué)術(shù)會(huì)議之一。該會(huì)議每兩年舉辦一次,匯聚了世界各地的學(xué)者、研究人員和工程師,分享最新的人工智能研究成果、探討前沿技術(shù)和趨勢(shì)、以及交流學(xué)術(shù)思想和見解。

AMiner通過AI技術(shù),對(duì) IJCAI2023 收錄的會(huì)議論文進(jìn)行了分類整理,今日分享的是強(qiáng)化學(xué)習(xí)主題論文,共13篇,我們?cè)谶@里展示五篇最受歡迎的論文,歡迎下載收藏!

1.CROP: Towards Distributional-Shift Robust Reinforcement Learning using Compact Reshaped Observation Processing

作者:Philipp Altmann,Fabian Ritz,Leonard Feuchtinger,Jonas Nü?lein,Claudia Linnhoff-Popien,Thomy Phan

鏈接:aminer.cn/pub/6449e7ff5

ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種新的訓(xùn)練數(shù)據(jù)推廣技術(shù),用于從有限的訓(xùn)練數(shù)據(jù)擴(kuò)展到看不見的情況。當(dāng)前最先進(jìn)的方法應(yīng)用數(shù)據(jù)增量技術(shù),以增加訓(xùn)練數(shù)據(jù)的多樣性。即使這避免了對(duì)培訓(xùn)環(huán)境不匹配,也阻礙了政策優(yōu)化。構(gòu)建一個(gè)合適的觀察器,只包含關(guān)鍵信息,已被證明是一項(xiàng)挑戰(zhàn)性的任務(wù)。為了提高數(shù)據(jù)效率和通用化能力,我們提出了一種 Compact Reshaped Observation Processing(Crop),通過提供唯一相關(guān)的信息,克服特定的訓(xùn)練布局過度擬合并推廣到看不見的環(huán)境中。

2.Safe Reinforcement Learning via Probabilistic Logic Shields

作者:Wen-Chi Yang,Giuseppe Marra,Gavin Rens,Luc De Raedt

鏈接:aminer.cn/pub/6406ac6f9

ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種基于概率邏輯政策梯度(PLPG)的Safe RL技術(shù),它利用概率邏輯編程來模擬邏輯安全約束作為獨(dú)立于變量的函數(shù)。因此,PLPG可以靈活地應(yīng)用于任何政策梯度算法,同時(shí)提供相同的相干保證。在我們的實(shí)驗(yàn)中,我們證明了PLPG學(xué)習(xí)更安全的策略和比其他最先進(jìn)的保護(hù)技術(shù)更好。?

3.Learning to Send Reinforcements: Coordinating Multi-Agent Dynamic Police Patrol Dispatching and Rescheduling via Reinforcement Learning

作者:Waldy Joe,Hoong Chuin Lau

鏈接:aminer.cn/pub/64671279d

ChatPaper綜述(大模型驅(qū)動(dòng)):本文通過 Reinforcement Learning(RL)方法,解決了動(dòng)態(tài)警察巡邏計(jì)劃中多個(gè)agent的協(xié)同調(diào)度問題。該方法使用多 Agents Value Function Approximation(MAVFA)的調(diào)度算法來學(xué)習(xí)調(diào)度和調(diào)度政策,同時(shí)考慮到不同的部門之間的相互支持,以最大限度地提高警方的有效性和高效性。我們提出了一種基于重疊的最佳響應(yīng)程序和明確的協(xié)調(diào)機(jī)制,用于可擴(kuò)展和協(xié)調(diào)決策 Making。實(shí)驗(yàn)結(jié)果表明,該方法在處理類似的問題時(shí)表現(xiàn)更好。

4.Ensemble Reinforcement Learning in Continuous Spaces — A Hierarchical Multi-Step Approach for Policy Training

作者:Gang Chen,Victoria Huang

鏈接:aminer.cn/pub/6467125bd

ChatPaper綜述(大模型驅(qū)動(dòng)): Actor critic deep reinforcement學(xué)習(xí)(DRL)算法最近在解決多項(xiàng)式連續(xù)狀態(tài)和行為空間等復(fù)雜控制任務(wù)方面取得了顯著成功。然而,現(xiàn)有研究表明,演員批評(píng)DRL算法經(jīng)常未能有效地探索其學(xué)習(xí)環(huán)境,從而導(dǎo)致有限的學(xué)習(xí)穩(wěn)定性和性能較差。為了克服這一局限性,本文提出了一種新的訓(xùn)練技術(shù),將基于創(chuàng)新的多步整合方法的混合基礎(chǔ)學(xué)習(xí)算法訓(xùn)練為一個(gè)集合。該算法能夠有效地促進(jìn)學(xué)習(xí)者之間的協(xié)同優(yōu)化,通過保持學(xué)習(xí)者參數(shù)共享來實(shí)現(xiàn)。

5.Explainable Reinforcement Learning via a Causal World Model

作者:Zhongwei Yu,Jingqing Ruan,Dengpeng Xing

鏈接:aminer.cn/pub/6456389cd

ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種基于原因世界的新框架,以生成促進(jìn)學(xué)習(xí)(RL)的解釋。該模型捕捉行為的影響,允許我們通過因果鏈閱讀行為的長期影響,通過因果鏈解釋行為的影響環(huán)境變量,最后導(dǎo)致獎(jiǎng)勵(lì)。與大多數(shù)解釋性模型相比,我們的模型在提高解釋能力時(shí)保持準(zhǔn)確,同時(shí)改善了解釋性,使其用于建模學(xué)習(xí)。



點(diǎn)擊下方鏈接可查看所有強(qiáng)化學(xué)習(xí)論文:

https://www.aminer.cn/conf/5ea1b5f2edb6e7d53c00c875/IJCAI2023

IJCAI2023 強(qiáng)化學(xué)習(xí)論文合集的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
沂源县| 娱乐| 通化市| 文山县| 马边| 大港区| 江阴市| 伊宁市| 钟祥市| 新宁县| 东辽县| 西盟| 青冈县| 正阳县| 拜城县| 宣汉县| 方正县| 仙游县| 巴马| 安岳县| 龙陵县| 泾阳县| 鹿泉市| 遂宁市| 新野县| 高邑县| 隆昌县| 长寿区| 冕宁县| 靖西县| 乌什县| 阳谷县| 凉山| 左权县| 固始县| 常山县| 柳河县| 汉寿县| 嘉鱼县| 景东| 滨海县|