IJCAI2023 多智能體強(qiáng)化學(xué)習(xí)論文合集

國際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence, 簡稱為IJCAI)是人工智能領(lǐng)域中最主要的學(xué)術(shù)會(huì)議之一。該會(huì)議每兩年舉辦一次,匯聚了世界各地的學(xué)者、研究人員和工程師,分享最新的人工智能研究成果、探討前沿技術(shù)和趨勢、以及交流學(xué)術(shù)思想和見解。
AMiner通過AI技術(shù),對 IJCAI2023 收錄的會(huì)議論文進(jìn)行了分類整理,今日分享的是多智能體強(qiáng)化學(xué)習(xí)主題論文,共11篇,我們在這里展示十篇最受歡迎的論文,歡迎下載收藏!
1.Competitive-Cooperative Multi-Agent Reinforcement Learning for Auction-based Federated Learning
作者:Xiaoli Tang,Han Yu
鏈接:https://www.aminer.cn/pub/6467126fd68f896efaf14fd5/
ChatPaper綜述(大模型驅(qū)動(dòng)):多機(jī)構(gòu)干預(yù)學(xué)習(xí)(AFL)是一種促進(jìn)數(shù)據(jù)消費(fèi)者共同參與的新技術(shù)?,F(xiàn)有的AFL方法難以處理數(shù)據(jù)消費(fèi)者之間的相互影響,而無法支持單個(gè)數(shù)據(jù)消費(fèi)者同時(shí)加入多個(gè)數(shù)據(jù)消費(fèi)者。本文提出了一種基于溫度的獎(jiǎng)勵(lì)重塑方案,以實(shí)現(xiàn)對協(xié)同和競爭行為進(jìn)行權(quán)衡。通過設(shè)計(jì)一個(gè)基于氣溫的獎(jiǎng)勵(lì)重塑方案, MARL AFL可以實(shí)現(xiàn)平衡狀態(tài),確保個(gè)人數(shù)據(jù)消費(fèi)者能夠?qū)崿F(xiàn)良好的服務(wù),同時(shí)也保護(hù)系統(tǒng)水平的社會(huì)福利。本文在六個(gè)常用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明 MARL AFL顯著優(yōu)于六種最先進(jìn)的方法,分別在平均社會(huì)福利、收入和模型準(zhǔn)確性方面表現(xiàn)最佳。?
2.Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning
作者:Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
鏈接:https://www.aminer.cn/pub/63cdfab690e50fcafd106f57/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文系統(tǒng)分析了基于固有動(dòng)機(jī)的反向?qū)W習(xí)(RL)實(shí)體的行為,旨在設(shè)計(jì)具有簡化的獎(jiǎng)勵(lì)結(jié)構(gòu)。首先,我們定義了反向和影響的關(guān)系,并分析了不同類型的道德行為對合作、厭惡或剝削的出現(xiàn)以及相關(guān)社會(huì)結(jié)果的影響。最后,我們討論了這些發(fā)現(xiàn)對人工和混合人類AI社會(huì)的道德 Agent的發(fā)展的影響。?
3.Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning
作者:Bin Zhang,Lijuan Li,Zhiwei Xu,Dapeng Li,Guoliang Fan
鏈接:https://www.aminer.cn/pub/6441ff2eed329dcc6bb7493e/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種多協(xié)同干預(yù)學(xué)習(xí)方法,通過建立局部時(shí)間順序決策處理結(jié)構(gòu),從馬爾可夫游戲(MG)框架中提取了斯塔克勒布格平衡(SE)的理論,并提出了一個(gè)基于所有agent共享的N級政策模型。該方法能夠?qū)崿F(xiàn)對異構(gòu)訓(xùn)練,同時(shí)保持參數(shù)共享,從而減少學(xué)習(xí)和存儲成本,同時(shí)也提高了擴(kuò)展性和可擴(kuò)展性。實(shí)驗(yàn)證明,我們的方法在反復(fù)的矩陣游戲情景中有效地結(jié)合了SE策略,并且在非常復(fù)雜的條件下表現(xiàn)出色,包括協(xié)同任務(wù)和混合任務(wù)。
4.Explainable Multi-Agent Reinforcement Learning for Temporal Queries
作者:Kayla Boggess,Sarit Kraus,Lu Feng
鏈接:https://www.aminer.cn/pub/64659ad1d68f896efa875375/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種生成策略層相似解釋方法,以應(yīng)對時(shí)間的用戶查詢,該方法將時(shí)間查詢編碼為PCTL邏輯函數(shù),通過概率模型檢查驗(yàn)證問題是否可實(shí)現(xiàn)。這種方法還可以生成正確的和完全的解釋,以指出使用戶查詢無法實(shí)現(xiàn)的原因。我們已經(jīng)將該方法應(yīng)用于四個(gè)基準(zhǔn) MARL領(lǐng)域(高達(dá)9個(gè)agent在一個(gè)領(lǐng)域中),并且用戶研究結(jié)果表明,生成的解釋顯著提高了用戶性能和滿意度。?
5.Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism
作者:Xudong Guo,Daming Shi,Wenhui Fan
鏈接:https://www.aminer.cn/pub/64671255d68f896efaf13e57/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種新框架的Transformer基于電子郵件機(jī)制(tem)。該框架采用局部通訊,只向觀察到的任何人發(fā)送消息。受人類與電子發(fā)送信息合作的啟發(fā),我們設(shè)計(jì)了消息鏈,通過編碼和解碼消息鏈以選擇下一個(gè)接收器來協(xié)作。實(shí)驗(yàn)結(jié)果表明,Tem在多個(gè)協(xié)同 MARL基準(zhǔn)測試中性能優(yōu)于基準(zhǔn)。?
6.Self-supervised Neuron Segmentation with Multi-Agent Reinforcement Learning
作者:Yinda Chen,Wei Huang,Shenglong Zhou,Qi Chen,Zhiwei Xiong
鏈接:https://www.aminer.cn/pub/64671256d68f896efaf13fb3/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種基于決策的模糊圖像模型(MIM),它利用激勵(lì)學(xué)習(xí)(RL)自動(dòng)搜索最優(yōu)圖像掩蓋比例和遮擋策略,以克服先前訓(xùn)練不均衡的問題。通過將每個(gè)輸入片段視為一個(gè)具有共同行為政策的agent,允許多機(jī)構(gòu)合作,我們提出了該模型,并證明了該方法在神經(jīng)切分任務(wù)上的顯著優(yōu)勢。實(shí)驗(yàn)結(jié)果表明,該方法與其他自監(jiān)督方法相比具有顯著的優(yōu)勢。?
7.GPLight: Grouped Multi-agent Reinforcement Learning for Large-scale Traffic Signal Control
作者:Yilin Liu,Guiyang Luo,Quan Yuan,Jinglin Li,Lei Jin,Bo Chen,Rui Pan
鏈接:https://www.aminer.cn/pub/64671261d68f896efaf14554/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種分組 MARL方法,名為GPLight,該方法首先比較agent環(huán)境和動(dòng)態(tài)聚類之間的相似性,然后提出了兩個(gè)損失函數(shù)來維持可學(xué)習(xí)和動(dòng)態(tài)聚類,一個(gè)應(yīng)用互信息估計(jì)以提高穩(wěn)定性,另一個(gè)旨在最大限度地實(shí)現(xiàn)聚類。最后,GPLight在小組中執(zhí)行相同的網(wǎng)絡(luò)和參數(shù),以確保準(zhǔn)確性。與目前最先進(jìn)的方法相比,實(shí)驗(yàn)結(jié)果表明,我們的方法在大規(guī)模CTL中具有優(yōu)異的性能。?
8.Deep Hierarchical Communication Graph in Multi-Agent Reinforcement Learning
作者:Zeyang Liu,Lipeng Wan,Xue Sui,Zhuoran Chen,Kewu Sun,Xuguang Lan
鏈接:https://www.aminer.cn/pub/64671269d68f896efaf14c11/
ChatPaper綜述(大模型驅(qū)動(dòng)): 本文提出了Deep Hierarchical Communication Graph(DHCG)用于學(xué)習(xí)基于傳遞的agent之間的依賴關(guān)系。DHCG旨在消除圖中的周期,并將其映射到允許的解決方案集上,以提高成本和協(xié)調(diào)能力。研究結(jié)果表明,該方法在協(xié)作多機(jī)構(gòu)任務(wù)中表現(xiàn)出優(yōu)異的性能,包括隱馬爾可夫、多機(jī)構(gòu)協(xié)調(diào)挑戰(zhàn)和星球大戰(zhàn)多機(jī)構(gòu)挑戰(zhàn)。實(shí)證結(jié)果表明,該方法在多個(gè)協(xié)作多機(jī)構(gòu)任務(wù)中表現(xiàn)出優(yōu)異的性能,包括隱馬爾可夫、多機(jī)構(gòu)協(xié)調(diào)挑戰(zhàn)和星球大戰(zhàn)多機(jī)構(gòu)挑戰(zhàn)。
9.Decentralized Anomaly Detection in Cooperative Multi-Agent Reinforcement Learning
作者:Kiarash Kazari,Ezzeldin Shereen,Gyorgy Dan
鏈接:https://www.aminer.cn/pub/6467126bd68f896efaf14c92/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文研究了在協(xié)同學(xué)習(xí)中檢測敵對攻擊的問題。我們提出了一種分散的神經(jīng)網(wǎng)絡(luò)(RNN)方法,用于預(yù)測其他agent的動(dòng)作分布,基于局部觀察。預(yù)測分布用于計(jì)算Agent的正常度分?jǐn)?shù),該分?jǐn)?shù)用于檢測其他agent的行為不當(dāng)行為。為了探討所提出的檢測方案的魯棒性性質(zhì),我們將其定義為以壓縮激勵(lì)學(xué)習(xí)問題,并通過優(yōu)化對應(yīng)的雙重函數(shù)來計(jì)算攻擊策略。
10.DPMAC: Differentially Private Communication for Cooperative Multi-Agent Reinforcement Learning
作者:Canzhe Zhao,Yanjie Ze,Jing Dong,Baoxiang Wang,Shuai Li
鏈接:https://www.aminer.cn/pub/6433f69590e50fcafd6e3187/
ChatPaper綜述(大模型驅(qū)動(dòng)):本文提出了一種名為"多重實(shí)體通信"(DPMAC)算法,用于保護(hù)個(gè)人信息的敏感信息。該算法采用一個(gè)隨機(jī)消息發(fā)送器和將DP要求納入發(fā)送器,自動(dòng)調(diào)節(jié)學(xué)習(xí)消息分布以消除DP噪音。此外,我們證明了與保護(hù)隱私問題合作的DPMAC存在平衡,這表明這個(gè)問題是非理論上學(xué)習(xí)的。實(shí)驗(yàn)結(jié)果表明,在保護(hù)隱私問題方面,DPMAC比基線方法具有顯著的優(yōu)勢。

點(diǎn)擊下方鏈接可查看所有多智能體強(qiáng)化學(xué)習(xí)論文:
https://www.aminer.cn/conf/5ea1b5f2edb6e7d53c00c875/IJCAI2023