手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

2023-11-13 09:57 作者:西湖大學(xué)空中機(jī)器人 0人讀過 | 我要投稿

導(dǎo)讀：

本工作展示了大語言模型驅(qū)動(dòng)的智能體在實(shí)現(xiàn)零樣本多機(jī)器人協(xié)同自主規(guī)劃任務(wù)中的潛力，并分析了智能體

個(gè)數(shù)

、智能體

性格

、

網(wǎng)絡(luò)拓?fù)?/p>

等對(duì)于

多智能體一致性

過程的影響。

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

近幾個(gè)月，由大語言模型（LLMs）驅(qū)動(dòng)的多智能體系統(tǒng)受到了越來越多的關(guān)注。通過多個(gè)智能體之間的合作，大語言模型的問題解決能力可以得到顯著提高。

我們的工作考慮了多智能體系統(tǒng)中的一個(gè)基本問題：

達(dá)成一致（consensus seeking）

。即當(dāng)使用多個(gè)大語言模型來解決同一個(gè)任務(wù)時(shí)，它們最初可能有不同的解決方案，但通過持續(xù)的談判，最終可以達(dá)到一致。達(dá)成一致的問題廣泛存在于動(dòng)物群體和人類社會(huì)等集體決策系統(tǒng)中。它也是多機(jī)器人系統(tǒng)和聯(lián)邦學(xué)習(xí)領(lǐng)域的核心研究問題。

到目前為止，由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)達(dá)成一致的任務(wù)仍然

存在許多問題尚待研究

。例如，如果我們使用多個(gè)大語言模型來協(xié)助我們進(jìn)行談判或解決問題，我們需要知道它們之間最終是否可以達(dá)成一致。如果可以，需要多長時(shí)間，哪些因素會(huì)影響最終一致的結(jié)果？如果不能，導(dǎo)致這種失敗的因素是什么？這些問題的答案對(duì)于我們正確利用大語言模型起到了關(guān)鍵作用。

在本工作中，我們考慮了一個(gè)由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)，其中每個(gè)智能體的初始狀態(tài)都以一個(gè)數(shù)值表示。它們的目標(biāo)是不斷調(diào)整自己的狀態(tài)，以實(shí)現(xiàn)相同的最終狀態(tài)。在整個(gè)過程中，每個(gè)智能體都以得到其他智能體的狀態(tài)，并根據(jù)這些信息，制定策略來調(diào)整自己的狀態(tài)。詳見下圖1：

圖1 兩個(gè)智能體的協(xié)商過程

基于上述的實(shí)驗(yàn)過程，我們得到了一系列有趣的發(fā)現(xiàn)。

▌

智能體選擇的策略

在沒有明確的策略指導(dǎo)下，智能體會(huì)選擇何種策略來達(dá)成一致呢？我們發(fā)現(xiàn)，智能體最常用的策略是

平均策略

，即將所有智能體狀態(tài)的平均值作為自己下一個(gè)時(shí)刻的狀態(tài)，如圖2所示。

圖2 平均值策略

我們也發(fā)現(xiàn)智能體偶爾會(huì)選擇其它策略。例如“

順從策略

”，即智能體選擇將其他智能體的狀態(tài)作為自身的目標(biāo)狀態(tài)。然而，采用這種策略可能導(dǎo)致系統(tǒng)產(chǎn)生震蕩現(xiàn)象，如圖3所示。

圖3 順從的策略

還有“

固執(zhí)策略

”，即智能體傾向于期望其他智能體向自己靠攏，而保持自身的原始狀態(tài)不變，如圖4所示。

圖4 固執(zhí)的策略

此外，有時(shí)智能體還可能出現(xiàn)

幻覺

，從而作出錯(cuò)誤的選擇，如圖5所示。

圖5 幻覺

我們進(jìn)行了蒙特卡羅仿真來研究最終收斂值的特性，發(fā)現(xiàn)： 1）隨著智能體數(shù)量的增加，聚集值的方差減小，均值逐漸接近初始均值。這在一定程度上說明了，增加智能體個(gè)數(shù)可以緩解隨機(jī)性或者幻覺。

2）溫度越低，系統(tǒng)穩(wěn)定性越好；溫度越高，系統(tǒng)的離散程度越大。

圖6 最終一致值的統(tǒng)計(jì)結(jié)果

▌性格特征

在前面實(shí)驗(yàn)中，我們并沒有明確定義智能體的性格特征。我們又進(jìn)一步明確設(shè)置了智能體具有固執(zhí)或者順從的性格。如下圖7-a所示，若智能體1性格是固執(zhí)的，智能體2是順從的，那么協(xié)商過程中智能體2會(huì)向智能體1靠近。

圖7-a?智能體1是固執(zhí)的;智能體2是順從的

如下圖7-b所示，若智能體1和2的性格都是順從的，那么兩個(gè)智能體的狀態(tài)會(huì)呈現(xiàn)出振蕩而無法收斂的現(xiàn)象。

圖7-b 智能體1和2都是順從的

如下圖7-c所示，若智能體1和2的性格都是固執(zhí)的，那么兩個(gè)智能體可能各自保持自己的狀態(tài)，無法實(shí)現(xiàn)收斂。

圖7-c 智能體1和2都是固執(zhí)的

▌通信拓?fù)?/p>

除了性格因素，我們還探索了多智能體的通信拓?fù)浣Y(jié)構(gòu)對(duì)聚集行為的影響。首先我們考慮無向圖的拓?fù)溥B接，此時(shí)信息流是雙向的。

如圖8所示，若三個(gè)智能體是全連接的，那么他們會(huì)以一個(gè)很快的速度實(shí)現(xiàn)收斂。

圖8?全連接

如圖9所示，若不是全連接的，他們?nèi)耘f可以收斂，但是收斂速度會(huì)變慢。

圖9 非全連接

如果拓?fù)溥B接是有向的，即此時(shí)信息流是單向的。下圖10中信息從智能體1流向智能體2和3。最終，智能體2和3將趨向于智能體1的狀態(tài)。

圖10 領(lǐng)導(dǎo)者-跟隨者結(jié)構(gòu)

下圖11中的拓?fù)浣Y(jié)構(gòu)是一種鏈?zhǔn)竭B接，智能體1的信息流向3，智能體3的信息流向2，最終收斂值也由智能體1決定。

圖11 鏈?zhǔn)浇Y(jié)構(gòu)

▌

應(yīng)用于多機(jī)器人聚集

最后，我們將任務(wù)擴(kuò)展到了二維空間中多機(jī)器人聚集的任務(wù)。此時(shí)每個(gè)智能體對(duì)應(yīng)于一個(gè)移動(dòng)機(jī)器人，這些機(jī)器人需要從不同的起始位置出發(fā)，需要聚集到同一位置。

動(dòng)圖1 機(jī)器人的軌跡

機(jī)器人的軌跡如動(dòng)圖1所示?？梢钥吹?，從不同初始位置出發(fā)的機(jī)器人最終成功聚集到了同一個(gè)位置。系統(tǒng)的架構(gòu)如下圖12所示，每個(gè)機(jī)器人都配備有一個(gè)由大語言模型驅(qū)動(dòng)的規(guī)劃器和一個(gè)控制器。規(guī)劃器根據(jù)所有機(jī)器人的當(dāng)前狀態(tài)輸出每個(gè)機(jī)器人的目標(biāo)位置。隨后，控制器根據(jù)規(guī)劃器生成的目標(biāo)位置發(fā)出相應(yīng)的控制命令。

圖12 系統(tǒng)框架

每個(gè)機(jī)器人的規(guī)劃位置和實(shí)際位置如下圖13所示?？梢钥吹剑诖笳Z言模型的規(guī)劃器輸出了不連續(xù)的目標(biāo)位置，而控制器能夠追蹤這些目標(biāo)位置。

圖13 規(guī)劃位置與實(shí)際位置

值得指出的是，

多機(jī)器人聚集的任務(wù)也能使用傳統(tǒng)協(xié)同控制方法實(shí)現(xiàn)，但是本文的工作揭示了類似這樣的協(xié)同任務(wù)可以通過簡單的自然語言的指令直接利用大語言模型實(shí)現(xiàn)，省去了復(fù)雜的設(shè)計(jì)過程，提升了系統(tǒng)的自主程度，展現(xiàn)了良好的應(yīng)用潛力。

感謝您的閱讀

更多詳情請(qǐng)參考論文鏈接

https://arxiv.org/pdf/2310.20151.pdf

?作者??| ?陳華奔季文康徐璐峰趙世鈺

申請(qǐng)文章授權(quán)請(qǐng)聯(lián)系后臺(tái)運(yùn)營人員

標(biāo)簽：

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

本文作者的其他文章

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性的評(píng)論 (共條)