最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

2023-11-13 09:57 作者:西湖大學(xué)空中機(jī)器人  | 我要投稿

導(dǎo)讀:

本工作展示了大語言模型驅(qū)動(dòng)的智能體在實(shí)現(xiàn)零樣本多機(jī)器人協(xié)同自主規(guī)劃任務(wù)中的潛力,并分析了智能體

個(gè)數(shù)

、智能體

性格

、

網(wǎng)絡(luò)拓?fù)?/p>

等對(duì)于

多智能體一致性

過程的影響。

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性

近幾個(gè)月,由大語言模型(LLMs)驅(qū)動(dòng)的多智能體系統(tǒng)受到了越來越多的關(guān)注。通過多個(gè)智能體之間的合作,大語言模型的問題解決能力可以得到顯著提高。

我們的工作考慮了多智能體系統(tǒng)中的一個(gè)基本問題:

達(dá)成一致(consensus seeking)

。即當(dāng)使用多個(gè)大語言模型來解決同一個(gè)任務(wù)時(shí),它們最初可能有不同的解決方案,但通過持續(xù)的談判,最終可以達(dá)到一致。達(dá)成一致的問題廣泛存在于動(dòng)物群體和人類社會(huì)等集體決策系統(tǒng)中。它也是多機(jī)器人系統(tǒng)和聯(lián)邦學(xué)習(xí)領(lǐng)域的核心研究問題。

到目前為止,由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)達(dá)成一致的任務(wù)仍然

存在許多問題尚待研究

。例如,如果我們使用多個(gè)大語言模型來協(xié)助我們進(jìn)行談判或解決問題,我們需要知道它們之間最終是否可以達(dá)成一致。如果可以,需要多長時(shí)間,哪些因素會(huì)影響最終一致的結(jié)果?如果不能,導(dǎo)致這種失敗的因素是什么?這些問題的答案對(duì)于我們正確利用大語言模型起到了關(guān)鍵作用。

在本工作中,我們考慮了一個(gè)由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng),其中每個(gè)智能體的初始狀態(tài)都以一個(gè)數(shù)值表示。它們的目標(biāo)是不斷調(diào)整自己的狀態(tài),以實(shí)現(xiàn)相同的最終狀態(tài)。在整個(gè)過程中,每個(gè)智能體都以得到其他智能體的狀態(tài),并根據(jù)這些信息,制定策略來調(diào)整自己的狀態(tài)。詳見下圖1:

圖1 兩個(gè)智能體的協(xié)商過程

基于上述的實(shí)驗(yàn)過程,我們得到了一系列有趣的發(fā)現(xiàn)。

智能體選擇的策略

在沒有明確的策略指導(dǎo)下,智能體會(huì)選擇何種策略來達(dá)成一致呢?我們發(fā)現(xiàn),智能體最常用的策略是

平均策略

,即將所有智能體狀態(tài)的平均值作為自己下一個(gè)時(shí)刻的狀態(tài),如圖2所示。

圖2 平均值策略

我們也發(fā)現(xiàn)智能體偶爾會(huì)選擇其它策略。例如“

順從策略

”,即智能體選擇將其他智能體的狀態(tài)作為自身的目標(biāo)狀態(tài)。然而,采用這種策略可能導(dǎo)致系統(tǒng)產(chǎn)生震蕩現(xiàn)象,如圖3所示。

圖3 順從的策略

還有“

固執(zhí)策略

”,即智能體傾向于期望其他智能體向自己靠攏,而保持自身的原始狀態(tài)不變,如圖4所示。

圖4 固執(zhí)的策略

此外,有時(shí)智能體還可能出現(xiàn)

幻覺

,從而作出錯(cuò)誤的選擇,如圖5所示。

圖5 幻覺

我們進(jìn)行了蒙特卡羅仿真來研究最終收斂值的特性,發(fā)現(xiàn): 1)隨著智能體數(shù)量的增加,聚集值的方差減小,均值逐漸接近初始均值。這在一定程度上說明了,增加智能體個(gè)數(shù)可以緩解隨機(jī)性或者幻覺。

2)溫度越低,系統(tǒng)穩(wěn)定性越好;溫度越高,系統(tǒng)的離散程度越大。

圖6 最終一致值的統(tǒng)計(jì)結(jié)果

▌性格特征

在前面實(shí)驗(yàn)中,我們并沒有明確定義智能體的性格特征。我們又進(jìn)一步明確設(shè)置了智能體具有固執(zhí)或者順從的性格。 如下圖7-a所示,若智能體1性格是固執(zhí)的,智能體2是順從的,那么協(xié)商過程中智能體2會(huì)向智能體1靠近。

圖7-a?智能體1是固執(zhí)的;智能體2是順從的

如下圖7-b所示,若智能體1和2的性格都是順從的,那么兩個(gè)智能體的狀態(tài)會(huì)呈現(xiàn)出振蕩而無法收斂的現(xiàn)象。

圖7-b 智能體1和2都是順從的

如下圖7-c所示,若智能體1和2的性格都是固執(zhí)的,那么兩個(gè)智能體可能各自保持自己的狀態(tài),無法實(shí)現(xiàn)收斂。

圖7-c 智能體1和2都是固執(zhí)的

▌通信拓?fù)?/p>

除了性格因素,我們還探索了多智能體的通信拓?fù)浣Y(jié)構(gòu)對(duì)聚集行為的影響。 首先我們考慮無向圖的拓?fù)溥B接,此時(shí)信息流是雙向的。

如圖8所示,若三個(gè)智能體是全連接的,那么他們會(huì)以一個(gè)很快的速度實(shí)現(xiàn)收斂。

圖8?全連接

如圖9所示,若不是全連接的,他們?nèi)耘f可以收斂,但是收斂速度會(huì)變慢。

圖9 非全連接

如果拓?fù)溥B接是有向的,即此時(shí)信息流是單向的。 下圖10中信息從智能體1流向智能體2和3。最終,智能體2和3將趨向于智能體1的狀態(tài)。

圖10 領(lǐng)導(dǎo)者-跟隨者結(jié)構(gòu)

下圖11中的拓?fù)浣Y(jié)構(gòu)是一種鏈?zhǔn)竭B接,智能體1的信息流向3,智能體3的信息流向2,最終收斂值也由智能體1決定。

圖11 鏈?zhǔn)浇Y(jié)構(gòu)

應(yīng)用于多機(jī)器人聚集

最后,我們將任務(wù)擴(kuò)展到了二維空間中多機(jī)器人聚集的任務(wù)。此時(shí)每個(gè)智能體對(duì)應(yīng)于一個(gè)移動(dòng)機(jī)器人,這些機(jī)器人需要從不同的起始位置出發(fā),需要聚集到同一位置。

動(dòng)圖1 機(jī)器人的軌跡

機(jī)器人的軌跡如動(dòng)圖1所示??梢钥吹?,從不同初始位置出發(fā)的機(jī)器人最終成功聚集到了同一個(gè)位置。 系統(tǒng)的架構(gòu)如下圖12所示,每個(gè)機(jī)器人都配備有一個(gè)由大語言模型驅(qū)動(dòng)的規(guī)劃器和一個(gè)控制器。規(guī)劃器根據(jù)所有機(jī)器人的當(dāng)前狀態(tài)輸出每個(gè)機(jī)器人的目標(biāo)位置。隨后,控制器根據(jù)規(guī)劃器生成的目標(biāo)位置發(fā)出相應(yīng)的控制命令。

圖12 系統(tǒng)框架

每個(gè)機(jī)器人的規(guī)劃位置和實(shí)際位置如下圖13所示??梢钥吹剑诖笳Z言模型的規(guī)劃器輸出了不連續(xù)的目標(biāo)位置,而控制器能夠追蹤這些目標(biāo)位置。

圖13 規(guī)劃位置與實(shí)際位置

值得指出的是,

多機(jī)器人聚集的任務(wù)也能使用傳統(tǒng)協(xié)同控制方法實(shí)現(xiàn),但是本文的工作揭示了類似這樣的協(xié)同任務(wù)可以通過簡單的自然語言的指令直接利用大語言模型實(shí)現(xiàn),省去了復(fù)雜的設(shè)計(jì)過程,提升了系統(tǒng)的自主程度,展現(xiàn)了良好的應(yīng)用潛力。

感謝您的閱讀

更多詳情請(qǐng)參考論文鏈接

https://arxiv.org/pdf/2310.20151.pdf

?作者??| ?陳華奔 季文康 徐璐峰 趙世鈺

申請(qǐng)文章授權(quán)請(qǐng)聯(lián)系后臺(tái)運(yùn)營人員

由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
安远县| 郁南县| 土默特左旗| 潼南县| 堆龙德庆县| 隆回县| 乳山市| 吉林省| 孟连| 靖远县| 萨嘎县| 那曲县| 营山县| 永顺县| 上虞市| 财经| 得荣县| 大竹县| 吉安县| 康乐县| 罗源县| 闸北区| 鹤岗市| 广西| 浑源县| 山东省| 孝义市| 当涂县| 靖远县| 永德县| 开远市| 大丰市| 宝应县| 永和县| 金山区| 淳化县| 灵台县| 搜索| 宣威市| 蚌埠市| 康保县|