由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性
導(dǎo)讀:
本工作展示了大語言模型驅(qū)動(dòng)的智能體在實(shí)現(xiàn)零樣本多機(jī)器人協(xié)同自主規(guī)劃任務(wù)中的潛力,并分析了智能體
個(gè)數(shù)
、智能體
性格
、
網(wǎng)絡(luò)拓?fù)?/p>
等對(duì)于
多智能體一致性
過程的影響。
由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)一致性
近幾個(gè)月,由大語言模型(LLMs)驅(qū)動(dòng)的多智能體系統(tǒng)受到了越來越多的關(guān)注。通過多個(gè)智能體之間的合作,大語言模型的問題解決能力可以得到顯著提高。
我們的工作考慮了多智能體系統(tǒng)中的一個(gè)基本問題:
達(dá)成一致(consensus seeking)
。即當(dāng)使用多個(gè)大語言模型來解決同一個(gè)任務(wù)時(shí),它們最初可能有不同的解決方案,但通過持續(xù)的談判,最終可以達(dá)到一致。達(dá)成一致的問題廣泛存在于動(dòng)物群體和人類社會(huì)等集體決策系統(tǒng)中。它也是多機(jī)器人系統(tǒng)和聯(lián)邦學(xué)習(xí)領(lǐng)域的核心研究問題。
到目前為止,由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng)達(dá)成一致的任務(wù)仍然
存在許多問題尚待研究
。例如,如果我們使用多個(gè)大語言模型來協(xié)助我們進(jìn)行談判或解決問題,我們需要知道它們之間最終是否可以達(dá)成一致。如果可以,需要多長時(shí)間,哪些因素會(huì)影響最終一致的結(jié)果?如果不能,導(dǎo)致這種失敗的因素是什么?這些問題的答案對(duì)于我們正確利用大語言模型起到了關(guān)鍵作用。
在本工作中,我們考慮了一個(gè)由大語言模型驅(qū)動(dòng)的多智能體系統(tǒng),其中每個(gè)智能體的初始狀態(tài)都以一個(gè)數(shù)值表示。它們的目標(biāo)是不斷調(diào)整自己的狀態(tài),以實(shí)現(xiàn)相同的最終狀態(tài)。在整個(gè)過程中,每個(gè)智能體都以得到其他智能體的狀態(tài),并根據(jù)這些信息,制定策略來調(diào)整自己的狀態(tài)。詳見下圖1:
圖1 兩個(gè)智能體的協(xié)商過程
基于上述的實(shí)驗(yàn)過程,我們得到了一系列有趣的發(fā)現(xiàn)。
▌
智能體選擇的策略
在沒有明確的策略指導(dǎo)下,智能體會(huì)選擇何種策略來達(dá)成一致呢?我們發(fā)現(xiàn),智能體最常用的策略是
平均策略
,即將所有智能體狀態(tài)的平均值作為自己下一個(gè)時(shí)刻的狀態(tài),如圖2所示。
圖2 平均值策略
我們也發(fā)現(xiàn)智能體偶爾會(huì)選擇其它策略。例如“
順從策略
”,即智能體選擇將其他智能體的狀態(tài)作為自身的目標(biāo)狀態(tài)。然而,采用這種策略可能導(dǎo)致系統(tǒng)產(chǎn)生震蕩現(xiàn)象,如圖3所示。
圖3 順從的策略
還有“
固執(zhí)策略
”,即智能體傾向于期望其他智能體向自己靠攏,而保持自身的原始狀態(tài)不變,如圖4所示。
圖4 固執(zhí)的策略
此外,有時(shí)智能體還可能出現(xiàn)
幻覺
,從而作出錯(cuò)誤的選擇,如圖5所示。
圖5 幻覺
我們進(jìn)行了蒙特卡羅仿真來研究最終收斂值的特性,發(fā)現(xiàn): 1)隨著智能體數(shù)量的增加,聚集值的方差減小,均值逐漸接近初始均值。這在一定程度上說明了,增加智能體個(gè)數(shù)可以緩解隨機(jī)性或者幻覺。
2)溫度越低,系統(tǒng)穩(wěn)定性越好;溫度越高,系統(tǒng)的離散程度越大。
圖6 最終一致值的統(tǒng)計(jì)結(jié)果
▌性格特征
在前面實(shí)驗(yàn)中,我們并沒有明確定義智能體的性格特征。我們又進(jìn)一步明確設(shè)置了智能體具有固執(zhí)或者順從的性格。 如下圖7-a所示,若智能體1性格是固執(zhí)的,智能體2是順從的,那么協(xié)商過程中智能體2會(huì)向智能體1靠近。
圖7-a?智能體1是固執(zhí)的;智能體2是順從的
如下圖7-b所示,若智能體1和2的性格都是順從的,那么兩個(gè)智能體的狀態(tài)會(huì)呈現(xiàn)出振蕩而無法收斂的現(xiàn)象。
圖7-b 智能體1和2都是順從的
如下圖7-c所示,若智能體1和2的性格都是固執(zhí)的,那么兩個(gè)智能體可能各自保持自己的狀態(tài),無法實(shí)現(xiàn)收斂。
圖7-c 智能體1和2都是固執(zhí)的
▌通信拓?fù)?/p>
除了性格因素,我們還探索了多智能體的通信拓?fù)浣Y(jié)構(gòu)對(duì)聚集行為的影響。 首先我們考慮無向圖的拓?fù)溥B接,此時(shí)信息流是雙向的。
如圖8所示,若三個(gè)智能體是全連接的,那么他們會(huì)以一個(gè)很快的速度實(shí)現(xiàn)收斂。
圖8?全連接
如圖9所示,若不是全連接的,他們?nèi)耘f可以收斂,但是收斂速度會(huì)變慢。
圖9 非全連接
如果拓?fù)溥B接是有向的,即此時(shí)信息流是單向的。 下圖10中信息從智能體1流向智能體2和3。最終,智能體2和3將趨向于智能體1的狀態(tài)。
圖10 領(lǐng)導(dǎo)者-跟隨者結(jié)構(gòu)
下圖11中的拓?fù)浣Y(jié)構(gòu)是一種鏈?zhǔn)竭B接,智能體1的信息流向3,智能體3的信息流向2,最終收斂值也由智能體1決定。
圖11 鏈?zhǔn)浇Y(jié)構(gòu)
▌
應(yīng)用于多機(jī)器人聚集
最后,我們將任務(wù)擴(kuò)展到了二維空間中多機(jī)器人聚集的任務(wù)。此時(shí)每個(gè)智能體對(duì)應(yīng)于一個(gè)移動(dòng)機(jī)器人,這些機(jī)器人需要從不同的起始位置出發(fā),需要聚集到同一位置。
動(dòng)圖1 機(jī)器人的軌跡
機(jī)器人的軌跡如動(dòng)圖1所示??梢钥吹?,從不同初始位置出發(fā)的機(jī)器人最終成功聚集到了同一個(gè)位置。 系統(tǒng)的架構(gòu)如下圖12所示,每個(gè)機(jī)器人都配備有一個(gè)由大語言模型驅(qū)動(dòng)的規(guī)劃器和一個(gè)控制器。規(guī)劃器根據(jù)所有機(jī)器人的當(dāng)前狀態(tài)輸出每個(gè)機(jī)器人的目標(biāo)位置。隨后,控制器根據(jù)規(guī)劃器生成的目標(biāo)位置發(fā)出相應(yīng)的控制命令。
圖12 系統(tǒng)框架
每個(gè)機(jī)器人的規(guī)劃位置和實(shí)際位置如下圖13所示??梢钥吹剑诖笳Z言模型的規(guī)劃器輸出了不連續(xù)的目標(biāo)位置,而控制器能夠追蹤這些目標(biāo)位置。
圖13 規(guī)劃位置與實(shí)際位置
值得指出的是,
多機(jī)器人聚集的任務(wù)也能使用傳統(tǒng)協(xié)同控制方法實(shí)現(xiàn),但是本文的工作揭示了類似這樣的協(xié)同任務(wù)可以通過簡單的自然語言的指令直接利用大語言模型實(shí)現(xiàn),省去了復(fù)雜的設(shè)計(jì)過程,提升了系統(tǒng)的自主程度,展現(xiàn)了良好的應(yīng)用潛力。
感謝您的閱讀
更多詳情請(qǐng)參考論文鏈接
https://arxiv.org/pdf/2310.20151.pdf
?作者??| ?陳華奔 季文康 徐璐峰 趙世鈺
申請(qǐng)文章授權(quán)請(qǐng)聯(lián)系后臺(tái)運(yùn)營人員