【發(fā)布】AgentBench:基礎(chǔ)模型 Agent 評(píng)測(cè),我們暫時(shí)有點(diǎn)差


將 LLMs 視作 agent,可以產(chǎn)生許多創(chuàng)新性的工作。近期受到廣泛關(guān)注的 AutoGPT、BabyAGI 和 AgentGPT 便是這方面的嘗試。
然而,哪些模型更適合作為 agent,其表現(xiàn)又如何?據(jù)我們觀察,至今還沒(méi)有一個(gè)合適的評(píng)測(cè)能夠去衡量。
因此,我們提出了?AgentBench。這是一個(gè)多維演進(jìn)基準(zhǔn)測(cè)試,包括 8 個(gè)不同環(huán)境,可以用來(lái)評(píng)估 LLMs 在多回合開(kāi)放式生成環(huán)境中的推理和決策能力。
經(jīng)過(guò)對(duì) 25 個(gè)語(yǔ)言模型的測(cè)試,我們發(fā)現(xiàn):頂級(jí)商業(yè)語(yǔ)言模型在復(fù)雜環(huán)境中表現(xiàn)出色,與開(kāi)源模型存在顯著差距。
而另一方面,v0.2 版本的?ChatGLM2?在幾個(gè)閉源模型的對(duì)比中,評(píng)測(cè)分?jǐn)?shù)并不是很好,這需要我們?cè)谖磥?lái)的工作中著重改進(jìn)。
數(shù)據(jù)集、環(huán)境和集成評(píng)估包已在這里發(fā)布:https://github.com/THUDM/AgentBench
# AgentBench
AgentBench 包括 8 個(gè)環(huán)境,其中 5 個(gè)是首創(chuàng),另外 3 個(gè)是根據(jù)已發(fā)布的數(shù)據(jù)集進(jìn)行重新編譯得到。

具體如下:
- 操作系統(tǒng)(OS):考察?LLM 在 bash 環(huán)境進(jìn)行文件操作、用戶管理等能力。
- 數(shù)據(jù)庫(kù)(DB):考察?LLM 利用 SQL 對(duì)給定數(shù)據(jù)庫(kù)進(jìn)行操作的能力。
- 知識(shí)圖譜(KG):考察 LLM 利用工具從知識(shí)圖譜中獲取復(fù)雜知識(shí)的能力。
- 卡牌對(duì)戰(zhàn)(DCG):考察?LLM 作為玩家,根據(jù)規(guī)則和狀態(tài)進(jìn)行卡牌對(duì)戰(zhàn)的策略決策能力。
- 情景猜謎(LTP):這個(gè)游戲需要 LLM 針對(duì)謎題進(jìn)行提問(wèn),從而猜出答案,能夠考察 LLM 的橫向思維能力。
- 家居(HH):在模擬的家庭環(huán)境下,LLM 需要完成一些日常任務(wù),主要考察 LLM 將復(fù)雜的高級(jí)目標(biāo)拆解為一系列簡(jiǎn)單行動(dòng)的能力。
-?網(wǎng)絡(luò)購(gòu)物(WS):在模擬的在線購(gòu)物環(huán)境中,LLM 需要按照需求完成購(gòu)物,主要考察 LLM 的自主推理和決策能力。
- 網(wǎng)頁(yè)瀏覽(WB):在模擬網(wǎng)頁(yè)環(huán)境中,LLM需要根據(jù)指令完成跨網(wǎng)站的復(fù)雜任務(wù),考察 LLM 作為 Web agent的能力。
# 評(píng)測(cè)
我們初步選擇了25個(gè)閉源/開(kāi)源的模型,通過(guò)API或Docker的方式進(jìn)行測(cè)試。整體分?jǐn)?shù)對(duì)比如下:

具體分?jǐn)?shù)如下:

為了更加易讀,我們選擇幾個(gè)模型制作了雷達(dá)圖:

# 結(jié)論及分析
在我們的研究中,我們可以得出兩個(gè)主要結(jié)論:
結(jié)論一:頂級(jí) LLM 已經(jīng)具備了處理真實(shí)世界環(huán)境交互的強(qiáng)大能力。
舉例來(lái)說(shuō),GPT-4 在 AgentBench 的 8 個(gè)數(shù)據(jù)集中有 7 個(gè)表現(xiàn)最佳;在「家居(HH)」上,也實(shí)現(xiàn)了 78% 的成功率,這表明它在這種情況下具有實(shí)際可用性。而其他基于 API 的 LLM,雖然表現(xiàn)相對(duì)較差,但或多或少能夠解決一些問(wèn)題,這表明這些模型有具備這種能力的潛力。
結(jié)論二:大多數(shù)開(kāi)源 LLM 在 AgentBench 中的表現(xiàn)遠(yuǎn)不如基于 API 的 LLM(平均分為 0.42 對(duì)比 2.24)。
即使是能力最強(qiáng)的開(kāi)源模型 openchat-13b-v3.2 也與 gpt-3.5-turbo 存在明顯的性能差距。這個(gè)結(jié)果與網(wǎng)上存在的一些開(kāi)源 LLM 許多聲稱可以與 gpt-3.5-turbo 和 gpt-4 相媲美,有很大的不符。對(duì)于開(kāi)源的 LLM,它們?cè)谥T如知識(shí)圖譜(KG)、卡牌對(duì)戰(zhàn)(DCG)和家居(HH)等具有挑戰(zhàn)性的任務(wù)中通常無(wú)法解決任何問(wèn)題。
通過(guò)深入分析評(píng)測(cè)結(jié)果,我們認(rèn)為 LLM-as-agent 需要應(yīng)對(duì)以下幾個(gè)問(wèn)題:
動(dòng)作有效性。在我們的評(píng)估過(guò)程中,我們發(fā)現(xiàn)模型并不總是在遵循指令。換句話說(shuō),模型的預(yù)期輸出并不總是處于環(huán)境可以接受的輸入空間中。幾種常見(jiàn)的錯(cuò)誤包括:1)模型沒(méi)有理解指令,所以也就沒(méi)有輸出動(dòng)作;2)模型輸出了動(dòng)作,但卻是錯(cuò)誤的或不完整的。所以如何確保動(dòng)作有效,是一個(gè)需要改進(jìn)的方向。
長(zhǎng)上下文。我們注意到一些開(kāi)源模型的上下文長(zhǎng)度只有 2k tokens,這會(huì)極大地影響它們?cè)诮换ト蝿?wù)中的表現(xiàn),有些任務(wù)需要較長(zhǎng)的指令和反饋,這有可能會(huì)超過(guò)上下文長(zhǎng)度,導(dǎo)致模型忽略了可能的有用信息。因此,擴(kuò)展上下文長(zhǎng)度可能會(huì)提高多輪對(duì)話的性能。
多輪一致性。有些任務(wù)(例如家居)需要很多輪對(duì)話,但每輪對(duì)話都比較簡(jiǎn)短。這導(dǎo)致一些模型在多輪對(duì)話中會(huì)丟失掉自己的角色。最常見(jiàn)的錯(cuò)誤就是輸出道歉并表示無(wú)法回答。所以,如何在多輪對(duì)話中保持一致性,是一個(gè)具有挑戰(zhàn)性的工作。
代碼訓(xùn)練的平衡。相比?ChatGLM-6B,codegeex2-6b-chat 是用更多的代碼數(shù)據(jù)訓(xùn)練出來(lái)的,我們通過(guò)對(duì)比發(fā)現(xiàn),前者在 OS、DB、KG、WS 等方面明顯優(yōu)于后者,然而在需要邏輯推理的 情景猜謎(LTP)上性能卻下降不少。而另一方面,進(jìn)行了代碼訓(xùn)練的 wizardcoder 的表現(xiàn)卻并不是很好。我們的推測(cè)是,代碼訓(xùn)練的單輪格式減弱了其多輪能力。因此,用代碼數(shù)據(jù)訓(xùn)練,可以提高部分能力,但同時(shí)也會(huì)導(dǎo)致其他能力的減弱。
# One More Thing
*?在本次測(cè)評(píng)中,我們注意到V0.2 版本的 ChatGLM2 在 8 個(gè)閉源模型中的表現(xiàn)較差,這需要我們?cè)谖磥?lái)的工作中著重改進(jìn)。
*?歡迎國(guó)內(nèi)外做大模型的企業(yè)和高校使用 AgentBench 進(jìn)行測(cè)評(píng),共同推進(jìn)?LLM-as-agent?的發(fā)展。
*?盡管開(kāi)源生態(tài)在近期勢(shì)頭較盛,然而開(kāi)源模型在?LLM-as-agent 的表現(xiàn)依然有待提升。這可能需要開(kāi)源社區(qū)著重發(fā)力。
評(píng)測(cè),讓我們看到差距,并努力改進(jìn);在互卷的同時(shí),也不斷自卷。
【發(fā)布】AgentBench:基礎(chǔ)模型 Agent 評(píng)測(cè),我們暫時(shí)有點(diǎn)差的評(píng)論 (共 條)
