清華團(tuán)隊(duì)領(lǐng)銜打造,首個(gè)AI agent大模型基準(zhǔn)測(cè)試網(wǎng)站問(wèn)世AgentBench.com.cn

AI 智能體,或自主智能代理,不僅是諸如賈維斯等科幻電影中的人類(lèi)超級(jí)助手,也一直是現(xiàn)實(shí)世界中 AI 領(lǐng)域的研究熱點(diǎn)。尤其是以 GPT-4 為代表的 AI 大模型的出現(xiàn),將 AI 智能體的概念推向了科技的最前沿。

在此前爆火的斯坦?!疤摂M小鎮(zhèn)”中,25 個(gè) AI 智能體在虛擬小鎮(zhèn)自由生長(zhǎng),舉辦了情人節(jié)派對(duì);英偉達(dá)等提出的具身代理模型 Voyager,也在《我的世界》中學(xué)會(huì)各種生存技能,闖出了自己的一片天;此外,能夠自主完成任務(wù)的 AutoGPT、BabyAGI 和 AgentGPT,ModaGPT 等,也同樣引發(fā)了公眾的廣泛興趣和熱烈討論。
甚至,前特斯拉 AI 總監(jiān)、回歸 OpenAI 的技術(shù)大牛 Andrej Karpathy 在一次開(kāi)發(fā)者活動(dòng)上透露,每當(dāng)有新的 AI 智能體論文出現(xiàn)時(shí),OpenAI 內(nèi)部就會(huì)非常感興趣,并認(rèn)真地進(jìn)行討論。
盡管當(dāng)前 AI 智能體研究異?;馃?,但目前 AI 行業(yè)缺乏一個(gè)系統(tǒng)化和標(biāo)準(zhǔn)化的基準(zhǔn)來(lái)評(píng)估 LLMs 作為代理的智能水平。
為此,來(lái)自清華大學(xué)、俄亥俄州立大學(xué)、加州大學(xué)伯克利分校的研究團(tuán)隊(duì)便提出了首個(gè)系統(tǒng)性的基準(zhǔn)測(cè)試——AgentBench(agentbench.com.cn),用來(lái)評(píng)估 LLMs 作為智能體在各種真實(shí)世界挑戰(zhàn)和 8 個(gè)不同環(huán)境中的表現(xiàn)(如推理和決策能力)。

研究結(jié)果顯示,頂級(jí)商業(yè)語(yǔ)言模型(如 GPT-4)在復(fù)雜環(huán)境中表現(xiàn)出色,與開(kāi)源模型之間存在顯著優(yōu)勢(shì)。為此,研究團(tuán)隊(duì)建議,有必要進(jìn)一步努力提高開(kāi)源 LLMs 的學(xué)習(xí)能力。
相關(guān)研究論文以“AgentBench: Evaluating LLMs as Agents”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。另外,相關(guān)數(shù)據(jù)集、環(huán)境和集成評(píng)估包也已發(fā)布在 GitHub 上。

論文鏈接:
https://arxiv.org/abs/2308.03688
項(xiàng)目網(wǎng)站:
https:/agentbench.com.cn/
GitHub 地址:
https://github.com/THUDM/AgentBench
首個(gè)系統(tǒng)性基準(zhǔn)測(cè)試
在以往的研究和實(shí)踐中,基于文本的游戲環(huán)境已被用于語(yǔ)言代理的評(píng)估。然而,它們往往由于封閉的離散行動(dòng)空間而受到限制,且其重點(diǎn)主要集中在模型的常識(shí)基礎(chǔ)能力上。
最近,一些關(guān)于具身代理的嘗試采用了基于游戲、圖形用戶(hù)界面(GUI)和室內(nèi)場(chǎng)景的復(fù)雜多模態(tài)模擬器。然而,盡管這些模擬器很復(fù)雜,不能準(zhǔn)確地反映出 LLMs 在實(shí)際用例中的使用情況,且其多模態(tài)性質(zhì)也給純文本 LLMs 的快速評(píng)估帶來(lái)了障礙。
此外,大多數(shù)代理的基準(zhǔn)測(cè)試都集中在單一環(huán)境中,這限制了它們?cè)诓煌瑧?yīng)用場(chǎng)景中全面概述 LLMs 的能力。
在此次工作中,研究團(tuán)隊(duì)在操作系統(tǒng)(OS)、數(shù)據(jù)庫(kù)(DB)、知識(shí)圖譜(KG)、卡牌對(duì)戰(zhàn)(DCG)、情景猜謎(LTP)、家居(Alfworld)、網(wǎng)絡(luò)購(gòu)物(WebShop)和網(wǎng)頁(yè)瀏覽(Mind2Web)8 種不同的環(huán)境任務(wù)中,使用 AgentBench (agentbench.com.cn)對(duì) 25 個(gè)不同的語(yǔ)言模型(包括基于 API 的模型和開(kāi)源模型)進(jìn)行了全面評(píng)估。
測(cè)試結(jié)果顯示,像 GPT-4 這樣的頂尖模型能夠處理各種各樣的現(xiàn)實(shí)世界任務(wù),而大多數(shù)開(kāi)源 LLMs 在 AgentBench(agentbench.com.cn) 中的表現(xiàn)遠(yuǎn)遠(yuǎn)不及基于 API 的 LLMs;甚至,最有能力的開(kāi)源模型 openchat-13b-v3.2 也與 gpt-3.5-turbo 之間存在顯著的性能差距。

盡管通過(guò)廣泛的對(duì)齊訓(xùn)練,LLMs 不僅可以掌握傳統(tǒng)的 NLP 任務(wù),如問(wèn)題回答、自然語(yǔ)言推理和文本摘要,而且還能展示出理解人類(lèi)意圖和執(zhí)行指令的能力,但它們?cè)?AgentBench 任務(wù)上(如行動(dòng)的有效性、長(zhǎng)上下文、多輪一致性以及代碼訓(xùn)練)的表現(xiàn)卻相對(duì)落后。
研究團(tuán)隊(duì)表示,未來(lái)還需要更多的工作來(lái)進(jìn)行更加嚴(yán)格、系統(tǒng)的評(píng)估,并提供強(qiáng)大的開(kāi)源工具來(lái)促進(jìn)此類(lèi)評(píng)估,如不斷完善 AgentBench,使其更加全面和包容,以及建立一個(gè)更為系統(tǒng)的 LLMs 評(píng)估體系等。
“自主”AI代理競(jìng)賽正在席卷硅谷
AI 大模型的不斷進(jìn)化催生了新型助手的誕生。當(dāng)前,“自主”AI 代理的競(jìng)爭(zhēng)激發(fā)了硅谷的熱潮。不僅吸引了個(gè)人開(kāi)發(fā)者,還有巨頭公司如微軟和谷歌母公司 Alphabet,以及眾多初創(chuàng)企業(yè)也踴躍參與其中。

以初創(chuàng)公司 Inflection AI 為例,該公司的聯(lián)合創(chuàng)始人 Reid Hoffman 和 Mustafa Suleyman 在播客中表示,他們正在開(kāi)發(fā)一款個(gè)人助手,能夠充當(dāng)導(dǎo)師,也能夠應(yīng)對(duì)類(lèi)似于安排航班積分和酒店等任務(wù)這樣的事務(wù)。
MultiOn 公司開(kāi)發(fā)者 Div Garg 表示,其目標(biāo)是將其發(fā)展為個(gè)人的 AI 朋友,類(lèi)似于虛擬助手“賈維斯”。他們希望這個(gè)代理能夠與個(gè)人的服務(wù)進(jìn)行連接。
Generally Intelligent CEO Kanjun Qiu 表示:“對(duì)人類(lèi)來(lái)說(shuō)很容易的事情,對(duì)計(jì)算機(jī)來(lái)說(shuō)仍然非常困難,如為老板安排一組重要客戶(hù)的會(huì)議。這需要非常復(fù)雜的推理能力,涉及到獲取每個(gè)人的偏好,解決沖突,同時(shí)還需要在與客戶(hù)合作時(shí)保持細(xì)致入微。”
Qiu 和其他四位代理開(kāi)發(fā)者預(yù)測(cè),第一批能夠可靠地執(zhí)行多步驟任務(wù)并具備一定自主能力的系統(tǒng)將在一年內(nèi)上市,重點(diǎn)關(guān)注編碼和營(yíng)銷(xiāo)等垂直領(lǐng)域。
微軟 CEO Satya Nadella 曾在接受《金融時(shí)報(bào)》采訪(fǎng)時(shí)表示:“無(wú)論是微軟自家的 Cortana,還是亞馬遜的 Alexa 、谷歌助手、蘋(píng)果的 Siri,都還不夠智能,未能達(dá)到最初的預(yù)期。”
拋開(kāi)存在的擔(dān)憂(yōu)不談,AI 代理已經(jīng)展現(xiàn)出了巨大潛力和市場(chǎng)。雖然我們?cè)谔剿骱蛻?yīng)用過(guò)程中可能會(huì)遇到一些挑戰(zhàn),但正如歷史上許多創(chuàng)新一樣,隨著時(shí)間的推移,我們有望在不斷優(yōu)化和完善中見(jiàn)證這些 AI 代理為人類(lèi)社會(huì)帶來(lái)積極而深遠(yuǎn)的影響。