散文網(wǎng) » 科技 »學(xué)習(xí) » AGI新突破！52篇論文盡覽大模型Agent最新研究進(jìn)展！

AGI新突破！52篇論文盡覽大模型Agent最新研究進(jìn)展！

2023-10-17 18:02 作者:深度之眼官方賬號(hào) 0人讀過 | 我要投稿

人們對(duì)于通用人工智能（AGI）的追求可以追溯到1950 年代中期，當(dāng)時(shí)的AI研究者對(duì)機(jī)器擁有人類思維能力抱有很高的期望，但是隨著研究的深入，他們發(fā)現(xiàn)想實(shí)現(xiàn)這個(gè)目標(biāo)比最初設(shè)想的困難許多。到如今，AGI仍然有很長的路要走。

不過值得高興的是，在今年的各大頂會(huì)中，有關(guān)自主智能體的研究有了許多突破性進(jìn)展，以往困擾AI Agent研究者的社會(huì)交互性和智能性問題都隨著大語言模型（LLM）的發(fā)展有了新的解決方向。

為方便大家了解AI Agent領(lǐng)域的最新研究進(jìn)展，學(xué)姐這回整理了52篇2023最新大模型智能體相關(guān)的論文，包括LLM-based Agent 的構(gòu)建、應(yīng)用、評(píng)估等方面。

掃碼添加小享，回復(fù)“智能體”

免費(fèi)領(lǐng)取全部論文+源碼合集

Agent自被引入人工智能和計(jì)算機(jī)領(lǐng)域，就迅速成為了研究熱點(diǎn)，在目前的研究中，仍然存在許多待解決的問題（這些都是創(chuàng)新點(diǎn)！），仔細(xì)研讀學(xué)姐分享的論文，下一篇頂會(huì)在招手了。

綜述（2篇）

1.A Survey on Large Language Model-based Autonomous Agents

大型語言模型基礎(chǔ)上的自主智能體綜述

簡述：論文首先討論了LLM驅(qū)動(dòng)自主智能體的構(gòu)建，其中，作者提出了一個(gè)統(tǒng)一的框架，概括了大多數(shù)已有的工作。然后，全面概述了LLM驅(qū)動(dòng)自主智能體在社會(huì)科學(xué)、自然科學(xué)和工程學(xué)領(lǐng)域的廣泛應(yīng)用。最后，深入探討了LLM驅(qū)動(dòng)自主智能體常用的評(píng)估策略。在前人研究的基礎(chǔ)上，作者同時(shí)提出了該領(lǐng)域的幾個(gè)挑戰(zhàn)和未來方向。

2.The Rise and Potential of Large Language ModelBased Agents: A Survey

大型語言模型驅(qū)動(dòng)智能體的興起與潛力

簡述：論文首先闡述了智能體從哲學(xué)起源到在人工智能領(lǐng)域的發(fā)展，以及大型語言模型作為智能體基礎(chǔ)的合理性。在此基礎(chǔ)上，提出了一個(gè)通用的包含大腦、感知和行動(dòng)模塊的智能體框架，可應(yīng)用于不同任務(wù)。接著探討了智能體在單智能體、多智能體和人機(jī)協(xié)作等方面的廣泛應(yīng)用。此外，還討論了智能體社會(huì)中的行為、個(gè)性、社會(huì)現(xiàn)象等，以及對(duì)人類社會(huì)的啟示。最后,討論了該領(lǐng)域的關(guān)鍵問題和未來方向。

構(gòu)建（22篇）

1.CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

使用交流型智能體探索大規(guī)模語言模型社會(huì)的“心智”

簡述：為了解決實(shí)現(xiàn)自主合作的挑戰(zhàn)，作者提出了一個(gè)稱為角色扮演的新穎交流型智能體框架。該方法涉及使用開端提示來引導(dǎo)聊天代理完成任務(wù)，同時(shí)保持與人類意圖的一致性。文中展示了如何使用角色扮演生成對(duì)話數(shù)據(jù)，以研究聊天代理的行為和能力，為調(diào)查對(duì)話語言模型提供了寶貴的資源。

2.Agent Instructs Large Language Models to be General Zero-Shot Reasoners

指示大型語言模型成為通用零樣本推理者

簡述：本文提出通過讓一個(gè)專門設(shè)計(jì)的指導(dǎo)代理與大型語言模型進(jìn)行互動(dòng)，來指導(dǎo)并增強(qiáng)這些模型在零樣本條件下的通用語言理解和推理能力，在多個(gè)數(shù)據(jù)集上的評(píng)估表明，這種方法可以推廣到大多數(shù)任務(wù)，并取得了SOTA的零樣本性能。

3.Reflexion: language agents with verbal reinforcement learning

反思：帶有言語強(qiáng)化學(xué)習(xí)的語言代理

簡述：這篇論文提出了一種名為 Reflexion 的新框架，通過語言反饋而不是權(quán)重更新來增強(qiáng)語言代理，代理會(huì)對(duì)任務(wù)反饋進(jìn)行口頭反思并記錄在記憶中，以誘導(dǎo)后續(xù)試驗(yàn)中的更好決策。該框架在各種任務(wù)上取得明顯優(yōu)于基準(zhǔn)的效果，為語言代理提供了一種快速高效的試錯(cuò)學(xué)習(xí)機(jī)制。

4.AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
5.Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph
6.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks.
7.Tree of Thoughts: Deliberate Problem Solving with Large Language Models.
8.AVIS: Autonomous Visual Information Seeking with Large Language Models
9.Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
10.Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models
11.Learning Distributed Representations of Sentences from Unlabelled Data
12.A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
13.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
14.Large Language Models as Tool Makers
15.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
16.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
17.InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
18.PandaGPT: One Model To Instruction-Follow Them All
19.Visual Instruction Tuning
20.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
21.LLM+P: Empowering Large Language Models with Optimal Planning Proficiency
22.Agents: An Open-source Framework for Autonomous Language Agents

掃碼添加小享，回復(fù)“智能體”

免費(fèi)領(lǐng)取全部論文+源碼合集

應(yīng)用（26篇）

1.WebArena: A Realistic Web Environment for Building Autonomous Agents

WebArena：用于構(gòu)建自主代理的真實(shí)網(wǎng)絡(luò)環(huán)境

簡述：本文構(gòu)建了一個(gè)高度真實(shí)可重現(xiàn)的網(wǎng)站環(huán)境，包含電商、社交、協(xié)作開發(fā)和內(nèi)容管理等四個(gè)常見領(lǐng)域，并設(shè)計(jì)了一系列模擬人類日常互聯(lián)網(wǎng)使用的基準(zhǔn)任務(wù)，用來評(píng)估自主代理完成復(fù)雜語言命令的能力。實(shí)驗(yàn)集成了推理后行動(dòng)等最近技術(shù)的代理模型，結(jié)果顯示當(dāng)前最先進(jìn)的基于GPT-4的語言模型，在這個(gè)真實(shí)場景中的端到端任務(wù)成功率僅有10.59%，完成復(fù)雜任務(wù)仍面臨巨大挑戰(zhàn)。

2.3D-LLM: Injecting the 3D World into Large Language Models

將3D世界注入大型語言模型

簡述：本文提出了一種將三維世界知識(shí)注入大型語言模型的方法，構(gòu)建了一種全新的三維語言模型(3D-LLM)。這種模型可以接受三維點(diǎn)云及其特征作為輸入，并可以執(zhí)行與三維相關(guān)的各種任務(wù)，如三維字幕、三維問答、三維定位等。研究設(shè)計(jì)了三種提示機(jī)制收集了豐富的三維-語言訓(xùn)練數(shù)據(jù)，并利用多視圖渲染的三維特征提取器和二維視覺語言模型作為骨干網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。

3.InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent

探索ChatGPT作為協(xié)作代理的潛力

簡述：本研究論文深入探討了OpenAI的ChatGPT與具身代理系統(tǒng)的集成，評(píng)估了其對(duì)交互式?jīng)Q策基準(zhǔn)的影響。我們參考了人們根據(jù)自己的獨(dú)特優(yōu)勢承擔(dān)不同角色的概念，并提出了InterAct方法。在這種方法中，作者通過各種提示來喂給ChatGPT，分配它諸如檢查員和分類員等多個(gè)角色，然后將它們與原始語言模型集成。研究顯示，該方法在AlfWorld中取得了98%的顯著成功率。

4.The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models
5.Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling
6.SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models
7.ChatLLM Network: More brains, More intelligence
8.ProAgent: Building Proactive Cooperative AI with Large Language Models
9.MetaGPT: Meta Programming for Multi-Agent Collaborative Framework
10.ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
11.A Virtual Conversational Agent for Teens with Autism Spectrum Disorder: Experimental Results and Design Lessons
12.Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
13.Multi-Turn Dialogue Agent as Sales' Assistant in Telemarketing
14.Agents: An Open-source Framework for Autonomous Language Agents
15.Improving Factuality and Reasoning in Language Models through Multiagent Debate
16.Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
17.Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents
18.RoCo: Dialectic Multi-Robot Collaboration with Large Language Models
19.Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
20.ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks
21.WebGPT: Browser-assisted question-answering with human feedback
22.Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents
23.Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents
24.ScienceWorld: Is your Agent Smarter than a 5th Grader?
25.CGMI: Configurable General Multi-Agent Interaction Framework
26.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

評(píng)估（2篇）

1.Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

評(píng)估大型語言模型中的認(rèn)知地圖

簡述：本文通過設(shè)計(jì)認(rèn)知科學(xué)啟發(fā)的CogEval評(píng)估方案，系統(tǒng)性評(píng)估了8個(gè)大型語言模型的認(rèn)知地圖和規(guī)劃能力，結(jié)果發(fā)現(xiàn)這些模型在規(guī)劃任務(wù)中存在明顯的失敗模式，表現(xiàn)出它們沒有開箱即用的規(guī)劃能力，可能因?yàn)椴荒芾斫庖?guī)劃問題背后的關(guān)系結(jié)構(gòu)。

2.On the Planning Abilities of Large Language Models

關(guān)于大型語言模型的規(guī)劃能力的批判性研究

簡述：本文通過設(shè)計(jì)基于規(guī)劃競賽的基準(zhǔn)測試集，系統(tǒng)評(píng)估了大型語言模型的自治規(guī)劃、啟發(fā)式規(guī)劃和人機(jī)互動(dòng)規(guī)劃三種能力，結(jié)果顯示這些模型的自治規(guī)劃能力非常有限，僅達(dá)到3%的成功率，啟發(fā)式和人機(jī)互動(dòng)模式略有提高，因此大型語言模型的規(guī)劃能力仍需進(jìn)一步提高。

掃碼添加小享，回復(fù)“智能體”

免費(fèi)領(lǐng)取全部論文+源碼合集

標(biāo)簽：