散文網(wǎng) » 生活 »日常 » VOYAGER: An Open-Ended Embodied Agent with Large Language Models

VOYAGER: An Open-Ended Embodied Agent with Large Language Models

2023-06-10 18:07 作者:小貓咪毛毛 0人讀過(guò) | 我要投稿

一句話總結(jié) VOYAGER

First LLM-powered embodied lifelong learning agent to drive exploration, master a wide range of skills, and make new discoveries continually without human intervention in Minecraft.

概念介紹：embodied AI

具身人工智能（Embodied AI）是指具有身體的人工智能，能夠與真實(shí)世界進(jìn)行感知和交互，并從中學(xué)習(xí)和進(jìn)化的智能體。具身人工智能是人工智能和機(jī)器人的交叉領(lǐng)域，也是通向通用人工智能（Artificial General Intelligence）的一條研究道路。具身人工智能的典型應(yīng)用包括玩 Minecraft、機(jī)器人導(dǎo)航和操控等。具身人工智能與傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的人工智能有很大的不同，它更強(qiáng)調(diào)智能體與環(huán)境的動(dòng)態(tài)互動(dòng)，而不是被動(dòng)地接收數(shù)據(jù)輸入。具身人工智能是一個(gè)前沿而有挑戰(zhàn)性的領(lǐng)域，有很多未解決的問(wèn)題和潛在的機(jī)遇。

概念介紹：什么是一個(gè)有效的 lifelong learning?

可以根據(jù)周圍的環(huán)境和目前可以使用的技能，提出適合當(dāng)前情況的小目標(biāo)

propose suitable tasks based on its current skill level and world state,

e.g., learn to harvest sand and cactus before iron if it finds itself in a desert rather than a forest;
根據(jù)環(huán)境反饋精進(jìn)技能，并將技能存放到記憶中

refine skills based on environmental feedback and commit mastered skills to memory for future reuse in similar situations

e.g. fighting zombies is similar to fighting spiders;
可以自主在環(huán)境中持續(xù)探索，不斷給自己找新task做

continually explore the world and seek out new tasks in a self-driven manner.

VOYAGER 結(jié)構(gòu)

生成階段目標(biāo) (左圖)：自動(dòng)化課程，目標(biāo)是最大化探索

An automatic curriculum that maximizes exploration

Minecraft 的目標(biāo)是解鎖技能樹：砍木頭 —> 做桌子 —> 打僵尸 —> 采集鉆石
課程的最高目標(biāo)是：“discovering as many diverse things as possible”
自動(dòng)化課程可以看作是：基于上下文的新穎性搜索（novelty search）

維護(hù)實(shí)現(xiàn)不同skills的代碼庫(kù) (右圖)：不斷增長(zhǎng)的技能庫(kù)，用于存儲(chǔ)和檢索代碼

An ever-growing skill library of executable code for storing and retrieving complex behaviors

技能庫(kù)是：完成一些動(dòng)作的program。用了gpt3.5為每個(gè)程序生成一段description，這些程序的搜索index這些description的embedding。
下次遇到類似的情況，可以根據(jù)description的embedding，調(diào)用技能庫(kù)里的函數(shù)；并且如果遇到復(fù)雜情況，也可以將復(fù)雜情況分解成一系列的簡(jiǎn)單函數(shù)，這樣可以避免災(zāi)難遺忘的問(wèn)題。

生成可執(zhí)行的代碼 (中圖)：迭代提示機(jī)制用來(lái)生成可執(zhí)行的代碼

從Minecraft中獲取觀測(cè)量：庫(kù)存列表、附近的東西、代碼解釋器的報(bào)錯(cuò)，等
把這些反饋信息寫進(jìn)GPT-4的prompt里，進(jìn)行一輪代碼改進(jìn)
重復(fù)這個(gè)過(guò)程，直到self-verification模塊確認(rèn)任務(wù)完成，此時(shí)我們將代碼提交到技能庫(kù)中（例如，craftStoneShovel()和combatZombieWithSword()），并查詢自動(dòng)課程以獲取下一個(gè)task

YOYAGE展示了強(qiáng)大的in-context lifelong learning。不斷拓展的技能庫(kù)中包含了可以完成各種動(dòng)作命令的程序，這些程序都具有可復(fù)用性、可解釋性和可泛化到新任務(wù)的能力

效果展示

優(yōu)點(diǎn)總結(jié)：

Voyager通過(guò)黑盒查詢與GPT-4交互，無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào)

VOYAGER interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning.
Voyager開發(fā)的技能具有時(shí)間延展性、可解釋性和可組合性，這使得智能體的能力能夠快速增長(zhǎng)，并緩解了災(zāi)難性遺忘。

The skills developed by VOYAGER are temporally extended, interpretable, and compositional, which compounds the agent’s abilities rapidly and alleviates catastrophic forgetting.

時(shí)間的延展性，指的是lifelong learning。Agent可以隨著時(shí)間持續(xù)穩(wěn)定地獲得、更新、累積和遷移

三個(gè)模塊細(xì)節(jié)

Automatic Curriculum

GPT-4接受到的prompt包括：

prompt提示詞：加入鼓勵(lì)行為多樣化，同時(shí)對(duì)接下來(lái)的指令加以約束的提示詞。比如：我的最終目標(biāo)是盡可能發(fā)現(xiàn)更多的多樣化事物，但下一個(gè)任務(wù)不能太難，因?yàn)槲铱赡軟](méi)有必要的資源和技能樹。
agent目前的狀況：包括庫(kù)存，裝備，附近的東西、動(dòng)物，時(shí)間，血條，饑餓程度和位置
之前的任務(wù)成功了還是失敗了，用來(lái)反映agent最近的探索進(jìn)度，和能力邊界
用GPT-3.5結(jié)合Minecraft-wiki的知識(shí)、目前的狀態(tài)和探索進(jìn)度，給GPT-4提供一些額外的知識(shí)

Skill Library

GPT-4接受到的prompt包括：

prompt提示詞：例如：生成的函數(shù)會(huì)在其它復(fù)雜的函數(shù)中復(fù)用，所以你要生成generic and reusable的函數(shù)
控制MineCraft的api 和相關(guān)的skill library里的技能
生成的代碼(下一部分說(shuō)明)
agent目前的狀況，包括：庫(kù)存，裝備，附近的東西、動(dòng)物，時(shí)間，血條，饑餓程度和位置
CoT prompting: 在生成代碼前，先做reasoning

將完成的代碼加入到lib：key 是gpt-3.5生成的對(duì)代碼的描述，vlaue是代碼

從lib中篩選出要用的技能：gpt-3.5根據(jù)task提供建議，建議作為q，去lib里搜索最相關(guān)的5個(gè)技能

Iterative Prompting Mechanism

3種feedback:

1. Environment feedback

左圖：用bot.chat()獲取environment feedback

2. Execution errors

右圖：報(bào)錯(cuò)

3. Self-verification for checking task success

GPT-4 做自查：

給目前的state和task，gpt-4判斷是否完成了目標(biāo)
如果完成，就加入到lib里
如果沒(méi)有完成，要給一個(gè)如何完成目標(biāo)的建議
如果agent 生成代碼生成了四次，還是不能通過(guò)self-verification，就換一個(gè)任務(wù)

評(píng)估

從四個(gè)方面評(píng)估：

探索度：figure 1，用160 prompting iterations，發(fā)現(xiàn)了63種東西
技能樹：用更少的回合制造&升級(jí)工具

地圖區(qū)域大小：Voyager探索區(qū)域很大；區(qū)域太小的話，會(huì)阻礙了學(xué)習(xí)新知識(shí)

zero-shot 將能力泛化到一個(gè)new world：

實(shí)驗(yàn)方法是：刪除agent的庫(kù)存，把他放在一個(gè)新開的世界，然后給他從未見過(guò)的task
Voyager 和 AutoGPT都是利用gpt4將任務(wù)分解為小的subgoal
AutoGPT在50回合內(nèi)無(wú)法完成任務(wù)，但有意思的是：把Voyager的lib給AutoGPT用，AutoGPT的效果明顯變好 ——> lib可以是一個(gè)plag-and-play的工具

消融實(shí)驗(yàn)

6個(gè)消融實(shí)驗(yàn)：

automatic curriculum (左圖)

對(duì)持續(xù)學(xué)習(xí)很重要
將自動(dòng)課程模塊換成隨機(jī)模塊，發(fā)現(xiàn)的物品會(huì)降低 93%。因?yàn)槿蝿?wù)很可能會(huì)太難
將自動(dòng)課程模塊換成人工設(shè)計(jì)，后期表現(xiàn)也很不好

skill libraryenvironment feedback：智能體在后期傾向于絕望平原
execution errors (右圖)
self-verification：沒(méi)有這個(gè)部分，發(fā)現(xiàn)的新物品會(huì)減少73%，因?yàn)檫@個(gè)部分用來(lái)指導(dǎo)是否要在嘗試之前失敗的task
GPT-4 for code generation：用gpt-4 生成代碼可以比 GPT-3.5 可以獲得5.7倍的新物體

多模態(tài)：paper寫的時(shí)候gpt-4不能接受圖像，但論文嘗試了用human-feedback做3d場(chǎng)景

局限和未來(lái)工作

開銷高：gpt-4比GPT-3.5貴15倍，但是不得不用gpt-4編寫代碼，因?yàn)楹糜?/p>
有的時(shí)候出錯(cuò)：比如沒(méi)能生成正確的skill，self-verification有的時(shí)候不好使
幻覺(jué)：有的時(shí)候讓agent生成不存在的東西；生成代碼的時(shí)候也會(huì)出錯(cuò)，比如把鵝卵石當(dāng)作燃料；調(diào)用一些不存在的minecraft API

標(biāo)簽：