最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

VOYAGER: An Open-Ended Embodied Agent with Large Language Models

2023-06-10 18:07 作者:小貓咪毛毛  | 我要投稿


一句話總結(jié) VOYAGER

First LLM-powered embodied lifelong learning agent to drive exploration, master a wide range of skills, and make new discoveries continually without human intervention in Minecraft.


概念介紹:embodied AI

具身人工智能(Embodied AI)是指具有身體的人工智能,能夠與真實(shí)世界進(jìn)行感知和交互并從中學(xué)習(xí)和進(jìn)化的智能體。具身人工智能是人工智能和機(jī)器人的交叉領(lǐng)域,也是通向通用人工智能(Artificial General Intelligence)的一條研究道路。具身人工智能的典型應(yīng)用包括玩 Minecraft、機(jī)器人導(dǎo)航和操控等。具身人工智能與傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的人工智能有很大的不同,它更強(qiáng)調(diào)智能體與環(huán)境的動(dòng)態(tài)互動(dòng),而不是被動(dòng)地接收數(shù)據(jù)輸入。具身人工智能是一個(gè)前沿而有挑戰(zhàn)性的領(lǐng)域,有很多未解決的問(wèn)題和潛在的機(jī)遇。


概念介紹:什么是一個(gè)有效的 lifelong learning?

  1. 可以根據(jù)周圍的環(huán)境和目前可以使用的技能,提出適合當(dāng)前情況的小目標(biāo)

    propose suitable tasks based on its current skill level and world state,

    e.g., learn to harvest sand and cactus before iron if it finds itself in a desert rather than a forest;

  2. 根據(jù)環(huán)境反饋精進(jìn)技能,并將技能存放到記憶中

    refine skills based on environmental feedback and commit mastered skills to memory for future reuse in similar situations

    e.g. fighting zombies is similar to fighting spiders;

  3. 可以自主在環(huán)境中持續(xù)探索,不斷給自己找新task做

    continually explore the world and seek out new tasks in a self-driven manner.


VOYAGER 結(jié)構(gòu)

  1. 生成階段目標(biāo) (左圖):自動(dòng)化課程,目標(biāo)是最大化探索

    An automatic curriculum that maximizes exploration

    • Minecraft 的目標(biāo)是解鎖技能樹:砍木頭 —> 做桌子 —> 打僵尸 —> 采集鉆石

    • 課程的最高目標(biāo)是:“discovering as many diverse things as possible”

    • 自動(dòng)化課程可以看作是:基于上下文的新穎性搜索(novelty search)

  2. 維護(hù)實(shí)現(xiàn)不同skills的代碼庫(kù) (右圖):不斷增長(zhǎng)的技能庫(kù),用于存儲(chǔ)和檢索代碼

    An ever-growing skill library of executable code for storing and retrieving complex behaviors

    • 技能庫(kù)是:完成一些動(dòng)作的program。用了gpt3.5為每個(gè)程序生成一段description,這些程序的搜索index這些description的embedding。

    • 下次遇到類似的情況,可以根據(jù)description的embedding,調(diào)用技能庫(kù)里的函數(shù);并且如果遇到復(fù)雜情況,也可以將復(fù)雜情況分解成一系列的簡(jiǎn)單函數(shù),這樣可以避免災(zāi)難遺忘的問(wèn)題。

  3. 生成可執(zhí)行的代碼 (中圖):迭代提示機(jī)制用來(lái)生成可執(zhí)行的代碼

    • 從Minecraft中獲取觀測(cè)量:庫(kù)存列表、附近的東西、代碼解釋器的報(bào)錯(cuò),等

    • 把這些反饋信息寫進(jìn)GPT-4的prompt里,進(jìn)行一輪代碼改進(jìn)

    • 重復(fù)這個(gè)過(guò)程,直到self-verification模塊確認(rèn)任務(wù)完成,此時(shí)我們將代碼提交到技能庫(kù)中(例如,craftStoneShovel()和combatZombieWithSword()),并查詢自動(dòng)課程以獲取下一個(gè)task

YOYAGE展示了強(qiáng)大的in-context lifelong learning。不斷拓展的技能庫(kù)中包含了可以完成各種動(dòng)作命令的程序,這些程序都具有可復(fù)用性、可解釋性可泛化到新任務(wù)的能力


效果展示


優(yōu)點(diǎn)總結(jié)

  1. Voyager通過(guò)黑盒查詢與GPT-4交互,無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào)

    VOYAGER interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning.

  2. Voyager開發(fā)的技能具有時(shí)間延展性、可解釋性和可組合性,這使得智能體的能力能夠快速增長(zhǎng),并緩解了災(zāi)難性遺忘。

    The skills developed by VOYAGER are temporally extended, interpretable, and compositional, which compounds the agent’s abilities rapidly and alleviates catastrophic forgetting.

    • 時(shí)間的延展性,指的是lifelong learning。Agent可以隨著時(shí)間持續(xù)穩(wěn)定地獲得、更新、累積和遷移


三個(gè)模塊細(xì)節(jié)

Automatic Curriculum

GPT-4接受到的prompt包括:

  1. prompt提示詞:加入鼓勵(lì)行為多樣化,同時(shí)對(duì)接下來(lái)的指令加以約束的提示詞。比如:我的最終目標(biāo)是盡可能發(fā)現(xiàn)更多的多樣化事物,但下一個(gè)任務(wù)不能太難,因?yàn)槲铱赡軟](méi)有必要的資源和技能樹。

  2. agent目前的狀況:包括庫(kù)存,裝備,附近的東西、動(dòng)物,時(shí)間,血條,饑餓程度和位置

  3. 之前的任務(wù)成功了還是失敗了,用來(lái)反映agent最近的探索進(jìn)度,和能力邊界

  4. GPT-3.5結(jié)合Minecraft-wiki的知識(shí)、目前的狀態(tài)和探索進(jìn)度,給GPT-4提供一些額外的知識(shí)

Skill Library

GPT-4接受到的prompt包括:

  1. prompt提示詞:例如:生成的函數(shù)會(huì)在其它復(fù)雜的函數(shù)中復(fù)用,所以你要生成generic and reusable的函數(shù)

  2. 控制MineCraft的api 和相關(guān)的skill library里的技能

  3. 生成的代碼(下一部分說(shuō)明)

  4. agent目前的狀況,包括:庫(kù)存,裝備,附近的東西、動(dòng)物,時(shí)間,血條,饑餓程度和位置

  5. CoT prompting: 在生成代碼前,先做reasoning

將完成的代碼加入到lib:key 是gpt-3.5生成的對(duì)代碼的描述,vlaue是代碼

從lib中篩選出要用的技能:gpt-3.5根據(jù)task提供建議,建議作為q,去lib里搜索最相關(guān)的5個(gè)技能

Iterative Prompting Mechanism

3種feedback:

1. Environment feedback

左圖:用bot.chat()獲取environment feedback

2. Execution errors

右圖:報(bào)錯(cuò)

3. Self-verification for checking task success

GPT-4 做自查:

  • 目前的state和task,gpt-4判斷是否完成了目標(biāo)

  • 如果完成,就加入到lib里

  • 如果沒(méi)有完成,要給一個(gè)如何完成目標(biāo)的建議

  • 如果agent 生成代碼生成了四次,還是不能通過(guò)self-verification,就換一個(gè)任務(wù)


評(píng)估

從四個(gè)方面評(píng)估:

  • 探索度:figure 1,用160 prompting iterations,發(fā)現(xiàn)了63種東西

  • 技能樹:用更少的回合制造&升級(jí)工具

  • 地圖區(qū)域大小:Voyager探索區(qū)域很大;區(qū)域太小的話,會(huì)阻礙了學(xué)習(xí)新知識(shí)

  • zero-shot 將能力泛化到一個(gè)new world:

    • 實(shí)驗(yàn)方法是:刪除agent的庫(kù)存,把他放在一個(gè)新開的世界,然后給他從未見過(guò)的task

    • Voyager 和 AutoGPT都是利用gpt4將任務(wù)分解為小的subgoal

    • AutoGPT在50回合內(nèi)無(wú)法完成任務(wù),但有意思的是:把Voyager的lib給AutoGPT用,AutoGPT的效果明顯變好 ——> lib可以是一個(gè)plag-and-play的工具


消融實(shí)驗(yàn)

6個(gè)消融實(shí)驗(yàn):

  • automatic curriculum (左圖)

    • 對(duì)持續(xù)學(xué)習(xí)很重要

    • 將自動(dòng)課程模塊換成隨機(jī)模塊,發(fā)現(xiàn)的物品會(huì)降低 93%。因?yàn)槿蝿?wù)很可能會(huì)太難

    • 將自動(dòng)課程模塊換成人工設(shè)計(jì),后期表現(xiàn)也很不好

  • skill libraryenvironment feedback: 智能體在后期傾向于絕望平原

  • execution errors (右圖)

  • self-verification: 沒(méi)有這個(gè)部分,發(fā)現(xiàn)的新物品會(huì)減少73%,因?yàn)檫@個(gè)部分用來(lái)指導(dǎo)是否要在嘗試之前失敗的task

  • GPT-4 for code generation:用gpt-4 生成代碼可以比 GPT-3.5 可以獲得5.7倍的新物體

多模態(tài):paper寫的時(shí)候gpt-4不能接受圖像,但論文嘗試了用human-feedback做3d場(chǎng)景


局限和未來(lái)工作

  • 開銷高:gpt-4比GPT-3.5貴15倍,但是不得不用gpt-4編寫代碼,因?yàn)楹糜?/p>

  • 有的時(shí)候出錯(cuò):比如沒(méi)能生成正確的skill,self-verification有的時(shí)候不好使

  • 幻覺(jué):有的時(shí)候讓agent生成不存在的東西;生成代碼的時(shí)候也會(huì)出錯(cuò),比如把鵝卵石當(dāng)作燃料;調(diào)用一些不存在的minecraft API


VOYAGER: An Open-Ended Embodied Agent with Large Language Models的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
吉首市| 白沙| 太仆寺旗| 徐水县| 中卫市| 介休市| 泽库县| 民丰县| 沈阳市| 镇宁| 宾阳县| 武山县| 雅安市| 固原市| 邵武市| 鲁甸县| 胶南市| 永和县| 贺州市| 池州市| 花莲县| 岑溪市| 天长市| 什邡市| 临夏县| 淮滨县| 平湖市| 册亨县| 博乐市| 曲沃县| 乡宁县| 西宁市| 香港| 弋阳县| 玉环县| 宜宾县| 含山县| 苍梧县| 得荣县| 石门县| 柘城县|