散文網(wǎng) » 科技 »學習 » WebAgent-基于大型語言模型的代理程序

WebAgent-基于大型語言模型的代理程序

2023-07-30 14:48 作者:AI研習所 0人讀過 | 我要投稿

大型語言模型（LLM）可以解決多種自然語言任務，例如算術、常識、邏輯推理、問答、文本生成、交互式?jīng)Q策任務。最近，LLM在自主網(wǎng)絡導航方面也取得了巨大成功，代理程序助HTML理解和多步推理的能力，通過控制計算機或瀏覽互聯(lián)網(wǎng)進行一系列計算機操作，以滿足給定的自然語言指令。

然而，現(xiàn)實世界的網(wǎng)站上的網(wǎng)絡導航仍然存在以下問題：

（1）缺乏預定義的操作空間。

（2）HTML觀察比模擬器更長。

（3）LLM缺乏HTML領域知識。

考慮到現(xiàn)實世界網(wǎng)站的開放性和指令的復雜性，提前定義適當?shù)牟僮骺臻g是具有挑戰(zhàn)性的。此外，盡管有幾項研究認為通過指令微調或根據(jù)人類反饋進行強化學習可以改善對HTML的理解和網(wǎng)絡導航的準確性，但最近的LLM并不總是具有處理HTML文檔的最優(yōu)設計。大多數(shù)LLM的上下文長度與現(xiàn)實網(wǎng)站上HTML的平均標記相比更短，并且沒有采用特定的HTML領域知識。

針對上述問題，研究人員引入了WebAgent，這是一個由LLM驅動的代理程序，可以通過組合規(guī)范化的網(wǎng)絡操作在現(xiàn)實網(wǎng)站上根據(jù)用戶指令完成導航任務。WebAgent通過將指令分解為規(guī)范化的子指令來進行規(guī)劃，將長HTML文檔轉化為與任務相關的片段，并通過生成的Python程序對網(wǎng)站進行操作。研究人員將兩個LLM組合成WebAgent：Flan-U-PaLM用于基于代碼的生成，以及新引入的HTML-T5（一種新型預訓練LLM），用于規(guī)劃和摘要本地長HTML文檔。