WebAgent-基于大型語言模型的代理程序
大型語言模型(LLM)可以解決多種自然語言任務,例如算術、常識、邏輯推理、問答、文本生成、交互式?jīng)Q策任務。最近,LLM在自主網(wǎng)絡導航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通過控制計算機或瀏覽互聯(lián)網(wǎng)進行一系列計算機操作,以滿足給定的自然語言指令。
然而,現(xiàn)實世界的網(wǎng)站上的網(wǎng)絡導航仍然存在以下問題:
(1)缺乏預定義的操作空間。
(2)HTML觀察比模擬器更長。
(3)LLM缺乏HTML領域知識。
考慮到現(xiàn)實世界網(wǎng)站的開放性和指令的復雜性,提前定義適當?shù)牟僮骺臻g是具有挑戰(zhàn)性的。此外,盡管有幾項研究認為通過指令微調或根據(jù)人類反饋進行強化學習可以改善對HTML的理解和網(wǎng)絡導航的準確性,但最近的LLM并不總是具有處理HTML文檔的最優(yōu)設計。大多數(shù)LLM的上下文長度與現(xiàn)實網(wǎng)站上HTML的平均標記相比更短,并且沒有采用特定的HTML領域知識。
針對上述問題,研究人員引入了WebAgent,這是一個由LLM驅動的代理程序,可以通過組合規(guī)范化的網(wǎng)絡操作在現(xiàn)實網(wǎng)站上根據(jù)用戶指令完成導航任務。WebAgent通過將指令分解為規(guī)范化的子指令來進行規(guī)劃,將長HTML文檔轉化為與任務相關的片段,并通過生成的Python程序對網(wǎng)站進行操作。研究人員將兩個LLM組合成WebAgent:Flan-U-PaLM用于基于代碼的生成,以及新引入的HTML-T5(一種新型預訓練LLM),用于規(guī)劃和摘要本地長HTML文檔。
通過實驗證明,該方法可以提高在現(xiàn)實網(wǎng)站上的成功率50%以上,并且HTML-T5是目前解決基于HTML任務的最佳模型;在MiniWoB網(wǎng)絡導航基準測試中,其成功率比之前最先進的方法高出14.9%,并且在離線任務規(guī)劃評估上也具有更好的準確性。