DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

?預訓練的大型語言模型(LLMs)因其在處理各種自然語言任務上的有效性而受到了廣泛的歡迎。最近,人們已經(jīng)認識到它們在使用自然語言指令指導自主網(wǎng)絡導航方面的潛力。????????然而,現(xiàn)有的網(wǎng)絡導航模型面臨著許多挑戰(zhàn)。這些包括缺乏預定義的動作空間,解釋大量HTML文檔的復雜性,以及缺乏關于HTML的領域特定知識。????????為了解決上述問題,來自Google DeepMind和東京大學的研究團隊在一篇新的論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》中,提出了WebAgent,這是一個由LLMs驅動的真實世界網(wǎng)絡導航代理,可以根據(jù)自然語言指令處理真實網(wǎng)站任務。該團隊總結了他們的主要貢獻如下:
我們介紹了WebAgent,這是兩個LLMs的集成,用于真實世界的網(wǎng)絡導航。領域專家語言模型處理規(guī)劃和HTML摘要,而通用語言模型生成可執(zhí)行程序。
我們通過采用局部-全局注意力和在大規(guī)模HTML語料庫上進行長跨度去噪預訓練,提出了新的HTML特定語言模型HTML-T5。
HTML-T5顯著提高了在真實網(wǎng)站中的成功率,超過50%,并在MiniWoB++中比先前的LLM代理提高了14.9%。

?圖2:WebAgent是LLMs的組合:HTML-T5用于規(guī)劃和總結,F(xiàn)lan-U-PaLM用于基于實證的程序合成。WebAgent可以處理真實世界任務中的瓶頸:開放領域的動作空間、復雜的自然語言指令和長HTML頁面。
??????? WebAgent由HTML-T5用于規(guī)劃和總結以及Flan-U-PaLM用于實證程序合成之間的交互組成。

圖4:HTML-T5由局部和全局注意力機制[3,22]以及在大規(guī)模HTML語料庫上進行長跨度腐敗的混合去噪目標[66]組成。局部和全局注意力機制適用于HTML文檔的層次樹結構。因為短的平均跨度長度(例如,μ = 3),通常在先前的工作[54]中使用,只掩蓋了不太有意義的塊,采用更長的跨度長度(例如,μ = 8)有助于預訓練的語言模型更好地捕捉HTML的語法和語義。我們還注意到,這個圖描述了概念,HTML中的元素并不總是在注意力頭中清晰地被捕捉到。
????????具體來說,HTML-T5是一個預訓練的編碼器-解碼器語言模型,它包括1)局部和全局注意力機制,可以更好地捕捉HTML的層次結構;2)一種混合的去噪目標,將HTML的歸納偏差融入其中,以更好地理解HTML文檔的語法和語義。
??????? Flan-U-PaLM是一個解碼器,它消耗給定的規(guī)范示例以生成程序,下一個子指令,以及從HTML-T5中提取的HTML片段,通過Selenium WebDriver(一種瀏覽器自動化庫)解碼出可執(zhí)行的Python程序。因此,WebAgent不僅可以根據(jù)自然語言指令生成代碼,還可以解釋HTML元素的語義和功能。

表4:MiniWoB++的56個任務的平均成功率。我們使用了12K的演示[42],并將HTML-T5與監(jiān)督微調(diào)基線[24, 28]進行比較。HTML-T5-XL顯著優(yōu)于先前最好的方法WebN-T5-XL,提高了14.9%,HTML去噪比指令調(diào)優(yōu)更能提高成功率。我們還使用347K的專家追蹤[19]對HTML-T5進行了微調(diào),即使只有3B的參數(shù),其表現(xiàn)也優(yōu)于Flan-T5-XXL(11B參數(shù))。詳細結果請參見附錄H。
????????在他們的實證研究中,團隊對WebAgent在真實世界的網(wǎng)絡導航任務上進行了測試,包括規(guī)劃、總結和基于實證的程序合成。WebAgent在網(wǎng)絡導航上達到了70%的成功率,明顯優(yōu)于單一LLM方法超過50%,并且在MiniWoB網(wǎng)絡導航基準測試上比先前的最先進方法高出14.9%的成功率。????????總的來說,這項工作展示了所提出的WebAgent在自主網(wǎng)絡導航方面的潛力,團隊希望他們的工作能為自主網(wǎng)絡代理系統(tǒng)的實際部署貢獻一份力量。論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》下載請關注【AI最新追蹤】,發(fā)送消息“RRWWN”