散文網(wǎng) » 科技 »學習 » DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

2023-08-13 11:51 作者:AI最新追蹤 0人讀過 | 我要投稿

?預訓練的大型語言模型（LLMs）因其在處理各種自然語言任務上的有效性而受到了廣泛的歡迎。最近，人們已經(jīng)認識到它們在使用自然語言指令指導自主網(wǎng)絡導航方面的潛力。????????然而，現(xiàn)有的網(wǎng)絡導航模型面臨著許多挑戰(zhàn)。這些包括缺乏預定義的動作空間，解釋大量HTML文檔的復雜性，以及缺乏關于HTML的領域特定知識。????????為了解決上述問題，來自Google DeepMind和東京大學的研究團隊在一篇新的論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》中，提出了WebAgent，這是一個由LLMs驅動的真實世界網(wǎng)絡導航代理，可以根據(jù)自然語言指令處理真實網(wǎng)站任務。該團隊總結了他們的主要貢獻如下：

我們介紹了WebAgent，這是兩個LLMs的集成，用于真實世界的網(wǎng)絡導航。領域專家語言模型處理規(guī)劃和HTML摘要，而通用語言模型生成可執(zhí)行程序。
我們通過采用局部-全局注意力和在大規(guī)模HTML語料庫上進行長跨度去噪預訓練，提出了新的HTML特定語言模型HTML-T5。
HTML-T5顯著提高了在真實網(wǎng)站中的成功率，超過50%，并在MiniWoB++中比先前的LLM代理提高了14.9%。

?圖2：WebAgent是LLMs的組合：HTML-T5用于規(guī)劃和總結，F(xiàn)lan-U-PaLM用于基于實證的程序合成。WebAgent可以處理真實世界任務中的瓶頸：開放領域的動作空間、復雜的自然語言指令和長HTML頁面。

??????? WebAgent由HTML-T5用于規(guī)劃和總結以及Flan-U-PaLM用于實證程序合成之間的交互組成。

圖4：HTML-T5由局部和全局注意力機制[3,22]以及在大規(guī)模HTML語料庫上進行長跨度腐敗的混合去噪目標[66]組成。局部和全局注意力機制適用于HTML文檔的層次樹結構。因為短的平均跨度長度（例如，μ = 3），通常在先前的工作[54]中使用，只掩蓋了不太有意義的塊，采用更長的跨度長度（例如，μ = 8）有助于預訓練的語言模型更好地捕捉HTML的語法和語義。我們還注意到，這個圖描述了概念，HTML中的元素并不總是在注意力頭中清晰地被捕捉到。

????????具體來說，HTML-T5是一個預訓練的編碼器-解碼器語言模型，它包括1）局部和全局注意力機制，可以更好地捕捉HTML的層次結構；2）一種混合的去噪目標，將HTML的歸納偏差融入其中，以更好地理解HTML文檔的語法和語義。

??????? Flan-U-PaLM是一個解碼器，它消耗給定的規(guī)范示例以生成程序，下一個子指令，以及從HTML-T5中提取的HTML片段，通過Selenium WebDriver（一種瀏覽器自動化庫）解碼出可執(zhí)行的Python程序。因此，WebAgent不僅可以根據(jù)自然語言指令生成代碼，還可以解釋HTML元素的語義和功能。

表4：MiniWoB++的56個任務的平均成功率。我們使用了12K的演示[42]，并將HTML-T5與監(jiān)督微調(diào)基線[24, 28]進行比較。HTML-T5-XL顯著優(yōu)于先前最好的方法WebN-T5-XL，提高了14.9%，HTML去噪比指令調(diào)優(yōu)更能提高成功率。我們還使用347K的專家追蹤[19]對HTML-T5進行了微調(diào)，即使只有3B的參數(shù)，其表現(xiàn)也優(yōu)于Flan-T5-XXL（11B參數(shù)）。詳細結果請參見附錄H。

????????在他們的實證研究中，團隊對WebAgent在真實世界的網(wǎng)絡導航任務上進行了測試，包括規(guī)劃、總結和基于實證的程序合成。WebAgent在網(wǎng)絡導航上達到了70%的成功率，明顯優(yōu)于單一LLM方法超過50%，并且在MiniWoB網(wǎng)絡導航基準測試上比先前的最先進方法高出14.9%的成功率。????????總的來說，這項工作展示了所提出的WebAgent在自主網(wǎng)絡導航方面的潛力，團隊希望他們的工作能為自主網(wǎng)絡代理系統(tǒng)的實際部署貢獻一份力量。論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》下載請關注【AI最新追蹤】，發(fā)送消息“RRWWN”

標簽：人工智能 AI NLP

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

本文作者的其他文章

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航的評論 (共條)