最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航

2023-08-13 11:51 作者:AI最新追蹤  | 我要投稿

?預訓練的大型語言模型(LLMs)因其在處理各種自然語言任務上的有效性而受到了廣泛的歡迎。最近,人們已經(jīng)認識到它們在使用自然語言指令指導自主網(wǎng)絡導航方面的潛力。????????然而,現(xiàn)有的網(wǎng)絡導航模型面臨著許多挑戰(zhàn)。這些包括缺乏預定義的動作空間,解釋大量HTML文檔的復雜性,以及缺乏關于HTML的領域特定知識。????????為了解決上述問題,來自Google DeepMind和東京大學的研究團隊在一篇新的論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》中,提出了WebAgent,這是一個由LLMs驅動的真實世界網(wǎng)絡導航代理,可以根據(jù)自然語言指令處理真實網(wǎng)站任務。該團隊總結了他們的主要貢獻如下:

  1. 我們介紹了WebAgent,這是兩個LLMs的集成,用于真實世界的網(wǎng)絡導航。領域專家語言模型處理規(guī)劃和HTML摘要,而通用語言模型生成可執(zhí)行程序。

  2. 我們通過采用局部-全局注意力和在大規(guī)模HTML語料庫上進行長跨度去噪預訓練,提出了新的HTML特定語言模型HTML-T5。

  3. HTML-T5顯著提高了在真實網(wǎng)站中的成功率,超過50%,并在MiniWoB++中比先前的LLM代理提高了14.9%。

?圖2:WebAgent是LLMs的組合:HTML-T5用于規(guī)劃和總結,F(xiàn)lan-U-PaLM用于基于實證的程序合成。WebAgent可以處理真實世界任務中的瓶頸:開放領域的動作空間、復雜的自然語言指令和長HTML頁面。

??????? WebAgent由HTML-T5用于規(guī)劃和總結以及Flan-U-PaLM用于實證程序合成之間的交互組成。

圖4:HTML-T5由局部和全局注意力機制[3,22]以及在大規(guī)模HTML語料庫上進行長跨度腐敗的混合去噪目標[66]組成。局部和全局注意力機制適用于HTML文檔的層次樹結構。因為短的平均跨度長度(例如,μ = 3),通常在先前的工作[54]中使用,只掩蓋了不太有意義的塊,采用更長的跨度長度(例如,μ = 8)有助于預訓練的語言模型更好地捕捉HTML的語法和語義。我們還注意到,這個圖描述了概念,HTML中的元素并不總是在注意力頭中清晰地被捕捉到。

????????具體來說,HTML-T5是一個預訓練的編碼器-解碼器語言模型,它包括1)局部和全局注意力機制,可以更好地捕捉HTML的層次結構;2)一種混合的去噪目標,將HTML的歸納偏差融入其中,以更好地理解HTML文檔的語法和語義。

??????? Flan-U-PaLM是一個解碼器,它消耗給定的規(guī)范示例以生成程序,下一個子指令,以及從HTML-T5中提取的HTML片段,通過Selenium WebDriver(一種瀏覽器自動化庫)解碼出可執(zhí)行的Python程序。因此,WebAgent不僅可以根據(jù)自然語言指令生成代碼,還可以解釋HTML元素的語義和功能。

表4:MiniWoB++的56個任務的平均成功率。我們使用了12K的演示[42],并將HTML-T5與監(jiān)督微調(diào)基線[24, 28]進行比較。HTML-T5-XL顯著優(yōu)于先前最好的方法WebN-T5-XL,提高了14.9%,HTML去噪比指令調(diào)優(yōu)更能提高成功率。我們還使用347K的專家追蹤[19]對HTML-T5進行了微調(diào),即使只有3B的參數(shù),其表現(xiàn)也優(yōu)于Flan-T5-XXL(11B參數(shù))。詳細結果請參見附錄H。

????????在他們的實證研究中,團隊對WebAgent在真實世界的網(wǎng)絡導航任務上進行了測試,包括規(guī)劃、總結和基于實證的程序合成。WebAgent在網(wǎng)絡導航上達到了70%的成功率,明顯優(yōu)于單一LLM方法超過50%,并且在MiniWoB網(wǎng)絡導航基準測試上比先前的最先進方法高出14.9%的成功率。????????總的來說,這項工作展示了所提出的WebAgent在自主網(wǎng)絡導航方面的潛力,團隊希望他們的工作能為自主網(wǎng)絡代理系統(tǒng)的實際部署貢獻一份力量。論文《具有規(guī)劃、長上下文理解和程序合成的真實世界WebAgent》下載請關注【AI最新追蹤】,發(fā)送消息“RRWWN”


DeepMind與東京大學的WebAgent實現(xiàn)了根據(jù)自然語言指令進行真實世界網(wǎng)絡導航的評論 (共 條)

分享到微博請遵守國家法律
永登县| 和硕县| 张家川| 林甸县| 鹤壁市| 壤塘县| 石家庄市| 普安县| 镇坪县| 惠州市| 温泉县| 哈尔滨市| 红安县| 华坪县| 曲水县| 隆尧县| 临猗县| 潜山县| 德江县| 宣汉县| 青铜峡市| 东丰县| 无棣县| 长治市| 新河县| 岳池县| 新泰市| 通许县| 柳州市| 安岳县| 清远市| 西林县| 新安县| 滦南县| 肇州县| 礼泉县| 财经| 苍山县| 青神县| 嘉义县| 宜兰市|