散文網(wǎng) » 科技 »學(xué)習(xí) » ToTTo：受控表到文本生成數(shù)據(jù)集

ToTTo：受控表到文本生成數(shù)據(jù)集

2021-09-30 22:00 作者:雨夜的博客 0人讀過 | 我要投稿

在過去幾年中，用于文本摘要等任務(wù)的自然語言生成研究取得了巨大進展。然而，盡管實現(xiàn)了高水平的流暢性，神經(jīng)系統(tǒng)仍然容易產(chǎn)生幻覺（即生成可理解但不忠實于來源的文本），這可能會阻止這些系統(tǒng)用于許多需要高度準(zhǔn)確性的應(yīng)用程序?？紤]來自Wikibio 數(shù)據(jù)集的一個示例，其中負責(zé)總結(jié)比利時足球運動員Constant Vanden Stock的 Wikipedia 信息框條目的神經(jīng)基線模型錯誤地總結(jié)了他是美國花樣滑冰運動員。

雖然評估生成的文本對源內(nèi)容的忠實度的過程可能具有挑戰(zhàn)性，但當(dāng)源內(nèi)容是結(jié)構(gòu)化的（例如，以表格格式）時，通常會更容易。此外，結(jié)構(gòu)化數(shù)據(jù)還可以測試模型的推理和數(shù)值推理能力。然而，現(xiàn)有的大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集通常是嘈雜的（即無法從表格數(shù)據(jù)中完全推斷出參考句子），這使得它們在模型開發(fā)中用于測量幻覺是不可靠的。

在“ ToTTo: A Controlled Table-To-Text Generation Dataset ”中，我們展示了一個開放域表到文本生成數(shù)據(jù)集，該數(shù)據(jù)集使用一種新穎的注釋過程（通過句子修訂）以及一個受控文本生成任務(wù)來創(chuàng)建，該任務(wù)可用于評估模型幻覺。ToTTo（“Table-To-Text”的簡寫）包含 121,000 個訓(xùn)練示例，以及每個用于開發(fā)和測試的 7,500 個示例。由于注釋的準(zhǔn)確性，該數(shù)據(jù)集適合作為高精度文本生成研究的具有挑戰(zhàn)性的基準(zhǔn)。數(shù)據(jù)集和代碼在我們的 GitHub 存儲庫上開源。

Table-to-Text 生成

ToTTo 引入了一個受控生成任務(wù)，其中包含一組選定單元格的給定 Wikipedia 表格用作生成單個句子描述任務(wù)的源材料，該描述總結(jié)表格上下文中的單元格內(nèi)容. 下面的示例演示了該任務(wù)帶來的許多挑戰(zhàn)中的一些，例如數(shù)值推理、大量的開放域詞匯表和不同的表結(jié)構(gòu)。

注釋過程

設(shè)計注釋過程以從表格數(shù)據(jù)中獲得自然但干凈的目標(biāo)句子是一項重大挑戰(zhàn)。許多數(shù)據(jù)集（如Wikibio和RotoWire）將自然出現(xiàn)的文本與表格配對，這是一個嘈雜的過程，很難確定幻覺主要是由數(shù)據(jù)噪聲還是模型缺陷引起的。另一方面，可以引出注釋者從頭開始編寫句子目標(biāo)，這些目標(biāo)忠實于表格，但生成的目標(biāo)在結(jié)構(gòu)和風(fēng)格方面往往缺乏多樣性。

相比之下，ToTTo 是使用一種新穎的數(shù)據(jù)注釋策略構(gòu)建的，其中注釋者分階段修改現(xiàn)有的維基百科句子。這導(dǎo)致目標(biāo)句子既干凈又自然，包含有趣且多樣的語言特性。數(shù)據(jù)收集和注釋過程從從維基百科收集表格開始，其中根據(jù)啟發(fā)式將給定的表格與從支持頁面上下文收集的摘要句子配對，例如頁面文本和表格之間的單詞重疊以及引用表格數(shù)據(jù)的超鏈接。此摘要句子可能包含表格不支持的信息，并且可能包含僅在表格中找到先行詞的代詞，而不是句子本身。

注釋器然后突出顯示表中支持該句子的單元格并刪除該表中不支持的句子中的短語。在必要時，他們還對句子進行去上下文化，使其獨立（例如，具有正確的代詞解析）和正確的語法。

我們表明注釋者在上述任務(wù)上獲得了很高的一致性：0.856 Fleiss Kappa用于單元格突出顯示，以及 67.0 BLEU用于最終目標(biāo)句子。

數(shù)據(jù)集分析

我們對 ToTTo 數(shù)據(jù)集進行了超過 44 個類別的主題分析，發(fā)現(xiàn) Sports 和 Country 主題，每個主題都包含一系列細粒度的主題，例如，體育的足球/奧運會和國家的人口/建筑，共占數(shù)據(jù)集的 56.4%。其余 44% 的主題范圍更廣，包括表演藝術(shù)、交通和娛樂。

此外，我們對超過 100 個隨機選擇的示例數(shù)據(jù)集中不同類型的語言現(xiàn)象進行了手動分析。下表總結(jié)了需要參考頁面和章節(jié)標(biāo)題的部分示例，以及數(shù)據(jù)集中可能對當(dāng)前系統(tǒng)構(gòu)成新挑戰(zhàn)的一些語言現(xiàn)象。

語言現(xiàn)象百分比

需要參考頁面標(biāo)題 82%

需要參考章節(jié)標(biāo)題 19%

需要參考表格說明 3%

推理（邏輯、數(shù)字、時間等） 21%

跨行/列/單元格的比較 13%

需要背景資料 12%

基線結(jié)果

我們展示了文獻中的三個最先進模型（BERT-to-BERT、Pointer Generator和Puduppully 2019 模型）在兩個評估指標(biāo)BLEU和PARENT上的一些基線結(jié)果。除了報告整體測試集的分?jǐn)?shù)之外，我們還在由域外示例組成的更具挑戰(zhàn)性的子集上評估每個模型。如下表所示，BERT-to-BERT 模型在 BLEU 和 PARENT 方面表現(xiàn)最佳。此外，所有模型在挑戰(zhàn)集上的表現(xiàn)都相當(dāng)?shù)?，表明域外泛化的挑?zhàn)。

藍色 ?家長 ?藍色 ?家長

模型（總體）（總體）（挑戰(zhàn)）（挑戰(zhàn)）

BERT 到 BERT 43.9 52.6 34.8 46.7

指針生成器 41.6 51.6 32.2 45.2

Puduppully 等人。2019年 19.2 29.2 13.9 25.8

雖然自動指標(biāo)可以給出一些性能指標(biāo)，但它們目前不足以評估文本生成系統(tǒng)中的幻覺。為了更好地理解幻覺，我們手動評估表現(xiàn)最好的基線，以確定它對源表中內(nèi)容的忠實度，假設(shè)差異表明幻覺。為了計算“專家”性能，對于我們多參考測試集中的每個示例，我們提供一個參考并要求注釋者將其與其他參考進行比較以確保其忠實度。結(jié)果顯示，表現(xiàn)最好的基線似乎在大約 20% 的時間里產(chǎn)生幻覺信息。

忠誠 ?忠誠

模型（總體）（挑戰(zhàn)）

專家 93.6 91.4

BERT 到 BERT 76.2 74.2

模型錯誤和挑戰(zhàn)

在下表中，我們展示了一些觀察到的模型錯誤，以突出 ToTTo 數(shù)據(jù)集的一些更具挑戰(zhàn)性的方面。我們發(fā)現(xiàn)最先進的模型在幻覺、數(shù)值推理和稀有主題中掙扎，即使使用干凈的引用（紅色錯誤）。最后一個例子表明，即使模型輸出是正確的，它有時也不如包含更多關(guān)于表格的推理的原始參考（以藍色顯示）提供信息。

參考模型預(yù)測

在 1939 年的咖喱杯中，西部省份在開普敦以 17-6 輸給了德蘭士瓦。在第一Currie杯子在1939年發(fā)揮transvaal1在新-土地，與西部省份贏得17-6。

ibm 于 2000 年發(fā)布了第二代微型驅(qū)動器，容量增加到 512 mb 和 1 gb。 2000 年有512 個微驅(qū)動器型號：1 GB。 1956 年的摩托車大獎賽賽季包括 5 個級別的 6 場大獎賽：500cc、350cc、250cc、125cc 和 sidecars 500cc。 1956 年大獎賽摩托車賽季包括8場大獎賽，分為五個級別：500cc、350cc、250cc、125cc 和 sidecars 500cc。

在特拉維斯·凱爾斯 (travis kelce) 的最后一個大學(xué)賽季中，他在接球 (45)、接球碼數(shù) (722)、每次接球碼數(shù) (16.0) 和接球達陣 (8) 方面均創(chuàng)下個人職業(yè)生涯新高。 travis kelce 完成了 2012 賽季，完成了 45 次接球，傳球 722 碼（場均 16.0 次）和 8 次達陣。

結(jié)論

在這項工作中，我們展示了 ToTTo，這是一個大型的英文表格到文本數(shù)據(jù)集，它提供了一個受控的生成任務(wù)和一個基于迭代句子修訂的數(shù)據(jù)注釋過程。我們還提供了幾個最先進的基線，并證明了 ToTTo 可能是一個有用的數(shù)據(jù)集，用于建模研究以及開發(fā)可以更好地檢測模型改進的評估指標(biāo)。

更新說明：優(yōu)先更新微信公眾號“雨夜的博客”，后更新博客，之后才會陸續(xù)分發(fā)到各個平臺，如果先提前了解更多，請關(guān)注微信公眾號“雨夜的博客”。

標(biāo)簽：