基于邏輯級證據(jù)檢索和基于圖的驗證網(wǎng)絡(luò)的表格事實驗證
Title: Logic-level Evidence Retrieval and Graph-based Veri?cation Network for Table-based Fact Veri?cation?
論文簡要 :
本文提出了一種基于邏輯級證據(jù)檢索和基于圖的驗證網(wǎng)絡(luò)的表格事實驗證方法,通過檢索邏輯級程序樣式的證據(jù)并構(gòu)建邏輯級圖進(jìn)行推理,實現(xiàn)對給定表格和陳述的邏輯推理和事實驗證。
背景信息:
論文背景: 在互聯(lián)網(wǎng)上存在大量半結(jié)構(gòu)化表格,如何對這些表格進(jìn)行推理對于人們理解現(xiàn)實世界中的不同類型信息至關(guān)重要。表格事實驗證任務(wù)是其中的一個重要任務(wù),它通過給定的表格驗證給定陳述的正確性,需要進(jìn)行語言推理和符號推理。
過去方案: 過去的方法主要使用包含豐富邏輯信息的程序來進(jìn)行符號推理,但由于在程序生成過程中缺乏完全監(jiān)督信號,可能會導(dǎo)致生成和使用虛假程序,從而無法捕捉有用的邏輯操作。
論文的Motivation: 為了解決上述問題,本文將表格事實驗證任務(wù)作為一個證據(jù)檢索和推理框架來進(jìn)行建模,提出了基于邏輯級證據(jù)檢索和基于圖的驗證網(wǎng)絡(luò)的方法。通過從給定的表格和陳述中檢索邏輯級程序樣式的證據(jù),并構(gòu)建邏輯級圖來捕捉證據(jù)中實體和函數(shù)之間的邏輯關(guān)系,從而進(jìn)行邏輯級圖推理并分類最終的蘊涵關(guān)系。實驗結(jié)果表明,所提出的方法在大規(guī)?;鶞?zhǔn)數(shù)據(jù)集TABFACT上取得了良好的效果。

方法:
a. 理論背景:
本文介紹了基于表格的事實驗證任務(wù),旨在根據(jù)半結(jié)構(gòu)化表格驗證給定陳述的正確性。該任務(wù)需要進(jìn)行語言推理和符號推理,邏輯操作起著關(guān)鍵作用?,F(xiàn)有方法使用從表格和陳述中導(dǎo)出的程序來增強驗證過程。然而,這些方法可能會生成虛假的程序,導(dǎo)致模型無法捕捉有用的邏輯操作。為了解決這個問題,本文提出了邏輯級證據(jù)檢索和基于圖的驗證網(wǎng)絡(luò)(LERGV),將任務(wù)形式化為證據(jù)檢索和推理框架。LERGV模型從表格和陳述中檢索邏輯級程序樣式的證據(jù),構(gòu)建邏輯級圖以捕捉邏輯關(guān)系,并進(jìn)行基于圖的推理以分類最終的蘊涵關(guān)系。在TABFACT數(shù)據(jù)集上的實驗結(jié)果證明了所提方法的有效性。
b. 技術(shù)路線:
本文提出了邏輯級證據(jù)檢索和基于圖的驗證網(wǎng)絡(luò)(LERGV)作為基于表格的事實驗證的方法。LERGV模型包括三個主要模塊:程序合成、證據(jù)檢索和事實驗證。程序合成模塊使用潛在程序搜索算法(LPA)根據(jù)表格和陳述生成可能的程序。證據(jù)檢索模塊通過應(yīng)用基于規(guī)則的方法從程序中選擇有價值的邏輯級證據(jù)。事實驗證模塊根據(jù)證據(jù)構(gòu)建邏輯級圖,并進(jìn)行基于圖的推理以分類蘊涵關(guān)系。LERGV模型結(jié)合了語言推理和符號推理,以提高驗證過程的效果。在TABFACT數(shù)據(jù)集上的實驗結(jié)果證明了所提方法的有效性。
模型的工作流程:
假設(shè)用戶輸入的陳述是:“這篇論文的模型是基于圖注意力網(wǎng)絡(luò)的。”
首先,模型會用潛在程序算法(LPA)從給定的表格和陳述中合成一組可能的程序,每個程序都是一種邏輯形式,包含了一些預(yù)定義的函數(shù),如“eq”、“min”等。
然后,模型會用一個基于規(guī)則的方法從合成的程序中選擇、分解和過濾一些有價值的邏輯層面的證據(jù),作為表格的補充信息。例如,一個可能的證據(jù)是“eq { graph attention network ; hop { filter_eq { all_rows ; model ; LERGV } ; method } } = True”,表示表格中有一行的“model”列是“LERGV”,而“method”列是“graph attention network”。
接著,模型會根據(jù)得到的證據(jù)構(gòu)建一個圖,把每個函數(shù)和實體作為一個節(jié)點,并根據(jù)程序的結(jié)構(gòu)添加邊來表示邏輯關(guān)系。例如,“eq”節(jié)點會和它的兩個參數(shù)節(jié)點相連,“hop”節(jié)點會和它的三個參數(shù)節(jié)點相連。
最后,模型會用一個圖注意力網(wǎng)絡(luò)來對圖進(jìn)行推理,并結(jié)合表格和陳述的語義信息來預(yù)測最終的標(biāo)簽。例如,模型會注意到“graph attention network”和“基于圖注意力網(wǎng)絡(luò)”的語義相似性,并且證據(jù)中有一條支持這一點,所以模型會預(yù)測標(biāo)簽為“ENTAILED”。
結(jié)果:
a. 詳細(xì)的實驗設(shè)置:
本文使用TABFACT數(shù)據(jù)集進(jìn)行實驗評估,該數(shù)據(jù)集用于基于表格的事實驗證任務(wù)。實驗中采用了LERGV模型作為基準(zhǔn)模型,并與其他基線系統(tǒng)進(jìn)行比較。
b. 詳細(xì)的實驗結(jié)果:
在測試集上,本文的模型實現(xiàn)了75.5%的準(zhǔn)確率,超過了所有基線系統(tǒng)。與LPA、Table-BERT和SAT相比,本文的模型表現(xiàn)出較大的優(yōu)勢,證明了將語言推理和符號推理相結(jié)合的優(yōu)勢。與基于語義解析的方法(如LogicalFactChecker、HeterTFV和ProgVGAT)相比,本文的模型在性能上提高了1.1%至3.8%。這表明了本文所提方法在理解半結(jié)構(gòu)化表格和捕捉實體和函數(shù)之間的邏輯關(guān)系方面的有效性。在復(fù)雜測試集上,本文的模型還比ProgVGAT高出近2個百分點,展示了其處理復(fù)雜陳述的能力??傮w而言,這些結(jié)果證明了本文所提方法在基于表格的事實驗證中的實用性。