Table-Operations Aware Fact Verification via Sentence-Table Cloz

2023-08-05 22:56 作者:三月phanta 0人讀過 | 我要投稿

為了更好理解模型工作流程舉了以下例子：

國家????人口（百萬）面積（平方公里）

中國????1400????960萬

印度????1300????330萬

美國????330????980萬

巴西????210????850萬

然后，你有一個自然語言陳述，如下：

“美國的人口密度比中國低。

你想知道這個陳述是否能夠被表格所證實或反駁。那么，你可以用這篇論文的模型來進行表格事實驗證，具體步驟如下：

第一步，模型使用一個預訓練的語言模型，DeBERTAV3，來編碼一個自然語言陳述和一個表格。DeBERTAV3可以有效地捕捉輸入的位置信息，這對于理解表格結構很有幫助。為了讓DeBERTAV3能夠處理表格數(shù)據(jù)，模型需要先將表格線性化為一個句子，用特殊符號來標記表格的行、列和單元格。例如，上面的表格可以線性化為：

[Header] 國家 | 人口（百萬） | 面積（平方公里） [Row] 中國 | 1400 | 960萬 [Row] 印度 | 1300 | 330萬 [Row] 美國 | 330 | 980萬 [Row] 巴西 | 210 | 850萬

第二步，模型在一個大規(guī)模的語料庫上進行了進一步的預訓練，該語料庫由從WikiTables中抽取的表格和根據(jù)不同類型的表格操作（如過濾、聚合、比較等）自動生成的句子組成。這個預訓練任務是一個填空任務，即模型需要根據(jù)表格內容來預測句子中被遮蓋的與表格操作相關的詞語（如“更多”、“平均”等）。這樣，模型就可以學習到如何對表格進行推理和計算。例如，對于上面的表格和陳述，模型可能會遇到以下幾種填空任務：
“中國的人口是[Mask]億。
“[Mask]國家的面積最大。
“印度和巴西的人口之和是[Mask]億。
“美國的人口密度是[Mask]人每平方公里。
第三步，模型在下游的表格事實驗證任務上進行了微調，即給定一個自然語言陳述和一個表格，判斷陳述是否能夠被表格所證實或反駁。為了處理大表格和輸入長度限制的問題，模型還采用了一個選擇-排序的策略，即只選擇與陳述相關的列，并按照行與陳述的相關性對表格進行重排。這樣，模型就可以更有效地捕捉陳述和表格之間的關系。例如，對于上面的表格和陳述，模型可能會選擇“人口”和“面積”兩列，并將“美國”和“中國”兩行放在前面：

[Header] 國家 | 人口（百萬） | 面積（平方公里） [Row] 美國 | 330 | 980萬 [Row] 中國 | 1400 | 960萬 [Row] 印度 | 1300 | 330萬 [Row] 巴西 | 210 | 850萬

第四步，模型使用DeBERTAV3編碼陳述和重排后的表格，并輸出一個二分類結果：證實或反駁。模型會根據(jù)陳述和表格之間的邏輯關系和數(shù)值計算來做出判斷。例如，對于上面的表格和陳述，模型會計算美國和中國的人口密度，發(fā)現(xiàn)美國的人口密度是0.034人每平方公里，而中國的人口密度是0.146人每平方公里，因此美國的人口密度確實比中國低，所以模型會輸出“證實”。

標簽：

Table-Operations Aware Fact Verification via Sentence-Table Cloz的評論 (共條)

你需要登录后才可以评论。