Table-Operations Aware Fact Verification via Sentence-Table Cloz
為了更好理解模型工作流程舉了以下例子:
國家????人口(百萬)面積(平方公里)
中國????1400????960萬
印度????1300????330萬
美國????330????980萬
巴西????210????850萬
然后,你有一個自然語言陳述,如下:
“美國的人口密度比中國低。
你想知道這個陳述是否能夠被表格所證實或反駁。那么,你可以用這篇論文的模型來進行表格事實驗證,具體步驟如下:
第一步,模型使用一個預訓練的語言模型,DeBERTAV3,來編碼一個自然語言陳述和一個表格。DeBERTAV3可以有效地捕捉輸入的位置信息,這對于理解表格結構很有幫助。為了讓DeBERTAV3能夠處理表格數(shù)據(jù),模型需要先將表格線性化為一個句子,用特殊符號來標記表格的行、列和單元格。例如,上面的表格可以線性化為:
[Header] 國家 | 人口(百萬) | 面積(平方公里) [Row] 中國 | 1400 | 960萬 [Row] 印度 | 1300 | 330萬 [Row] 美國 | 330 | 980萬 [Row] 巴西 | 210 | 850萬
第二步,模型在一個大規(guī)模的語料庫上進行了進一步的預訓練,該語料庫由從WikiTables中抽取的表格和根據(jù)不同類型的表格操作(如過濾、聚合、比較等)自動生成的句子組成。這個預訓練任務是一個填空任務,即模型需要根據(jù)表格內容來預測句子中被遮蓋的與表格操作相關的詞語(如“更多”、“平均”等)。這樣,模型就可以學習到如何對表格進行推理和計算。例如,對于上面的表格和陳述,模型可能會遇到以下幾種填空任務:
“中國的人口是[Mask]億。
“[Mask]國家的面積最大。
“印度和巴西的人口之和是[Mask]億。
“美國的人口密度是[Mask]人每平方公里。
第三步,模型在下游的表格事實驗證任務上進行了微調,即給定一個自然語言陳述和一個表格,判斷陳述是否能夠被表格所證實或反駁。為了處理大表格和輸入長度限制的問題,模型還采用了一個選擇-排序的策略,即只選擇與陳述相關的列,并按照行與陳述的相關性對表格進行重排。這樣,模型就可以更有效地捕捉陳述和表格之間的關系。例如,對于上面的表格和陳述,模型可能會選擇“人口”和“面積”兩列,并將“美國”和“中國”兩行放在前面:
[Header] 國家 | 人口(百萬) | 面積(平方公里) [Row] 美國 | 330 | 980萬 [Row] 中國 | 1400 | 960萬 [Row] 印度 | 1300 | 330萬 [Row] 巴西 | 210 | 850萬
第四步,模型使用DeBERTAV3編碼陳述和重排后的表格,并輸出一個二分類結果:證實或反駁。模型會根據(jù)陳述和表格之間的邏輯關系和數(shù)值計算來做出判斷。例如,對于上面的表格和陳述,模型會計算美國和中國的人口密度,發(fā)現(xiàn)美國的人口密度是0.034人每平方公里,而中國的人口密度是0.146人每平方公里,因此美國的人口密度確實比中國低,所以模型會輸出“證實”。
Table-Operations Aware Fact Verification via Sentence-Table Cloz的評論 (共 條)
