BERT for Evidence Retrieval and Claim Veri?cation (BERT用于證據(jù)檢索和主張
Title: BERT for Evidence Retrieval and Claim Veri?cation (BERT用于證據(jù)檢索和主張驗證)(2019)
Authors: Amir Soleimani, Christof Monz, Marcel Worring
Affiliation: University of Amsterdam (阿姆斯特丹大學(xué))
Keywords: BERT, evidence retrieval, claim veri?cation, fact extraction, FEVER (BERT, 證據(jù)檢索, 主張驗證, 事實(shí)提取, FEVER)
URLs:https://arxiv.org/abs/1910.02655https://arxiv.org/abs/1910.02655https://arxiv.org/abs/1910.02655
論文簡要 :
本研究使用BERT模型在FEVER事實(shí)提取和驗證挑戰(zhàn)中進(jìn)行證據(jù)檢索和主張驗證,通過訓(xùn)練兩個BERT模型,一個用于檢索支持或反駁主張的潛在證據(jù)句子,另一個用于基于預(yù)測的證據(jù)集驗證主張。通過使用點(diǎn)對點(diǎn)和成對損失函數(shù)訓(xùn)練BERT檢索系統(tǒng),并研究了硬負(fù)采樣的影響,我們的系統(tǒng)在從包含50K個維基百科頁面的FEVER文檔中檢索前五個句子方面實(shí)現(xiàn)了新的最高召回率87.1,并在FEVER得分69.7的官方排行榜中排名第二。
背景信息:
論文背景: 隨著在線文本信息的不斷增長和社交媒體的普及,虛假新聞和錯誤主張的傳播也隨之增加。手動確定這些信息的真實(shí)性是不可行的,因此需要自動驗證和事實(shí)核查。由于缺乏適用于基于證據(jù)的虛假新聞檢測的數(shù)據(jù)集,本研究側(cè)重于主張驗證。
過去方案: FEVER事實(shí)提取和驗證(FEVER)共享任務(wù)引入了一個基準(zhǔn),用于基于證據(jù)的主張驗證。FEVER包含185K個生成的主張,標(biāo)記為“支持”、“反駁”或“不足夠信息”。
論文的Motivation: 由于BERT預(yù)訓(xùn)練語言模型在各種自然語言處理任務(wù)和數(shù)據(jù)集中的出色表現(xiàn),本研究探索了BERT在FEVER任務(wù)中的應(yīng)用。通過使用BERT模型進(jìn)行證據(jù)檢索和主張驗證,我們的系統(tǒng)在從維基百科文檔中檢索前五個句子方面實(shí)現(xiàn)了新的最高召回率,并在FEVER官方排行榜中取得了第二名的成績。
方法:
a. 理論背景:
本文研究了在FEVER事實(shí)提取和驗證挑戰(zhàn)中使用BERT在證據(jù)檢索和主張驗證流水線中的應(yīng)用。提出了兩個BERT模型,一個用于檢索潛在證據(jù)句子,另一個用于根據(jù)預(yù)測的證據(jù)集驗證主張。BERT檢索系統(tǒng)使用點(diǎn)對點(diǎn)和成對損失函數(shù)進(jìn)行訓(xùn)練,并研究了硬負(fù)樣本挖掘的效果。該系統(tǒng)在檢索前五個句子方面實(shí)現(xiàn)了新的最高召回率,并在官方排行榜上以FEVER分?jǐn)?shù)69.7位列第二。
b. 技術(shù)路線:
本文提出了在FEVER任務(wù)中使用BERT進(jìn)行證據(jù)檢索和主張驗證的三步流水線系統(tǒng)。包括文檔檢索、句子檢索和主張驗證。討論了不同的方法和技術(shù),如TF-IDF、邏輯回歸以及使用ESIM等模型進(jìn)行句子檢索。
舉個例子,假設(shè)我們要驗證這個斷言:“羅馬·阿特伍德是一名內(nèi)容創(chuàng)作者?!?/p>
在文檔檢索步驟中,我們可能會從維基百科中找到與他相關(guān)的頁面,比如“wiki/Roman_Atwood”。
在句子檢索步驟中,我們可能會從這個頁面中找到這樣一個證據(jù)句子:“他以他的視頻博客而聞名,在那里他每天更新他的生活?!?/p>
在斷言驗證步驟中,我們將這個證據(jù)句子與斷言進(jìn)行比較,發(fā)現(xiàn)它們是一致的,因此給出一個“支持”的決定。
由于沒有其他反駁或支持?jǐn)嘌缘淖C據(jù)句子,我們將最終標(biāo)簽設(shè)為“支持”,并返回這個證據(jù)句子作為支持?jǐn)嘌缘囊罁?jù)。
結(jié)果:
a. 詳細(xì)的實(shí)驗設(shè)置:
本文提出的FEVER任務(wù)的系統(tǒng)包括三個步驟:文檔檢索、句子檢索和主張驗證。在文檔檢索步驟中,檢索包含主張證據(jù)的維基百科文檔。句子檢索步驟提取主張的前五個潛在證據(jù)句子。使用點(diǎn)對點(diǎn)和成對的方法將句子分類為證據(jù)或非證據(jù)。應(yīng)用硬負(fù)樣本挖掘選擇最具挑戰(zhàn)性的負(fù)樣本進(jìn)行訓(xùn)練。在主張驗證步驟中,將前五個潛在證據(jù)句子與主張進(jìn)行比較,確定最終標(biāo)簽。為此步驟訓(xùn)練了一個新的預(yù)訓(xùn)練BERT模型作為三類分類器。
b. 詳細(xì)的實(shí)驗結(jié)果:
表1比較了所提出的句子檢索方法的不同變體在FEVER數(shù)據(jù)集上的開發(fā)集性能與最新技術(shù)結(jié)果。結(jié)果表明,點(diǎn)對點(diǎn)和成對的BERT句子檢索方法都提高了召回率。UNC和DREAM的精確度得分優(yōu)于沒有決策閾值的提出方法,但閾值可以調(diào)節(jié)召回率和精確度之間的權(quán)衡,實(shí)現(xiàn)最佳精確度和F1得分。DREAM論文報告了RoBERTa和XLNet的較低召回率,可能是由于不同的訓(xùn)練設(shè)置。圖5顯示了召回率-精確度的權(quán)衡,表明點(diǎn)對點(diǎn)方法在召回率-精確度性能方面優(yōu)于成對方法。HNM增強(qiáng)了通過Ranknet和Hinge損失函數(shù)訓(xùn)練的成對方法,并保持了點(diǎn)對點(diǎn)性能。
在表2中,將最先進(jìn)的方法的開發(fā)集結(jié)果與在不同檢索證據(jù)集上訓(xùn)練的BERT模型進(jìn)行了比較。即使在UKP-Athene句子檢索組件上訓(xùn)練,BERT主張驗證系統(tǒng)也提高了標(biāo)簽準(zhǔn)確性和FEVER分?jǐn)?shù)?;贐ERT句子檢索預(yù)測進(jìn)行訓(xùn)練顯著提高了驗證結(jié)果,提供了更多正確的證據(jù)句子和更好的訓(xùn)練集。在最佳檢索系統(tǒng)上訓(xùn)練的大型BERT模型顯著提高了性能。
最后,在表3中報告了盲測集的結(jié)果,最佳模型排名第二。這凸顯了在句子檢索和主張驗證系統(tǒng)中使用預(yù)訓(xùn)練語言建模方法的重要性。