GERE: Generative Evidence Retrieval for Fact Verification
Motivation?為了解決現(xiàn)有的事實驗證方法中存在的一些問題,例如:i) 高質(zhì)量的證據(jù)是事實驗證的基礎,但現(xiàn)有的方法往往采用現(xiàn)成的模型來檢索相關(guān)文檔和句子,忽略了文檔和句子之間的交互和上下文信息;ii) 現(xiàn)有的方法需要一個大的文檔索引和復雜的搜索過程,導致了巨大的內(nèi)存和計算開銷;iii) 現(xiàn)有的方法固定地選擇一定數(shù)量的文檔和句子作為最終的證據(jù)集合,限制了驗證不同斷言的靈活性。因此,作者提出了一個生成式的證據(jù)檢索框架,旨在提高證據(jù)檢索的質(zhì)量和效率,從而改善事實驗證的性能。
GERE:一種生成式證據(jù)檢索方法。GERE是一個新穎的生成式框架,用于在事實驗證(FV)中聯(lián)合進行文檔檢索和句子檢索。GERE利用一個預訓練的編碼器-解碼器模型,生成相關(guān)文檔的標題和證據(jù)句子的標識符。
GERE的優(yōu)勢。GERE相比現(xiàn)有的方法有以下幾個優(yōu)勢:i) 它不需要一個大的文檔索引和復雜的搜索過程,節(jié)省了內(nèi)存和計算開銷;ii) 它能夠通過順序生成過程捕捉文檔和句子之間的依賴關(guān)系;iii) 它能夠根據(jù)不同的斷言動態(tài)地選擇一個精確的證據(jù)集合。
GERE的實驗結(jié)果。GERE在FEVER數(shù)據(jù)集上進行了實驗,結(jié)果顯示它在文檔檢索和句子檢索方面都顯著優(yōu)于最先進的基線方法,同時也提高了事實驗證的性能。GERE還具有更小的內(nèi)存占用和更快的推理速度。

斷言編碼器。斷言編碼器是一個雙向的Transformer-based編碼器,用于將輸入的斷言映射為一個緊湊的向量,表示其主要的話題。
標題解碼器。標題解碼器是一個順序生成過程,用于根據(jù)斷言和之前生成的標題產(chǎn)生一系列相關(guān)文檔的標題。
證據(jù)解碼器。證據(jù)解碼器是另一個順序生成過程,用于根據(jù)斷言和相關(guān)文檔產(chǎn)生一系列證據(jù)句子的標識符。
首先,斷言編碼器將輸入的斷言編碼為一個向量,作為標題解碼器的初始狀態(tài)。
然后,標題解碼器根據(jù)斷言和之前生成的標題,逐個生成相關(guān)文檔的標題。例如,如果輸入的斷言是“巴黎是法國的首都”,標題解碼器可能會生成“巴黎 - 維基百科”、“法國 - 維基百科”等標題。
接著,證據(jù)解碼器根據(jù)斷言和相關(guān)文檔,逐個生成證據(jù)句子的標識符。例如,如果相關(guān)文檔是“巴黎 - 維基百科”,證據(jù)解碼器可能會生成“巴黎 - 維基百科#第一段#第一句”、“巴黎 - 維基百科#歷史#第三段#第二句”等標識符。
最后,模型根據(jù)生成的標題和標識符,從文檔庫中檢索出相應的文檔和句子,作為最終的證據(jù)集合。