Investigating Zero- and Few-shot Generalization in Fact Verifica
論文簡(jiǎn)要 :
本研究探索了事實(shí)驗(yàn)證中的零樣本和少樣本泛化性能,構(gòu)建了一個(gè)包含11個(gè)數(shù)據(jù)集的基準(zhǔn)數(shù)據(jù)集集合,并通過實(shí)證分析發(fā)現(xiàn)當(dāng)前模型的泛化性能較差。研究結(jié)果表明,數(shù)據(jù)集大小、證據(jù)長(zhǎng)度和聲明類型等因素影響泛化性能,并提出了兩種改進(jìn)泛化性能的方法:通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練來引入領(lǐng)域知識(shí),以及通過聲明生成自動(dòng)生成訓(xùn)練數(shù)據(jù)。這些方法能夠顯著提高泛化性能,但仍存在一些挑戰(zhàn),如靈活性、高成本和標(biāo)簽一致性。
背景信息:
論文背景: 隨著有意的虛假信息的增加,事實(shí)驗(yàn)證成為了重要的自然語(yǔ)言處理應(yīng)用。然而,由于人工標(biāo)注耗時(shí)、成本高且常常存在偏見,難以在每個(gè)需要事實(shí)驗(yàn)證的領(lǐng)域收集可靠的人工標(biāo)注數(shù)據(jù)。因此,需要研究如何構(gòu)建一個(gè)能夠適應(yīng)零樣本或少樣本的新領(lǐng)域的通用事實(shí)驗(yàn)證系統(tǒng)。此外,還需要探索如何利用來自資源豐富的領(lǐng)域(如維基百科)的有價(jià)值的(證據(jù),聲明,標(biāo)簽)注釋來幫助低資源領(lǐng)域(如學(xué)術(shù)文獻(xiàn)和社交媒體)的事實(shí)驗(yàn)證。
過去方案: 過去的研究主要集中在使用大型神經(jīng)模型在維基百科等資源豐富的領(lǐng)域上進(jìn)行訓(xùn)練,并在FEVER數(shù)據(jù)集上取得了快速進(jìn)展。然而,這些模型在其他領(lǐng)域的泛化性能較差。此外,雖然近年來在不同領(lǐng)域創(chuàng)建了許多事實(shí)驗(yàn)證數(shù)據(jù)集,但很少有研究分析這些數(shù)據(jù)集之間的泛化性能以及現(xiàn)有數(shù)據(jù)集對(duì)于改善新領(lǐng)域性能的影響。
論文的Motivation: 本研究的動(dòng)機(jī)是填補(bǔ)這一空白,通過對(duì)事實(shí)驗(yàn)證中的零樣本和少樣本泛化性能進(jìn)行全面調(diào)查。通過對(duì)迄今為止的事實(shí)驗(yàn)證數(shù)據(jù)集進(jìn)行綜合研究,我們首先精選了8個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集具有人工或自然聲明、人工注釋的證據(jù)以及二類或三類標(biāo)簽。然后,我們對(duì)這些數(shù)據(jù)集進(jìn)行了統(tǒng)一的數(shù)據(jù)格式處理,并創(chuàng)建了具有不同證據(jù)粒度的數(shù)據(jù)集變體,共計(jì)11個(gè)數(shù)據(jù)集。最后,我們?cè)谶@11個(gè)數(shù)據(jù)集上進(jìn)行了全面的泛化性能和遷移性能研究。我們?cè)谠磾?shù)據(jù)集上訓(xùn)練模型,然后在目標(biāo)數(shù)據(jù)集上評(píng)估其性能,其中目標(biāo)數(shù)據(jù)集要么沒有額外的目標(biāo)訓(xùn)練樣本(零樣本設(shè)置),要么有少量額外的目標(biāo)訓(xùn)練樣本(少樣本設(shè)置)。
方法:
a. 理論背景:
本文研究了事實(shí)驗(yàn)證中的零樣本和少樣本泛化問題,即在資源充足的領(lǐng)域(如維基百科)上訓(xùn)練模型,并將其應(yīng)用于沒有人工注釋的低資源領(lǐng)域。作者構(gòu)建了一個(gè)包含6個(gè)領(lǐng)域的11個(gè)事實(shí)驗(yàn)證數(shù)據(jù)集的基準(zhǔn)數(shù)據(jù)集,并分析了這些數(shù)據(jù)集之間的泛化能力。他們發(fā)現(xiàn)當(dāng)前的模型泛化能力不強(qiáng),并確定了數(shù)據(jù)集大小、證據(jù)長(zhǎng)度和主張類型等因素對(duì)泛化能力的影響。作者提出了兩種改進(jìn)泛化能力的方法:1)通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練來引入領(lǐng)域知識(shí),2)通過主張生成來自動(dòng)生成訓(xùn)練數(shù)據(jù)。他們表明這些方法可以提高泛化能力,但也強(qiáng)調(diào)了靈活性、高成本和標(biāo)簽一致性等挑戰(zhàn)。這項(xiàng)研究是首次全面研究事實(shí)驗(yàn)證中的泛化和遷移問題。數(shù)據(jù)集和代碼已開源,供未來研究使用。
b. 技術(shù)路線:
本文使用RoBERTa-large模型作為基準(zhǔn)模型,將主張和證據(jù)進(jìn)行拼接作為分類的輸入。作者提出了兩種改進(jìn)泛化能力的方法:一是通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練,如生物學(xué)文獻(xiàn)(BioBERT)和學(xué)術(shù)文檔(SciBERT),以賦予模型領(lǐng)域內(nèi)的知識(shí);二是通過數(shù)據(jù)增強(qiáng)生成不同領(lǐng)域的訓(xùn)練數(shù)據(jù),使用基于BART的主張生成模型。作者還進(jìn)行了實(shí)驗(yàn)來評(píng)估這些方法的效果,并分析了其優(yōu)缺點(diǎn)。
結(jié)果:
a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:
本文使用11個(gè)事實(shí)驗(yàn)證數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包括FEVER-para、FEVER-sent、VitaminC、SciFact和PubHealth等。作者使用了零樣本和少樣本泛化設(shè)置,并對(duì)模型在不同數(shù)據(jù)集上的性能進(jìn)行評(píng)估。實(shí)驗(yàn)中還控制了數(shù)據(jù)集大小,并比較了不同模型的性能。
b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:
實(shí)驗(yàn)結(jié)果表明,當(dāng)前模型在零樣本泛化設(shè)置下的性能較差,與領(lǐng)域內(nèi)性能相比有所下降。模型在人工主張和自然主張之間的泛化能力存在差異,人工主張的模型在自然主張的數(shù)據(jù)集上表現(xiàn)較差,而在人工主張的數(shù)據(jù)集上表現(xiàn)較好。此外,數(shù)據(jù)集大小對(duì)泛化能力有顯著影響,較大的數(shù)據(jù)集有助于提高泛化能力。預(yù)訓(xùn)練和數(shù)據(jù)增強(qiáng)方法可以改善泛化能力,但也存在一些挑戰(zhàn),如靈活性、高成本和標(biāo)簽一致性等。