Investigating Zero- and Few-shot Generalization in Fact Verifica

2023-10-02 11:39 作者:三月phanta 0人讀過 | 我要投稿

論文簡(jiǎn)要 :

本研究探索了事實(shí)驗(yàn)證中的零樣本和少樣本泛化性能，構(gòu)建了一個(gè)包含11個(gè)數(shù)據(jù)集的基準(zhǔn)數(shù)據(jù)集集合，并通過實(shí)證分析發(fā)現(xiàn)當(dāng)前模型的泛化性能較差。研究結(jié)果表明，數(shù)據(jù)集大小、證據(jù)長(zhǎng)度和聲明類型等因素影響泛化性能，并提出了兩種改進(jìn)泛化性能的方法：通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練來引入領(lǐng)域知識(shí)，以及通過聲明生成自動(dòng)生成訓(xùn)練數(shù)據(jù)。這些方法能夠顯著提高泛化性能，但仍存在一些挑戰(zhàn)，如靈活性、高成本和標(biāo)簽一致性。

背景信息:

論文背景: 隨著有意的虛假信息的增加，事實(shí)驗(yàn)證成為了重要的自然語(yǔ)言處理應(yīng)用。然而，由于人工標(biāo)注耗時(shí)、成本高且常常存在偏見，難以在每個(gè)需要事實(shí)驗(yàn)證的領(lǐng)域收集可靠的人工標(biāo)注數(shù)據(jù)。因此，需要研究如何構(gòu)建一個(gè)能夠適應(yīng)零樣本或少樣本的新領(lǐng)域的通用事實(shí)驗(yàn)證系統(tǒng)。此外，還需要探索如何利用來自資源豐富的領(lǐng)域（如維基百科）的有價(jià)值的（證據(jù)，聲明，標(biāo)簽）注釋來幫助低資源領(lǐng)域（如學(xué)術(shù)文獻(xiàn)和社交媒體）的事實(shí)驗(yàn)證。
過去方案: 過去的研究主要集中在使用大型神經(jīng)模型在維基百科等資源豐富的領(lǐng)域上進(jìn)行訓(xùn)練，并在FEVER數(shù)據(jù)集上取得了快速進(jìn)展。然而，這些模型在其他領(lǐng)域的泛化性能較差。此外，雖然近年來在不同領(lǐng)域創(chuàng)建了許多事實(shí)驗(yàn)證數(shù)據(jù)集，但很少有研究分析這些數(shù)據(jù)集之間的泛化性能以及現(xiàn)有數(shù)據(jù)集對(duì)于改善新領(lǐng)域性能的影響。
論文的Motivation: 本研究的動(dòng)機(jī)是填補(bǔ)這一空白，通過對(duì)事實(shí)驗(yàn)證中的零樣本和少樣本泛化性能進(jìn)行全面調(diào)查。通過對(duì)迄今為止的事實(shí)驗(yàn)證數(shù)據(jù)集進(jìn)行綜合研究，我們首先精選了8個(gè)數(shù)據(jù)集，這些數(shù)據(jù)集具有人工或自然聲明、人工注釋的證據(jù)以及二類或三類標(biāo)簽。然后，我們對(duì)這些數(shù)據(jù)集進(jìn)行了統(tǒng)一的數(shù)據(jù)格式處理，并創(chuàng)建了具有不同證據(jù)粒度的數(shù)據(jù)集變體，共計(jì)11個(gè)數(shù)據(jù)集。最后，我們?cè)谶@11個(gè)數(shù)據(jù)集上進(jìn)行了全面的泛化性能和遷移性能研究。我們?cè)谠磾?shù)據(jù)集上訓(xùn)練模型，然后在目標(biāo)數(shù)據(jù)集上評(píng)估其性能，其中目標(biāo)數(shù)據(jù)集要么沒有額外的目標(biāo)訓(xùn)練樣本（零樣本設(shè)置），要么有少量額外的目標(biāo)訓(xùn)練樣本（少樣本設(shè)置）。

方法:

a. 理論背景:

本文研究了事實(shí)驗(yàn)證中的零樣本和少樣本泛化問題，即在資源充足的領(lǐng)域（如維基百科）上訓(xùn)練模型，并將其應(yīng)用于沒有人工注釋的低資源領(lǐng)域。作者構(gòu)建了一個(gè)包含6個(gè)領(lǐng)域的11個(gè)事實(shí)驗(yàn)證數(shù)據(jù)集的基準(zhǔn)數(shù)據(jù)集，并分析了這些數(shù)據(jù)集之間的泛化能力。他們發(fā)現(xiàn)當(dāng)前的模型泛化能力不強(qiáng)，并確定了數(shù)據(jù)集大小、證據(jù)長(zhǎng)度和主張類型等因素對(duì)泛化能力的影響。作者提出了兩種改進(jìn)泛化能力的方法：1）通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練來引入領(lǐng)域知識(shí)，2）通過主張生成來自動(dòng)生成訓(xùn)練數(shù)據(jù)。他們表明這些方法可以提高泛化能力，但也強(qiáng)調(diào)了靈活性、高成本和標(biāo)簽一致性等挑戰(zhàn)。這項(xiàng)研究是首次全面研究事實(shí)驗(yàn)證中的泛化和遷移問題。數(shù)據(jù)集和代碼已開源，供未來研究使用。

b. 技術(shù)路線:

本文使用RoBERTa-large模型作為基準(zhǔn)模型，將主張和證據(jù)進(jìn)行拼接作為分類的輸入。作者提出了兩種改進(jìn)泛化能力的方法：一是通過在專門領(lǐng)域進(jìn)行預(yù)訓(xùn)練，如生物學(xué)文獻(xiàn)（BioBERT）和學(xué)術(shù)文檔（SciBERT），以賦予模型領(lǐng)域內(nèi)的知識(shí)；二是通過數(shù)據(jù)增強(qiáng)生成不同領(lǐng)域的訓(xùn)練數(shù)據(jù)，使用基于BART的主張生成模型。作者還進(jìn)行了實(shí)驗(yàn)來評(píng)估這些方法的效果，并分析了其優(yōu)缺點(diǎn)。

結(jié)果:

a. 詳細(xì)的實(shí)驗(yàn)設(shè)置:

本文使用11個(gè)事實(shí)驗(yàn)證數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，包括FEVER-para、FEVER-sent、VitaminC、SciFact和PubHealth等。作者使用了零樣本和少樣本泛化設(shè)置，并對(duì)模型在不同數(shù)據(jù)集上的性能進(jìn)行評(píng)估。實(shí)驗(yàn)中還控制了數(shù)據(jù)集大小，并比較了不同模型的性能。

b. 詳細(xì)的實(shí)驗(yàn)結(jié)果:

實(shí)驗(yàn)結(jié)果表明，當(dāng)前模型在零樣本泛化設(shè)置下的性能較差，與領(lǐng)域內(nèi)性能相比有所下降。模型在人工主張和自然主張之間的泛化能力存在差異，人工主張的模型在自然主張的數(shù)據(jù)集上表現(xiàn)較差，而在人工主張的數(shù)據(jù)集上表現(xiàn)較好。此外，數(shù)據(jù)集大小對(duì)泛化能力有顯著影響，較大的數(shù)據(jù)集有助于提高泛化能力。預(yù)訓(xùn)練和數(shù)據(jù)增強(qiáng)方法可以改善泛化能力，但也存在一些挑戰(zhàn)，如靈活性、高成本和標(biāo)簽一致性等。

標(biāo)簽：

Investigating Zero- and Few-shot Generalization in Fact Verifica的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Investigating Zero- and Few-shot Generalization in Fact Verifica

論文簡(jiǎn)要 :

背景信息:

方法:

結(jié)果:

Investigating Zero- and Few-shot Generalization in Fact Verifica的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Investigating Zero- and Few-shot Generalization in Fact Verifica

論文簡(jiǎn)要 :

背景信息:

方法:

結(jié)果:

本文作者的其他文章

Investigating Zero- and Few-shot Generalization in Fact Verifica的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Investigating Zero- and Few-shot Generalization in Fact Verifica的評(píng)論 (共條)