BLEURT更魯棒的NLG評價指標(biāo)

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂
轉(zhuǎn)載事宜請后臺詢問哦
譯者|丁妍
單位|東北大學(xué)自然語言處理實(shí)驗(yàn)室

引言
在過去幾年中,關(guān)于自然語言生成(NLG)的研究已經(jīng)取得了巨大的進(jìn)步。在機(jī)器翻譯、文本摘要、對話生成等生成類任務(wù)上,模型的正確率也取得了前所未有的成功。與此同時,模型所使用的結(jié)構(gòu)和方法也越來越復(fù)雜。目前,一共有兩種方法可以評估這些NLG系統(tǒng):人工評估和自動指標(biāo)。通過人類的標(biāo)注,對模型的結(jié)果進(jìn)行大規(guī)模的評估和打分,這種評估結(jié)果具有較高的質(zhì)量,但是需要大量的勞動力,十分不方便。而使用自動指標(biāo)(比如BLEU)進(jìn)行打分雖然更加快捷,卻無法具有與人工評價同等的質(zhì)量。因此,我們需要開發(fā)更高效,更準(zhǔn)確的自動評估方法來對NLG系統(tǒng)的質(zhì)量進(jìn)行評估。
BLEURT
在“Evaluating Natural Language Generation with BLEURT”(ACL 2020)中,該文章介紹了一種新穎的自動評估指標(biāo)——BLEURT(使用Transformers表征的雙語評估研究),它在遷移學(xué)習(xí)的基礎(chǔ)上,捕獲廣泛的語言現(xiàn)象,比如釋義。該指標(biāo)具有前所未有的質(zhì)量水平并且具有魯棒性,更加接近人工注釋。
1.NLG系統(tǒng)的評估
在人工評估方法中,人工注釋者的任務(wù)是評估一段文本的流暢性和質(zhì)量。該文本通常與參考文本并排顯示,參考文本可以是人類創(chuàng)作的,也可以是從web中挖掘的。如下圖就是一個機(jī)器翻譯中的人工評估示例。

使用人工評估的好處就是具有非常高的準(zhǔn)確率,但是這種評估方法動輒就要消耗幾天甚至幾個星期,非常影響模型開發(fā)的時間。
相比之下,自動指標(biāo)背后的想法是為人類質(zhì)量的測量提供廉價,高速的參考結(jié)果。自動指標(biāo)通常將兩個句子(候選句子和參考句子)作為輸入,它們返回一個分?jǐn)?shù),指示前者在多大程度上與后者相似,通常使用詞法重疊的方法。一個流行的指標(biāo)是BLEU,它計(jì)算候選句子與參考句子的相似度。
自動指標(biāo)的優(yōu)缺點(diǎn)與人工評估帶來的優(yōu)缺點(diǎn)相反。自動指標(biāo)很方便——它們可以在整個訓(xùn)練過程中實(shí)時計(jì)算。然而,它們往往是不準(zhǔn)確的,因?yàn)樗鼈儗W⒂诒砻鎸用娴南嗨菩?,并且它們無法捕捉到人類語言的多樣性。通常,有許多句子完全可以傳達(dá)相同的含義。而只依賴于詞法匹配的基于重疊的指標(biāo)只能識別出那些只在表面形式上相似的句子,即使它們不能準(zhǔn)確地捕獲句子的真正含義。

理想情況下,NLG的評估方法應(yīng)該結(jié)合人類評估和自動指標(biāo)的優(yōu)勢 —— 計(jì)算起來應(yīng)該既高效快速,又具有足夠的魯棒性,并且可以識別句子的內(nèi)在含義,還可以應(yīng)對語言的多樣性。
2.BLEBRT的介紹
BLEURT是一種新穎的,基于機(jī)器學(xué)習(xí)的自動評價指標(biāo),它可以捕捉句子之間的語義相似性。它使用一個公開的評分?jǐn)?shù)據(jù)集(WMT共享數(shù)據(jù)集指標(biāo))和用戶提供的其他的評分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

創(chuàng)建基于機(jī)器學(xué)習(xí)的自動評價指標(biāo)有一項(xiàng)基本挑戰(zhàn):該評價指標(biāo)應(yīng)該在廣泛的任務(wù)和領(lǐng)域中都具有良好的性能,也就是說具有領(lǐng)域遷移的能力和魯棒性。但是,我們只有有限數(shù)量的訓(xùn)練數(shù)據(jù)。事實(shí)上,可以用的公共數(shù)據(jù)也很少——WMT Metrics Task 數(shù)據(jù)集是最大的人類評分集合,僅包含約260K人類評分,只包含新聞領(lǐng)域。這對于訓(xùn)練適合NLG系統(tǒng)的自動評估指標(biāo)來說太有限了。
為了解決這個問題,該文章采用了遷移學(xué)習(xí)的方法。首先,使用BERT的上下文詞表示,這是一種用于語言理解的最先進(jìn)的無監(jiān)督表示學(xué)習(xí)方法,已成功應(yīng)用在NLG評估指標(biāo)中(例如,YiSi 或 BERTscore)。
其次,該文章引入了一種新的預(yù)訓(xùn)練方案來增強(qiáng)BLEURT的魯棒性。實(shí)驗(yàn)表明,直接在公開的人類評分?jǐn)?shù)據(jù)集上訓(xùn)練回歸模型是一種不具有魯棒性的方法,因?yàn)槲覀儫o法控制將在哪個領(lǐng)域使用該指標(biāo)。在存在領(lǐng)域遷移的情況下,準(zhǔn)確率可能會下降。也就是說,當(dāng)使用的文本來自與訓(xùn)練句子對不同的領(lǐng)域時,評估的質(zhì)量可能下降。當(dāng)出現(xiàn)質(zhì)量漂移(當(dāng)要預(yù)測的句子評分高于訓(xùn)練期間使用的評分)時,評估的質(zhì)量也可能下降。這個特性通常是個好消息,因?yàn)樗砻?ML 研究正在取得進(jìn)展。
那么BLEURT是如何解決魯棒性問題的呢? 在進(jìn)行微調(diào)之前,它使用數(shù)百萬個合成句子對對模型進(jìn)行“warming-up”。“warming-up”的數(shù)據(jù)來自于維基百科,并且對這些句子進(jìn)行一些隨機(jī)的擾動(比如說回譯、刪除)。同時,這個階段沒有收集人工評分,而是使用以往工作中的一組指標(biāo)和模型(包括 BLEU、ROUGE、BERTscore),這樣可以以極低的成本擴(kuò)大訓(xùn)練集。

實(shí)驗(yàn)表明,預(yù)訓(xùn)練顯著提高了 BLEURT 的準(zhǔn)確性,尤其是當(dāng)測試數(shù)據(jù)分布不正常時。
該文章預(yù)訓(xùn)練了兩次 BLEURT,首先是語言建模目標(biāo)(如原始 BERT 論文中所述),然后是就是剛剛所介紹的“warming-up”階段,使用了一些已有的NLG評價指標(biāo)(BLEU、ROUGE、BERTscore)作為監(jiān)督信號。然后在 WMT 指標(biāo)數(shù)據(jù)集、用戶提供的一組評級或兩者的組合上微調(diào)模型。下圖說明了 BLEURT 的端到端訓(xùn)練過程。

結(jié)果
該文章將 BLEURT 與一些其他的自動評價指標(biāo)進(jìn)行對比,展現(xiàn)了它優(yōu)越的性能。例如,在 2019 年的 WMT 指標(biāo)共享任務(wù)中,BLEURT 的準(zhǔn)確率比 BLEU 高約 48%。該文章還證明了預(yù)訓(xùn)練有助于 BLEURT 應(yīng)對質(zhì)量漂移。

結(jié)論
隨著NLG模型的發(fā)展,評估指標(biāo)已成為該領(lǐng)域研究的重要瓶頸?;谠~法重疊的指標(biāo)如此受歡迎有充分的理由:它們簡單、一致,并且不需要任何訓(xùn)練數(shù)據(jù)。在每個候選句子都有多個參考句子的用例中,它們可能非常準(zhǔn)確。雖然它們在一些基礎(chǔ)實(shí)驗(yàn)中發(fā)揮著關(guān)鍵作用,但它們也非常保守,無法在語義層面對NLG系統(tǒng)進(jìn)行評估。BLEURT是一種更靈活的語義級指標(biāo)。由于采用了BERT的表示和新的預(yù)訓(xùn)練方案,BLEURT在兩個學(xué)術(shù)基準(zhǔn)上具有了 SOTA 性能,目前谷歌開發(fā)者們正在研究它如何改進(jìn)谷歌產(chǎn)品。
原文鏈接:
https://ai.googleblog.com/2020/05/evaluating-natural-language-generation.html

hi,這里是小牛翻譯~
想要看到更多我們的文章,可以關(guān)注下
機(jī)器翻譯學(xué)堂(公號或網(wǎng)站)
筆芯~

往期精彩文章

