行業(yè)技術(shù) | LLMs能否替代人工評價作為對話生成質(zhì)量的評估器?
社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理,機器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。
Paper: https://arxiv.org/pdf/2305.14658.pdf
Datasets: https://github.com/misonsky/DialogADV
在文本生成領(lǐng)域,傳統(tǒng)的基于參考的指標(biāo)一直被研究者所詬病,尤其是生成文本多樣性比較強的任務(wù),比如對話生成任務(wù)。對話生成任務(wù)中,不同的對話歷史可以有很多合理的回復(fù),而同一個響應(yīng)又可以作為不同對話上下文的回復(fù),這導(dǎo)致了諸如BLEU、ROUGE、METEOR等指標(biāo)無法準(zhǔn)確反應(yīng)生成回復(fù)的質(zhì)量。顧名思義,基于參考的指標(biāo)只有和參考文本高度相似的時候才會被認(rèn)為是高質(zhì)量。然而在對話生成領(lǐng)域(當(dāng)然其它的文本生成領(lǐng)域也有類似問題),存在大量在詞匯級別可能和參考完全沒有重疊的侯選,實際是高質(zhì)量的回復(fù)。比如下面的樣例:
圖1:對話回復(fù)的多樣性樣例
圖1中的的三個高質(zhì)量侯選和侯選的詞匯重疊甚至是語義完全是不相關(guān)的,如果采用BLEU等基于參考的指標(biāo)會得到和人工完全不一致的評價。因此以往的文本生成paper中人工評價占了重要的一部分。智能的盡頭是人工。
ChatGPT展示出的強大的文本理解和生成能力,讓眾多研究者看到了曙光,諸如ChatGPT等類似的LLMs(大語言模型)是否可以取代人工評價?以后的文本生成是否可以完全由LLMs來評價?一些初步的研究表明基于ChatGPT等LLMs的無參考驗證器確實可以取得和人工更好的一致性。以下是作者在Topical-Chat benchmark做的一些評價,指標(biāo)分別是Pearson correlation和Spearman correlation。
圖2:常用指標(biāo)在Topical-Chat的性能
基于LLMs的無參考驗證器和傳統(tǒng)的指標(biāo)相比完全具有壓倒性優(yōu)勢,即便是一些比較?。ó?dāng)然也不太小,都是B級別參數(shù)量)的模型也有明顯的優(yōu)勢。但是實際情況是否如此?
我想大家肯定發(fā)現(xiàn)了ChatGPT一本正經(jīng)胡說八道的情況。通常是在涉及一些事實性問題的時候,ChatGPT會虛構(gòu)一些看起來很專業(yè)的虛假答案。作者的日常對話經(jīng)常涉及一些背景知識,ChatGPT等模型如此優(yōu)異表現(xiàn)讓人難以置信。因此作者對目前對話領(lǐng)域使用的元驗證數(shù)據(jù)集Topical-Chat和PersonaChat進(jìn)行了調(diào)研,發(fā)現(xiàn)這兩個數(shù)據(jù)集(每個數(shù)據(jù)集各有60條數(shù)據(jù))基本不涉及事實性問題。作者認(rèn)為在這樣的數(shù)據(jù)集上的評估是不全面的。為方便對比作者將回復(fù)語義具有唯一性的樣例稱為封閉型樣例,而回復(fù)語義比較開放的樣例稱為開放型樣例。作者基于KdConv和DSTC7-ADSV構(gòu)建了KdConv-ADV和DSTC7-ADV元對抗驗證數(shù)據(jù)集。數(shù)據(jù)集統(tǒng)計信息如下圖3:
圖3:數(shù)據(jù)集統(tǒng)計
KdConv-ADV和DSTC7-ADV數(shù)據(jù)集包含了大量的封閉型樣例以及作者構(gòu)建的對抗性樣例。其中KdConv-ADV數(shù)據(jù)集作者從原始數(shù)據(jù)中挑選了91條以特定地點、時間等為回復(fù)的樣例作為封閉型樣例,對于這些樣例作者根據(jù)參考生成了三個對抗性侯選,對抗性侯選都是與事實矛盾不一致的回復(fù)。同時又挑選了等量的數(shù)據(jù)作為開放型樣例,對于這些數(shù)據(jù)生成了三個合理均是合理回復(fù)。這些數(shù)據(jù)一起構(gòu)成了KdConv-ADV數(shù)據(jù)集。作者認(rèn)為DSTC7-AVSD是以視頻內(nèi)容為前提的問答數(shù)據(jù)集,基本上全部屬于封閉型樣例,而且每條原始樣例提供了6條語義相同,表述不同的侯選回復(fù)。作者從中挑選了342條數(shù)據(jù),基于342條數(shù)據(jù)作者將對應(yīng)的語義進(jìn)行反轉(zhuǎn)構(gòu)建了對應(yīng)了對抗性侯選,原始數(shù)據(jù)和對抗數(shù)據(jù)一起組成了DSTC7-ADV數(shù)據(jù)。
作者認(rèn)為為所有數(shù)據(jù)都提供準(zhǔn)確的知識是很困難的,真實情況下的說話者往往具有不同的知識背景,多數(shù)的對話數(shù)據(jù)需要一定的知識背景,因此作為評估對話回復(fù)質(zhì)量的驗證器自身應(yīng)該具備一定的知識和運用知識的能力。所以作者用KdConv-ADV模擬沒有外部知識的情況,在驗證過程中沒有使用對應(yīng)的知識庫;而DSTC7-ADV則用來模擬給定知識(這里的知識是視頻描述)的條件下驗證器運用知識的能力。作者總結(jié)了兩個數(shù)據(jù)的特點。其中KdConv-ADV:i)侯選和參考低詞匯重疊;ii)低詞匯重疊度對應(yīng)的侯選不一定的是低質(zhì)量的回復(fù);iii) 驗證器自身應(yīng)該擁有一定的知識。DSTC7-ADV:i)侯選和參考之前高詞匯重疊;ii)高詞匯重疊對應(yīng)的侯選不一定是高質(zhì)量的;iii) 驗證器運用知識的能力。圖4給出了構(gòu)建的兩個數(shù)據(jù)集的樣例。
圖4:KdConv-ADV(左)和DSTC7-ADV(右)數(shù)據(jù)樣例,不合理的分?jǐn)?shù)用紅顏色標(biāo)出
作者分析了基于參考的指標(biāo)在兩個數(shù)據(jù)集的分?jǐn)?shù)分布如圖5所示,可以明顯看出KdConv-ADV分值偏低,這也說明了侯選和參考對應(yīng)的詞匯重疊度較低的情況。
圖5:基于參考的指標(biāo)分值分布(左KdConv-ADV,右DSTC7-ADV)
作者在新構(gòu)建的數(shù)據(jù)集上對常用的指標(biāo)進(jìn)行了驗證(圖6,圖7):
圖6:常用指標(biāo)在DSTC7-ADV的性能
圖7:常用指標(biāo)在KdConv-ADV的性能
非常有趣的現(xiàn)象無參考驗證器在DSTC7-ADV上表現(xiàn)表現(xiàn)出色卻在KdConv-ADV表現(xiàn)平平。為了分析其中原因作者以ChatGPT為例,分析了ChatGPT的分值分布情況如圖8所示:
圖8:ChatGPT在數(shù)據(jù)集DSTC7-ADV(上)和KdConv-ADV(下)的分值分布
從分值分布看,ChatGPT在DSTC7-ADV數(shù)據(jù)集上的分值比 在KdConv-ADV更有區(qū)分度,除了數(shù)據(jù)自身的原因外,DSTC7-ADV的知識也起到了一定的作用。這也從側(cè)面說明LLMs所蘊含的知識是有限的。除此 之外,作者分析了ChatGPT在不同類型樣例上的 性能如圖9-10所示:
圖9:不同指標(biāo)在DSTC7-ADV對抗樣本的性能
圖10:不同指標(biāo)在DSTC7-ADV原始樣本(封閉型)的性能
對比圖7和圖8可以發(fā)現(xiàn),基于LLMs的無參考驗證器在對抗性樣本上和人工的一致性明顯比原始樣本低,甚至低于傳統(tǒng)的基于參考的驗證器。類似的情況也同樣發(fā)生在KdConv數(shù)據(jù)集上。作者認(rèn)為LLMs的分?jǐn)?shù)的區(qū)分度、自身的知識缺陷、運用知識的能力等方面仍然有較大的提升空間,目前的LLMs作為對話回復(fù)質(zhì)量的評估器仍然存在很大的問題。從圖4的案例中可以看出ChatGPT這樣的模型在對抗樣例上有更大的概率給出不合理的評價,對于在KdConv-ADV中的一些虛構(gòu)信息沒有識別能力,對在DSTC-ADV數(shù)據(jù)上和上下文矛盾的回復(fù)給出的分?jǐn)?shù)區(qū)分度較小??傊夯贚LMs的無參考驗證器仍然有很多的不足。