最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

行業(yè)技術(shù) | LLMs能否替代人工評價作為對話生成質(zhì)量的評估器?

2023-06-15 17:33 作者:翻譯技術(shù)點津  | 我要投稿


MLNLP社區(qū)是國內(nèi)外知名的機器學(xué)習(xí)與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理,機器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。

Paper: https://arxiv.org/pdf/2305.14658.pdf

Datasets: https://github.com/misonsky/DialogADV

在文本生成領(lǐng)域,傳統(tǒng)的基于參考的指標(biāo)一直被研究者所詬病,尤其是生成文本多樣性比較強的任務(wù),比如對話生成任務(wù)。對話生成任務(wù)中,不同的對話歷史可以有很多合理的回復(fù),而同一個響應(yīng)又可以作為不同對話上下文的回復(fù),這導(dǎo)致了諸如BLEU、ROUGE、METEOR等指標(biāo)無法準(zhǔn)確反應(yīng)生成回復(fù)的質(zhì)量。顧名思義,基于參考的指標(biāo)只有和參考文本高度相似的時候才會被認(rèn)為是高質(zhì)量。然而在對話生成領(lǐng)域(當(dāng)然其它的文本生成領(lǐng)域也有類似問題),存在大量在詞匯級別可能和參考完全沒有重疊的侯選,實際是高質(zhì)量的回復(fù)。比如下面的樣例:


圖1:對話回復(fù)的多樣性樣例

圖1中的的三個高質(zhì)量侯選和侯選的詞匯重疊甚至是語義完全是不相關(guān)的,如果采用BLEU等基于參考的指標(biāo)會得到和人工完全不一致的評價。因此以往的文本生成paper中人工評價占了重要的一部分。智能的盡頭是人工。

ChatGPT展示出的強大的文本理解和生成能力,讓眾多研究者看到了曙光,諸如ChatGPT等類似的LLMs(大語言模型)是否可以取代人工評價?以后的文本生成是否可以完全由LLMs來評價?一些初步的研究表明基于ChatGPT等LLMs的無參考驗證器確實可以取得和人工更好的一致性。以下是作者在Topical-Chat benchmark做的一些評價,指標(biāo)分別是Pearson correlation和Spearman correlation。


圖2:常用指標(biāo)在Topical-Chat的性能

基于LLMs的無參考驗證器和傳統(tǒng)的指標(biāo)相比完全具有壓倒性優(yōu)勢,即便是一些比較?。ó?dāng)然也不太小,都是B級別參數(shù)量)的模型也有明顯的優(yōu)勢。但是實際情況是否如此?

我想大家肯定發(fā)現(xiàn)了ChatGPT一本正經(jīng)胡說八道的情況。通常是在涉及一些事實性問題的時候,ChatGPT會虛構(gòu)一些看起來很專業(yè)的虛假答案。作者的日常對話經(jīng)常涉及一些背景知識,ChatGPT等模型如此優(yōu)異表現(xiàn)讓人難以置信。因此作者對目前對話領(lǐng)域使用的元驗證數(shù)據(jù)集Topical-Chat和PersonaChat進(jìn)行了調(diào)研,發(fā)現(xiàn)這兩個數(shù)據(jù)集(每個數(shù)據(jù)集各有60條數(shù)據(jù))基本不涉及事實性問題。作者認(rèn)為在這樣的數(shù)據(jù)集上的評估是不全面的。為方便對比作者將回復(fù)語義具有唯一性的樣例稱為封閉型樣例,而回復(fù)語義比較開放的樣例稱為開放型樣例。作者基于KdConv和DSTC7-ADSV構(gòu)建了KdConv-ADV和DSTC7-ADV元對抗驗證數(shù)據(jù)集。數(shù)據(jù)集統(tǒng)計信息如下圖3:


圖3:數(shù)據(jù)集統(tǒng)計

KdConv-ADV和DSTC7-ADV數(shù)據(jù)集包含了大量的封閉型樣例以及作者構(gòu)建的對抗性樣例。其中KdConv-ADV數(shù)據(jù)集作者從原始數(shù)據(jù)中挑選了91條以特定地點、時間等為回復(fù)的樣例作為封閉型樣例,對于這些樣例作者根據(jù)參考生成了三個對抗性侯選,對抗性侯選都是與事實矛盾不一致的回復(fù)。同時又挑選了等量的數(shù)據(jù)作為開放型樣例,對于這些數(shù)據(jù)生成了三個合理均是合理回復(fù)。這些數(shù)據(jù)一起構(gòu)成了KdConv-ADV數(shù)據(jù)集。作者認(rèn)為DSTC7-AVSD是以視頻內(nèi)容為前提的問答數(shù)據(jù)集,基本上全部屬于封閉型樣例,而且每條原始樣例提供了6條語義相同,表述不同的侯選回復(fù)。作者從中挑選了342條數(shù)據(jù),基于342條數(shù)據(jù)作者將對應(yīng)的語義進(jìn)行反轉(zhuǎn)構(gòu)建了對應(yīng)了對抗性侯選,原始數(shù)據(jù)和對抗數(shù)據(jù)一起組成了DSTC7-ADV數(shù)據(jù)。

作者認(rèn)為為所有數(shù)據(jù)都提供準(zhǔn)確的知識是很困難的,真實情況下的說話者往往具有不同的知識背景,多數(shù)的對話數(shù)據(jù)需要一定的知識背景,因此作為評估對話回復(fù)質(zhì)量的驗證器自身應(yīng)該具備一定的知識和運用知識的能力。所以作者用KdConv-ADV模擬沒有外部知識的情況,在驗證過程中沒有使用對應(yīng)的知識庫;而DSTC7-ADV則用來模擬給定知識(這里的知識是視頻描述)的條件下驗證器運用知識的能力。作者總結(jié)了兩個數(shù)據(jù)的特點。其中KdConv-ADV:i)侯選和參考低詞匯重疊;ii)低詞匯重疊度對應(yīng)的侯選不一定的是低質(zhì)量的回復(fù);iii) 驗證器自身應(yīng)該擁有一定的知識。DSTC7-ADV:i)侯選和參考之前高詞匯重疊;ii)高詞匯重疊對應(yīng)的侯選不一定是高質(zhì)量的;iii) 驗證器運用知識的能力。圖4給出了構(gòu)建的兩個數(shù)據(jù)集的樣例。


圖4:KdConv-ADV(左)和DSTC7-ADV(右)數(shù)據(jù)樣例,不合理的分?jǐn)?shù)用紅顏色標(biāo)出

作者分析了基于參考的指標(biāo)在兩個數(shù)據(jù)集的分?jǐn)?shù)分布如圖5所示,可以明顯看出KdConv-ADV分值偏低,這也說明了侯選和參考對應(yīng)的詞匯重疊度較低的情況。


圖5:基于參考的指標(biāo)分值分布(左KdConv-ADV,右DSTC7-ADV)

作者在新構(gòu)建的數(shù)據(jù)集上對常用的指標(biāo)進(jìn)行了驗證(圖6,圖7):


圖6:常用指標(biāo)在DSTC7-ADV的性能


圖7:常用指標(biāo)在KdConv-ADV的性能

非常有趣的現(xiàn)象無參考驗證器在DSTC7-ADV上表現(xiàn)表現(xiàn)出色卻在KdConv-ADV表現(xiàn)平平。為了分析其中原因作者以ChatGPT為例,分析了ChatGPT的分值分布情況如圖8所示:


圖8:ChatGPT在數(shù)據(jù)集DSTC7-ADV(上)和KdConv-ADV(下)的分值分布

從分值分布看,ChatGPT在DSTC7-ADV數(shù)據(jù)集上的分值比 在KdConv-ADV更有區(qū)分度,除了數(shù)據(jù)自身的原因外,DSTC7-ADV的知識也起到了一定的作用。這也從側(cè)面說明LLMs所蘊含的知識是有限的。除此 之外,作者分析了ChatGPT在不同類型樣例上的 性能如圖9-10所示:


圖9:不同指標(biāo)在DSTC7-ADV對抗樣本的性能


a'a'a'aaaaaaa'a'a'aaaaaaaa'a'a'a'a'a'a'a'a'a'a'aaaaaaaaaaaaaaaa'a'aaaa

圖10:不同指標(biāo)在DSTC7-ADV原始樣本(封閉型)的性能

對比圖7和圖8可以發(fā)現(xiàn),基于LLMs的無參考驗證器在對抗性樣本上和人工的一致性明顯比原始樣本低,甚至低于傳統(tǒng)的基于參考的驗證器。類似的情況也同樣發(fā)生在KdConv數(shù)據(jù)集上。作者認(rèn)為LLMs的分?jǐn)?shù)的區(qū)分度、自身的知識缺陷、運用知識的能力等方面仍然有較大的提升空間,目前的LLMs作為對話回復(fù)質(zhì)量的評估器仍然存在很大的問題。從圖4的案例中可以看出ChatGPT這樣的模型在對抗樣例上有更大的概率給出不合理的評價,對于在KdConv-ADV中的一些虛構(gòu)信息沒有識別能力,對在DSTC-ADV數(shù)據(jù)上和上下文矛盾的回復(fù)給出的分?jǐn)?shù)區(qū)分度較小??傊夯贚LMs的無參考驗證器仍然有很多的不足。


聲明:本公眾號轉(zhuǎn)載此文章是出于傳播行業(yè)資訊、洞見之目的,如有侵犯到您的合法權(quán)益,請致信:chongchong@lingotek.cn,我們將及時調(diào)整處理。謝謝支持!



本文轉(zhuǎn)載自:機器學(xué)習(xí)算法與自然語言處理公眾號
轉(zhuǎn)載編輯:Amelia

行業(yè)技術(shù) | LLMs能否替代人工評價作為對話生成質(zhì)量的評估器?的評論 (共 條)

分享到微博請遵守國家法律
峨边| 江陵县| 芜湖市| 宁德市| 灵山县| 上思县| 西乡县| 渭源县| 逊克县| 黑河市| 眉山市| 连城县| 宁远县| 凤城市| 岫岩| 和平县| 德兴市| 昌平区| 通州区| 长宁区| 西安市| 蚌埠市| 同仁县| 简阳市| 江口县| 奉贤区| 咸阳市| 比如县| 珠海市| 九龙县| 山阴县| 正蓝旗| 安化县| 西盟| 洛浦县| 梅河口市| 隆尧县| 遵义市| 兴化市| 彩票| 乌兰察布市|