最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

HELM 全面語言模型評測【論文精讀·50】

2023-02-08 14:16 作者:璃花晝  | 我要投稿

?
03:16
?

Holistic Evaluation of Language Models 語言模型的整體評估

語言模型現(xiàn)在是語言技術(shù)的基石,但是它的能力局限性風(fēng)險(xiǎn)并沒有被完全理解。本文的貢獻(xiàn):

1、將潛在的應(yīng)用場景和評估手段進(jìn)行分類。

2、采用多指標(biāo)方法,在16個(gè)核心場景評測7個(gè)指標(biāo)。

3、在42個(gè)場景對30個(gè)語言模型進(jìn)行了大規(guī)模的評估。


?
15:00
?

任何文本的應(yīng)用場景分為以下三塊:

1、任務(wù) (task)

例如問答、摘要、情感分析、信息檢索等。

2、領(lǐng)域 (domain),細(xì)分為以下三個(gè)因素:

What,文本來自什么領(lǐng)域,例如維基百科、電影評論、新聞、社交媒體等。

Who,用戶來自什么領(lǐng)域,例如網(wǎng)絡(luò)用戶、性別、種族、年齡等。

When,文本生成的時(shí)間。

3、語言 (language)

文本的使用語言。


場景主要來自于各種會議論文中的分類標(biāo)簽,由于發(fā)展速度非常快,很難包含最新的任務(wù)。以下是從中選取的核心場景

1、問答 (Question answering)

輸入:一個(gè)問題,分為開放性問題(問答題)和封閉式問題(選擇題)

輸出:模型給出回答

數(shù)據(jù)集:NaturalQuestions,用戶在Google搜索的問題,并且能在Wikipedia找到答案

Narrative QA,給一段來自書籍或電影的故事然后進(jìn)行提問(閱讀理解)

QuAC,自由問答,更加開放,并依賴于上下文

HellaSwag,測試常識推理

OpenBookQA,基礎(chǔ)科學(xué)題(中小學(xué)試題)

TruthfulQA,來自GPT3回答錯誤的問題,測試模型的真實(shí)性

MMLU,學(xué)科知識(大學(xué)各專業(yè)試題)

BoolQ,是非題

2、信息檢索 (Information retrieval)

給出查詢 q 和文本集 C,在 C 中返回最相關(guān)的 K 段話,并按照相關(guān)性排序。

輸入:將查詢文本 q 和文本集 C 中的一個(gè)段落 ci 送入語言模型

輸出:模型判斷段落 ci 中是否存在查詢 q 的答案,根據(jù)模型對 yes 的預(yù)測概率進(jìn)行排序

數(shù)據(jù)集:MS MARCO,問題 + 多個(gè)已標(biāo)注相關(guān)性排序的回答。

3、摘要 (Summarization)

評估模型的抽象概括能力,而不是抽取文本能力

輸入:一段文檔

輸出:摘要

數(shù)據(jù)集:CNN,美國有線電視新聞網(wǎng)

DailyMail,每日郵報(bào)

XSUM,從CNN的文章中根據(jù)html標(biāo)簽找一個(gè)很簡短的概括

4、情感分析 (Sentiment analysis)

輸入:一段評價(jià),例如影評

輸出:判斷是積極還是消極

數(shù)據(jù)集:IMDB,互聯(lián)網(wǎng)電影數(shù)據(jù)集

5、毒性檢測 (Toxicity detection)

輸入:一段話

輸出:判斷是否有毒

數(shù)據(jù)集:CivilComments,用戶對新聞的留言,并給出數(shù)值在 0 到 1 之間的有毒性標(biāo)注

6、雜項(xiàng)文本分類 (Miscellaneous text classification)

輸入:一段文本

輸出:分類標(biāo)簽,這里的標(biāo)簽是多種多樣的。

數(shù)據(jù)集:RAFT,多種文本分類標(biāo)簽


?
33:07
?

評估時(shí)優(yōu)先考慮可擴(kuò)展性,采用基于擾動(perturbation-based)的方法。評估應(yīng)該與特定的場景無關(guān),例如評估公平性時(shí),不一定能知道文本數(shù)據(jù)是來自什么種族、性別,因此將性別這種詞換掉后再去評估公平性。

經(jīng)過篩選后產(chǎn)生了以下 7 種指標(biāo):

1、精度 (Accuracy)

不同場景有不同的精度評判指標(biāo)。

1.1 一般情況

Exect match,精確匹配,需要和標(biāo)準(zhǔn)答案完全一樣,例如選擇題、是非題和一些簡單的問答題。

Quasi-exect match,準(zhǔn)精確匹配,允許和標(biāo)準(zhǔn)答案有一些變換,例如進(jìn)行大小寫變換后能夠精確匹配。

F1-Score,精確率和召回率的調(diào)和平均數(shù)。

例如:將模型輸出和標(biāo)準(zhǔn)答案都進(jìn)行分詞轉(zhuǎn)換為兩個(gè)字符串?dāng)?shù)組:

標(biāo)準(zhǔn)答案:['練習(xí)', '時(shí)長', '兩年半', '的', '練習(xí)生']

模型輸出:['練習(xí)生', '練習(xí)', '兩年半', '了']

判斷兩個(gè)數(shù)組的每個(gè)詞是否在另一個(gè)數(shù)組中存在,就可以得到:

真陽性(TP):模型輸出并且在標(biāo)準(zhǔn)答案中的詞語數(shù)量。這里是3個(gè):練習(xí)生、練習(xí)、兩年半。

假陽性(FP):模型輸出但不在標(biāo)準(zhǔn)答案中的詞語數(shù)量。這里是1個(gè):了。

假陰性(FN):模型未輸出并且在標(biāo)準(zhǔn)答案中的詞語數(shù)量。這里是2個(gè):時(shí)長、的。

然后計(jì)算精確率和召回率:

精確率(Precision)TP / (TP + FP)=0.75

召回率(Recall)TP / (TP + FN)=0.6

最后就可以計(jì)算F-Score了:

當(dāng)β=1時(shí)就是F1-Score:

F1-Score= 2 * (Precision * Recall) / (Precision + Recall) = 2*(0.75*0.6)/(0.75+0.6) = 2/3

1.2 信息檢索

RR@K,取決于最相關(guān)文檔的排序 (rank) 的倒數(shù) (reciprocal)

例如:最相關(guān)的文檔(排序應(yīng)該是1),模型給出的排序是rank,如果rank小于等于指定的K,得分為1/rank,即模型給出越接近真實(shí)排序1則得分會越高。如果rank大于K,則得分為0。

NDCG@K,Normalized Discounted Cumulative Gain, 歸一化折損累計(jì)增益。

例如:每次給出模型排名最前的K個(gè)文檔,di表示排序在第i位的文檔,對每個(gè)di根據(jù)排序給出一個(gè)分?jǐn)?shù)graded_relevance(di),然后把這K個(gè)分?jǐn)?shù)相加,就得到CG分(Cumulative Gain)。

接下來根據(jù)排序進(jìn)行折扣(Discounted),也就是除以log(i+1),得到DCG,這里i越小則會除以較小的值,也就是說排在前面的分?jǐn)?shù)能夠越高越好。

最后再加一個(gè)Normalize,按照真實(shí)排序得到文檔的分?jǐn)?shù)并計(jì)算DCG,就會得到一個(gè)分?jǐn)?shù)的上限,將DCG分?jǐn)?shù)除以這個(gè)上限分?jǐn)?shù)就會得到小于等于1的NDCG分?jǐn)?shù),NDCG分?jǐn)?shù)越接近1,表示與最優(yōu)排序越接近。

1.3 摘要

ROUGE-2,Recall-Oriented Understudy for Gisting Evaluation,通過詞的重疊進(jìn)行評估。

例如:假設(shè)標(biāo)準(zhǔn)答案注的摘要是"今天天氣真好",模型輸出是"今天好天氣",ROUGE-2則是將每2個(gè)連續(xù)的字取出形成集合:

標(biāo)準(zhǔn)答案:['今天', '天天', '天氣', '氣真', '真好']

模型輸出:['今天', '天好', '好天', '天氣]

這里標(biāo)準(zhǔn)答案共5個(gè)詞,模型輸出包含了其中2個(gè)詞,那么ROUGE-2分?jǐn)?shù)就是0.4。

1.4 語言

BPB,Bilingual Evaluation Understudy,一般是用來評估兩種語言之間的機(jī)器翻譯效果,通過計(jì)算每一個(gè)翻譯結(jié)果的單詞與真實(shí)翻譯的單詞的匹配情況,然后對匹配的單詞數(shù)量與翻譯結(jié)果總單詞數(shù)進(jìn)行比較,計(jì)算出百分比作為BPB分?jǐn)?shù)。

1.5 推理

F1 (set match),F(xiàn)1分?jǐn)?shù)

Exact match (up to specified indicator),精確匹配(到指定目標(biāo))

Code,代碼評估是測試通過單元測試的個(gè)數(shù)

Equivalent,等價(jià),評估結(jié)果在數(shù)學(xué)上是否等價(jià)

Equivalent (chain-of-thought),等價(jià)(思維鏈)


2、校準(zhǔn)和不確定性 (Calibration and uncertainty)

校準(zhǔn)和表達(dá)模型的不確定性表達(dá)對于系統(tǒng)在高風(fēng)險(xiǎn)環(huán)境下的部署尤為關(guān)鍵。例如:篩選簡歷時(shí),一個(gè)簡歷在通過和不通過附近,通過概率是50%,此時(shí)需要人為干預(yù)更合適一些,以避免潛在的錯誤。

模型被校準(zhǔn)過的意思是,它預(yù)測出來的概率是有意義的。例如:模型對有毒性進(jìn)行分類,1000個(gè)句子的輸出都是0.7,那么就應(yīng)該意味著這1000個(gè)句子有70%是有毒的,0.7是真實(shí)反映了概率。

期望校準(zhǔn)誤差(ECE,Expected Calibration Error),將模型預(yù)測結(jié)果分為若干個(gè)組(bins),統(tǒng)計(jì)每個(gè)組的準(zhǔn)確率Accuracy和預(yù)測概率的平均值Prob的差距bin error,將每個(gè)bin的bin error作為權(quán)重乘以每個(gè)bin對應(yīng)的大小,得到ECE。例如:

選擇性分類精度(Selective classification accuracy),在模型預(yù)測的結(jié)果中選擇預(yù)測值最大的百分之C個(gè)值,計(jì)算這些高置信度樣本的分類精度。例如:

選擇性分類精度中,更關(guān)心的是排序,即使原始的概率不對,但只要順序是對的,那么這個(gè)精度也會比較高。


3、穩(wěn)健性 (Robustness)

真實(shí)環(huán)境中,用戶的輸入是千奇百怪的,穩(wěn)健性則是判斷在模型的輸入有變化時(shí)是否能夠保持正確的輸出。對輸入的改變有以下兩種:

invariance,較小的、保留語義的干擾。例如:大小寫變化、常見的拼寫錯誤。

equivariance,改變語義的干擾。例如:將IMDB中一條負(fù)面的評論修改幾個(gè)詞變?yōu)檎嬖u論。


4、公平性 (Fairness)

反事實(shí)的公平(Counterfactual fairness),將文本中某些人的性別或者種族變換,評估模型的結(jié)果表現(xiàn)是否會不一樣。例如:將一段話中的He全部轉(zhuǎn)換為She。

性能的差距(Performance disparities),評估不同社會群體中模型的精度區(qū)別。例如:早期人臉識別中對黑人的分辨率會低一些。


5、偏見和刻板印象 (Bias and stereotypes)

評估模型生成的結(jié)果是否過多的偏向于某一些社會群體。

1、會不會特意消除或過度的表示某一些社會群體。

2、某些職業(yè)是否和某些群體有更強(qiáng)的關(guān)系。


6、有毒性 (Toxicity)

在輸入正常的情況下,模型也有可能會生成有毒的輸出,會導(dǎo)致用戶體驗(yàn)不好,甚至產(chǎn)生公關(guān)上的問題。

評估方法:將模型的輸出送入Perspective API看效果


7、效率 (Efficiency)

1、訓(xùn)練效率

考慮訓(xùn)練時(shí)消耗的能源和產(chǎn)生的碳排放,這個(gè)只是做一個(gè)簡單的估算。

消耗能源計(jì)算公式:GPU數(shù)量 * GPU的瓦數(shù) * 訓(xùn)練時(shí)長 * PUE

PUE: Power Usage Effectiveness,電源使用效率

2、推理效率

計(jì)算模型運(yùn)行花費(fèi)的時(shí)間,有兩種衡量標(biāo)準(zhǔn):

Denoised inference runtime,不能直接訪問模型時(shí),可以直接調(diào)用API,好處是方便,壞處是精度包含了整個(gè)系統(tǒng)的耗時(shí)。

Idealized inference runtime,可以直接訪問模型時(shí),可以在同一個(gè)GPU上測試不同的模型,更加公平。


?
55:17
?

對一個(gè)語音模型而言,應(yīng)該從哪幾個(gè)方面進(jìn)行衡量,結(jié)合場景、任務(wù)、數(shù)據(jù)集進(jìn)行評估。

1、語言

評估模型的建模能力,兩個(gè)小任務(wù):

1)給出和訓(xùn)練集差不多的文本,讓模型計(jì)算損失。

2)給出一個(gè)句子,把其中一個(gè)token變換(這個(gè)變換是不可接受的),那么對于語言模型來說,應(yīng)該給原始句子高概率,給變換后不可接受的句子低概率。例如:

A、The cats annoy Tim.

B、The cats annoys Tim.

2、知識類

問答和補(bǔ)全兩種模式。

例如:法國的首都是什么?

法國的首都是_____

3、推理

數(shù)學(xué)推理

代碼分析

法律推理,判斷觀點(diǎn)是由哪些證據(jù)支撐。

邏輯推理,法律學(xué)校入學(xué)考試題。

結(jié)構(gòu)數(shù)據(jù)推理,例如:給兩行數(shù)據(jù),判斷是不是指同一個(gè)物體。給一個(gè)缺失數(shù)據(jù)的表,對其進(jìn)行補(bǔ)全。

4、版權(quán)

評估模型是否記住了有版權(quán)的數(shù)據(jù)。例如:從一些有版權(quán)的書中選一些句子送給語言模型,看輸出是否是復(fù)制原文的。給出GPL協(xié)議的一些代碼,看模型是否記住了這類協(xié)議代碼的內(nèi)容。

5、虛假信息

6、有毒性


?
58:48
?


?
01:04:09
?

通過修改promt,加上5個(gè)樣例,將語言模型拓展到需要評估的任務(wù)上去。

例如:想讓語言模型做一個(gè)多選題,則需要給出5個(gè)【問題+選項(xiàng)+答案】的組合,然后再給出【問題+選項(xiàng)】,讓模型輸出【答案】

語言模型、問答、摘要三個(gè)任務(wù)的promt設(shè)計(jì)比對:


?
01:07:43
?

精度和校準(zhǔn)錯誤、偏差、有毒性、測試時(shí)間沒有特別強(qiáng)的關(guān)系,和穩(wěn)健性、公平性有很強(qiáng)關(guān)系。


?
01:21:01
?

在應(yīng)用場景、指標(biāo)、目標(biāo)評估、模型、適應(yīng)性等方面評估的缺失。













HELM 全面語言模型評測【論文精讀·50】的評論 (共 條)

分享到微博請遵守國家法律
新竹市| 喀喇沁旗| 康平县| 青神县| 灵璧县| 屏东市| 杭州市| 龙山县| 灵丘县| 宜州市| 江陵县| 新兴县| 阿鲁科尔沁旗| 将乐县| 木里| 兴和县| 峨山| 忻州市| 潞西市| 邢台县| 来宾市| 晴隆县| 广西| 包头市| 新密市| 石河子市| 平南县| 库车县| 大同县| 竹北市| 新龙县| 蒙自县| 灵寿县| 新营市| 洪泽县| 佛坪县| 花莲县| 老河口市| 陇川县| 股票| 榆树市|