如何評(píng)估大語(yǔ)言模型

大家可以使用 Hugging Face Space 上的 Evaluation on the Hub 應(yīng)用在零樣本分類任務(wù)上評(píng)估大語(yǔ)言模型啦!
Evaluation on the Hub:
https://hf.co/spaces/autoevaluate/model-evaluator
零樣本評(píng)估是研究人員衡量大語(yǔ)言模型性能的一種流行方法。因?yàn)榇笳Z(yǔ)言模型已經(jīng)在訓(xùn)練過程中 顯示 出了對(duì)無(wú)標(biāo)注數(shù)據(jù)的學(xué)習(xí)能力。反向縮放獎(jiǎng) 是近期社區(qū)的一項(xiàng)工作,通過在各種尺寸和結(jié)構(gòu)的模型上進(jìn)行大規(guī)模零樣本評(píng)估,以發(fā)現(xiàn)哪些大模型的表現(xiàn)比小模型還差。
《大語(yǔ)言模型是小樣本學(xué)習(xí)者》論文:
https://arxiv.org/abs/2005.14165反向縮放獎(jiǎng)項(xiàng)目地址:
https://github.com/inverse-scaling/prize

在 Hub 上零樣本評(píng)估語(yǔ)言模型
Evaluation on the Hub 無(wú)需編寫代碼即可幫助你評(píng)估 Hub 上的任何模型,這個(gè)能力是由 AutoTrain 賦予的。現(xiàn)在,Hub 上的任何因果語(yǔ)言模型都可以以零樣本的方式進(jìn)行評(píng)估。零樣本評(píng)估會(huì)度量訓(xùn)得的模型生成一組特定補(bǔ)全詞的可能性,且不需要任何標(biāo)注訓(xùn)練數(shù)據(jù),這使得研究人員可以跳過昂貴的標(biāo)注工作。
分享在 Hub 上評(píng)估模型的博文地址:
https://hf.co/blog/eval-on-the-hubAutoTrain:
https://hf.co/autotrain
我們已經(jīng)為該項(xiàng)目升級(jí)了 AutoTrain 基礎(chǔ)設(shè)施,使之可以免費(fèi)評(píng)估大模型??!用戶弄清楚如何自己編寫可用于 GPU 執(zhí)行的評(píng)估再運(yùn)行該代碼去評(píng)估大模型既昂貴又耗時(shí)。例如,一個(gè)具有 660 億參數(shù)的語(yǔ)言模型可能僅加載和編譯就需要 35 分鐘,這使得大模型的評(píng)估只有那些擁有昂貴的基礎(chǔ)設(shè)施和豐富的技術(shù)經(jīng)驗(yàn)的人才能進(jìn)行。通過升級(jí) AutoTrain 基礎(chǔ)設(shè)施,在具有 2000 個(gè)句子的零樣本分類任務(wù)中評(píng)估一個(gè) 660 億參數(shù)的模型需要 3.5 小時(shí),社區(qū)中的任何人都可以完成。Evaluation on the Hub 目前支持評(píng)估的最大模型尺寸為 660 億參數(shù),后面會(huì)支持更大的模型。
零樣本文本分類任務(wù)采用包含一組提示和及其候選補(bǔ)全的數(shù)據(jù)集。在工作時(shí),會(huì)將補(bǔ)全與提示連接起來(lái),并對(duì)每個(gè)補(bǔ)全的對(duì)數(shù)概率求和,然后進(jìn)行歸一化并與正確的補(bǔ)全進(jìn)行比較以最終輸出任務(wù)的準(zhǔn)確性。
在本文中,我們將在 WinoBias 數(shù)據(jù)集上來(lái)評(píng)估各種 OPT 模型在零樣本文本分類任務(wù)上的表現(xiàn),該任務(wù)是一個(gè)度量職業(yè)上的性別偏見的共指任務(wù)。WinoBias 度量一個(gè)模型是否更有可能選擇一個(gè)帶有刻板印象的代詞來(lái)填充一個(gè)提到職業(yè)的句子。我們通過觀察結(jié)果發(fā)現(xiàn),在此任務(wù)上模型效果與模型大小存在 反向縮放,即模型越大越容易產(chǎn)生帶有刻板印象的填充代詞。
WinoBias:
https://uclanlp.github.io/corefBias/overviewOPT:
https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
案例研究: WinoBias 任務(wù)的零樣本評(píng)估
WinoBias 數(shù)據(jù)集已被我們轉(zhuǎn)換成適合零樣本任務(wù)所需的格式,其任務(wù)就是視不同的補(bǔ)全為不同的類 (下圖中的?classes
?列),并進(jìn)行預(yù)測(cè)。每個(gè)補(bǔ)全句的區(qū)別在于代詞不同,而標(biāo)簽 (下圖中的?target
?列) 就是對(duì)應(yīng)職業(yè)的反刻板化補(bǔ)全 (例如,“開發(fā)人員”通常是男性主導(dǎo)的職業(yè),因此“她”就是反刻板化代詞)。有關(guān)示例,請(qǐng)參見參考鏈接。
WinoBias:
https://github.com/uclanlp/corefBias參考鏈接:
https://hf.co/datasets/mathemakitten/winobias_antistereotype_test

接下來(lái),我們可以在?Evaluation on the Hub
?界面上將任務(wù)設(shè)置為?text_zero_shot_classification
,并選擇 winobias 數(shù)據(jù)集 (見下圖),然后選擇我們想要評(píng)估的模型,最后提交評(píng)估任務(wù)!評(píng)估完成后,你將收到電子郵件通知,?autoevaluator
?機(jī)器人會(huì)在模型的 Hub 庫(kù)中新建一個(gè) PR,并把結(jié)果放在這個(gè) PR 里。

下圖是 WinoBias 任務(wù)的結(jié)果,我們發(fā)現(xiàn)較小的模型更有可能生成反刻板化的補(bǔ)全,而較大的模型更有可能學(xué)到文本中性別和職業(yè)之間的刻板化關(guān)聯(lián)。這與其他基準(zhǔn) (例如 BIG-Bench) 的結(jié)果一致,這些基準(zhǔn)也表明更大、更強(qiáng)的模型更有可能在性別、種族、民族、和國(guó)籍問題上形成偏見。另外,之前的工作 也表明較大的模型更有可能產(chǎn)生有毒文本。
BIG-Bench 論文地址:
https://arxiv.org/abs/2206.04615DeepMind 此前的研究分享:
https://www.deepmind.com/publications/scaling-language-models-methods-analysis-insights-from-training-gopher

為每個(gè)人提供更好的研究工具
開放科學(xué)在社區(qū)驅(qū)動(dòng)的工具開發(fā)方面取得了長(zhǎng)足進(jìn)步,例如 EleutherAI 的 語(yǔ)言模型評(píng)估工具 和 BIG-bench 項(xiàng)目,這使得研究人員可以直觀了解最先進(jìn)模型的行為。
語(yǔ)言模型評(píng)估工具:
https://github.com/EleutherAI/lm-evaluation-harnessBIG-bench:
https://github.com/google/BIG-bench
Evaluation on the Hub
?是一種低代碼工具,讓研究人員可以很容易地按照某個(gè)維度 (例如 FLOPS 或模型大小) 比較一組模型的零樣本性能,或者比較在同一語(yǔ)料庫(kù)上訓(xùn)出來(lái)的一組不同的模型的性能。零樣本文本分類任務(wù)非常靈活 —— 任何可以轉(zhuǎn)換成 Winograd 格式的數(shù)據(jù)集 (該格式中要比較的句子間僅有幾個(gè)單詞不同),都可以用于此任務(wù),并可以同時(shí)評(píng)估多個(gè)模型。我們的目標(biāo)是讓研究人員能夠很容易地上傳新數(shù)據(jù)集,并能輕松地在其上對(duì)許多模型進(jìn)行基準(zhǔn)測(cè)試。
一個(gè)可以用該工具解決的研究問題的例子是反向縮放問題: 雖然較大的模型通常在大多數(shù)語(yǔ)言任務(wù)上表現(xiàn)更強(qiáng),但在某些任務(wù)中較大的模型表現(xiàn)反而較差。反向縮放獎(jiǎng) 作為一個(gè)比賽,旨在鼓勵(lì)研究人員去構(gòu)建一些任務(wù),在這些任務(wù)上大模型比小模型表現(xiàn)更差。我們鼓勵(lì)你在自己的任務(wù)上嘗試對(duì)各種尺寸的模型進(jìn)行零樣本評(píng)估!如果你發(fā)現(xiàn)你的任務(wù)效果與模型尺寸的相對(duì)關(guān)系比較有趣,我們可以聊一聊。
向我們提交反饋!
在 Hugging Face,我們很高興能通過我們的持續(xù)工作,讓人人都能訪問到最先進(jìn)的機(jī)器學(xué)習(xí)模型,包括開發(fā)工具,并讓每個(gè)人都能輕松評(píng)估和探究這些模型的行為。我們之前已經(jīng) 強(qiáng)調(diào)過 可保證評(píng)估結(jié)果一致性和可重復(fù)性的標(biāo)準(zhǔn)化模型評(píng)估方法以及使評(píng)估工具人人可訪問的重要性。Evaluation on the Hub 的未來(lái)計(jì)劃包括支持對(duì)其他語(yǔ)言任務(wù)的零樣本評(píng)估,這些任務(wù)可能不適合使用“提示 + 補(bǔ)全”的數(shù)據(jù)格式,同時(shí)我們還會(huì)增加對(duì)更大模型的支持。
分享在 Hub 上評(píng)估模型的博文地址:
https://hf.co/blog/eval-on-the-hub
作為社區(qū)的一部分,向我們提交反饋十分有助于我們的工作!我們很樂意聽取你關(guān)于模型評(píng)估的首要任務(wù)是什么的意見。通過 Hub 社區(qū) 或 論壇 告訴我們吧 !
Hugging Face Hub 社區(qū):
https://hf.co/spaces/autoevaluate/model-evaluator/discussionsHugging Face 論壇:
https://discuss.huggingface.co/
英文原文:
https://hf.co/blog/zero-shot-eval-on-the-hub原文作者: Mathemakitten Helen,Tristan Thrush,Abhishek Thakur,Lewis Tunstall,Douwe Kiela
譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向?yàn)?transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。
審校、排版: zhongdongy (阿東)