HELM 全面語言模型評測【論文精讀·50】

Holistic Evaluation of Language Models
- 語言模型的全面評估
- 論文地址:https://arxiv.org/abs/2211.09110
講解這篇文章的兩個理由
1、大部分可能覺得比較大的語言模型離自己比較遠,訓練一個這類的模型的成本現(xiàn)在基本上在 1000 萬人民幣以上
- 這個和造飛機有點類似,造飛機的成本非常高,只有很少的公司會造飛機,但是飛機造出來之后,大家乘坐的概率還是挺高的,因此了解不同飛機之間的性能、舒適性以及安全性等能夠更好地幫助自己選擇乘坐的機型
- 同樣,做研究或者是做產(chǎn)品的時候也能有助于選擇更好的語言模型
2、這篇文章的篇幅比較長,詳細介紹了這些語言模型能夠應用在自然語言處理的哪些任務上,以及對它做評測時各個評測指標是如何定義的
- 它是一篇很好的介紹性的文章,甚至可以將它作為一篇綜述文章來閱讀
省流版
幾點發(fā)現(xiàn):
1、InstructGPT 在整體任務上面表現(xiàn)是最好的
2、現(xiàn)在這種開源的模型和閉源的商業(yè)模型之間還是有一定的差距的
- 閉源模型通過用戶訪問 API 進行收費(閉源的商業(yè)模型效果更好也在情理之中,否則就沒有必要收費了)
- 開源的模型也在不斷進步,說不定半年之后就能夠和現(xiàn)在這些閉源的模型相媲美了
3、在一個模型中,模型通常來說是越大越好
- 如果在模型之間做比較,如果想在某個領域做得比較好的話,至少需要一個 50B (500 億參數(shù))的模型。大的模型不管是訓練還是部署都會有問題。
4、在用語言模型做各種任務的時候,需要給它一個 prompt ,也就是一個提示,但是所有的語言模型對提示的樣式非常敏感
標題
Holistic Evaluation of Language Models
- 語言模型的評估
- Holistic:全面的、整體的。通常文章使用 comprehensive
作者

- 作者都是來自于斯坦福的作者
- 斯坦福還成立了一個關于 foundation 模型的研究機構(gòu):CRFM
共同一作有三個人:
- Percy Liang 是斯坦福的副教授
- ?04:44?
- 后面的兩位是他的學生
- 這里的一作不是按照姓進行排序的,這里應該是有先有順序的,因此真正的一作就是 Percy Liang
- 這種老板做第一作者的文章其實并不多見,有可能是整篇文章的框架以及寫作都是由老板完成的。這種評測文章將老板放在前面的話多少能夠增加一些整個論文的權威性,不管是評測還是綜述,雖然是一種比較客觀的論文類型,但其實里面還是有很多的主觀性,所以作者能夠?qū)ξ恼碌闹眯哦犬a(chǎn)生比較大的影響
摘要
語言模型現(xiàn)在已經(jīng)成為所有主要語言技術的基石,但是它的能力、局限性以及風險并沒有被完全的理解
這篇文章的貢獻:
1、它將潛在的應用場景以及評估手段進行了分類,并選取了一小部分做了詳細的評測
2、它做了 7 個評估的指標,包括精度、校準、穩(wěn)健性、公平性、偏差、有毒性和效率,另外還做了 16 個核心場景的評測
- 之前的文章主要是關于精度和有效性,對于其它的并不是那么關心,這篇文章將每一個尺度都進行了評估
3、它評估了 30 個語言模型,市面上能夠找到的模型基本上都找了,然后在 42 個場景上面做了評估,相對來講比較全面
這篇文章和其它的工作相比,其它工作可能只覆蓋了 17.9% 的場景,這篇文章覆蓋了 96%
- 對于一篇評測文章,如果說自己比其它工作做的好,通常是說自己做的工作更大、更全面,比如評測更多的產(chǎn)品,以及對每個產(chǎn)品評測的內(nèi)容更全面。假設評測是公平的,如果一個評測沒有客觀性和公平性,基本上就沒有什么參考價值了
- 任何的評測都是有時效性的,因此這篇文章發(fā)表之后基本上只能夠代表當時的模型現(xiàn)狀,文章發(fā)表的同時也標志著這篇文章的過時,因為會有新的模型和新的應用場景,里面的結(jié)論過了一段時間之后可能就不成立了
- 看這篇文章的目的主要是要去了解作者是如何做評測的,以及評測了哪些方面,使得在之后讀到相關文章的時候能夠判斷出來文章作者在對自己的模型做實驗的時候,他的評估是不是足夠全面(將他的評測框架帶到這篇文章中看他覆蓋了哪些應用場景)
- 此外,如果未來的工作需要基于某一個語言模型,也可以根據(jù)本文所提到的方法自己進行評測
目錄
- 因為這篇文章篇幅比較長,所以這里放了一個目錄
1、導言
2、背景知識
3、核心的應用場景
- 主要是對 NLP 任務的介紹,比如 QA 、摘要、
4、評估指標
- 精度
- 公平性
5、對于一個語言模型需要評估哪些方面
- 對語言的建模
- 對知識的抽取
- 推理
- 如果訓練數(shù)據(jù)中存在版權數(shù)據(jù)的話,會不會將這些版權數(shù)據(jù)原封不動地返回
- 語言模型是不是一本正經(jīng)地說假話
- 偏見
- 有毒性
6、選取的模型
7、實驗設置
- 對于一個語言模型,就是預測下一個詞,但是對于不同的任務,會有不同的要求。所以給定一個語言模型,如何讓它完成不同的任務
- 本文所使用的方法主要是基于 prompt ,最簡單、最靈活,但是效果不一定最好(這也是這篇文章的一點局限性)
剩下的主要講了一些實驗以及局限性,后面還有一個很詳細的附錄(100-158)
一、導言

首先介紹了什么是語言模型,語言模型就是給定一些文字,然后補全剩下的文字
- 對于輸入到語言模型的文字,作者把它叫做 prompt (如果想讓語言模型完成什么任務的時候,可以將這個任務寫成一段話,然后讓語言模型來補全剩下的內(nèi)容)
- prompt 如何設計既能反映任務,又能讓語言模型能夠理解,這當中就有很多的藝術性了
- 語言模型輸出的文字就是語言模型生成的答案
圖 2 講述了這篇文章和之前的文章的區(qū)別

- 之前的文章在做評估的時候,都是拿一些數(shù)據(jù)集然后進行評測
- 這篇文章中,作者對數(shù)據(jù)集進行了歸納總結(jié),這樣就能夠了解自己在評估數(shù)據(jù)集的時候覆蓋面是什么樣的
圖 3 展示了這篇文章相比其他工作好在什么地方

- 別的工作都是在每個數(shù)據(jù)集上比較一些特定的指標
- 本文在不同的數(shù)據(jù)集上對比了 7 個不同的指標
圖 4

- 圖中每一列表示一個語言模型,每一行表示一個評估的數(shù)據(jù)集
- 前面的工作對于每一個模型可能只是評測了一些,本文將填補了這里面的空白,把所有的模型在所有的數(shù)據(jù)集上做了評估
作者的發(fā)現(xiàn)
二、背景知識
三、核心的應用場景
圖 8

作者將應用場景分成了三塊:
1、任務
- 具體來說可以是 QA 、摘要生成、情感分析或者是信息檢索
2、領域
可以分成三個因素:
- 什么樣的文本。維基百科的文本?電影的評論?新聞?還是社交媒體類的文字?
- 文字是誰生成的(文字都是由人類生成的,這些人是誰,未來文字可能是由語言模型生成的,這也是未來要考慮的問題)。網(wǎng)絡用戶?性別?人種?
- 數(shù)據(jù)生成的時間(年份)
3、語言
- 目前來說英語和中文是兩大類語言
所以,對任何的應用場景都可以拆分成為這三大塊,其中領域也能夠分成三小塊
表 1 展示了訓練任務從哪里來的以及這些任務的覆蓋面

任務來自于會議里面的
- 在提交會議文章的時候,需要標記文章所做的 track 中的任務
- 于是作者將 ACL 中的任務全部抽取出來,然后進行了歸類
作者也說,由于最近發(fā)展比較快,就算是去年的學術會議的任務也不一定能夠覆蓋最新的
OpenAI 在官網(wǎng)(https://platform.openai.com/examples/)上列舉了很多任務

其實很多任務在學術會議中是沒有標記出來的,這些任務可能相對來說比較小,或者說可能是一些比較新的任務
對于這篇文章來講,不可能去評估所有這些比較新的小眾的任務,還是需要選擇一些有數(shù)據(jù)集的比較成熟的任務,否則工程量比較大
作者在領域方面詳細講述了
- 什么是 what 、when 和 who
- 文本是在哪里生成的?怎樣生成的?以及為什么要生成這些文本?
在語言上,目前來講最大的兩個語言是中文和英文,這篇文章主要關注的還是英文
作者說他只能選一些來做評估,然后列出了具體選擇了哪些任務來做評估,幾個比較重要的任務:
1、QA(問答)
在日常生活中,問答是用的最多的一種交流方式
通常會將問題分成兩塊:
- 開放性問題:給定一段話(或者不給定一段話,直接拋出一個問題),讓模型給出正確的答案
- 關閉式的問題(選擇題):
- ?19:38?
----to be continued----