基礎(chǔ)大模型能像人類一樣標(biāo)注數(shù)據(jù)嗎?

自從 ChatGPT 出現(xiàn)以來,我們見證了大語言模型 (LLM) 領(lǐng)域前所未有的發(fā)展,尤其是對話類模型,經(jīng)過微調(diào)以后可以根據(jù)給出的提示語 (prompt) 來完成相關(guān)要求和命令。然而,直到如今我們也無法對比這些大模型的性能,因為缺乏一個統(tǒng)一的基準(zhǔn),難以嚴(yán)謹(jǐn)?shù)厝y試它們各自的性能。評測我們發(fā)給它們的指令以及對話模型本身,從本質(zhì)上來講就很困難,畢竟用戶的評價標(biāo)準(zhǔn)都是圍繞對回答的質(zhì)量的主觀感受; 而現(xiàn)有的自然語言處理任務(wù)的性能評價標(biāo)準(zhǔn),卻大多局限于特定指標(biāo)和某些定量標(biāo)準(zhǔn)。
在這一領(lǐng)域,通常當(dāng)一個新的大語言模型發(fā)布時,都會這么宣傳: 我們的模型比在百分之多少的情況下優(yōu)于 ChatGPT。這句話的潛在意思是,模型使用某些基于 GPT-4 的評價標(biāo)準(zhǔn),在百分之多少的情況下優(yōu)于 ChatGPT。這些分?jǐn)?shù)實際想表達(dá)的是一種不同評價標(biāo)準(zhǔn)的代替方案: 由人類打標(biāo)者提供的分?jǐn)?shù)。利用人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 大量提供了對比兩個模型的接口和數(shù)據(jù)。這些從 RLHF 而來的數(shù)據(jù)被用來訓(xùn)練一個獎勵模型,用以評判哪個回答是更好的,但為模型輸出結(jié)果進(jìn)行打分和排名的這一思想已經(jīng)演變成了一種更通用的模型評測工具。
這里我們展示一些示例,分別來自我們的盲測數(shù)據(jù)中的 instruct
和 code-instruct
兩個子集合。


從迭代速度來講,使用一個語言模型去評測模型輸出已經(jīng)十分高效了,但這里遺漏了一個大問題: 有沒有調(diào)研這個下游的快捷工具是否針對原有的評測形式進(jìn)行了校準(zhǔn)對齊。在本文中,我們將會詳細(xì)了解: 通過擴(kuò)展 Open LLM Leaderboard 評測體系,哪些時候你需要相信或不相信你從你選擇的大語言模型中得到的數(shù)據(jù)標(biāo)簽。
現(xiàn)如今,各種排行榜已經(jīng)開始涌現(xiàn),比如 LMSYS 以及 nomic / GPT4All 等,用以從各種角度對比模型。但我們?nèi)孕枰粋€更完整的資源,用以對比模型性能。有些人會使用現(xiàn)有的 NLP 測試基準(zhǔn),看一看提問回答的能力; 還有些人會用一些眾包的、開放式問答的排行榜。為了為大家提供一個更全面通用的評測方法,我們擴(kuò)展了 Hugging Face Open LLM Leaderboard,囊括了各個自動化的學(xué)術(shù)評測基準(zhǔn)、專業(yè)人員的打標(biāo),以及 GPT-4 相關(guān)的評測方法。
目錄
評估開源模型的偏好
相關(guān)工作
GPT-4 評測樣例
更多實驗
要點(diǎn)和討論
資源和引用
評估開源模型的偏好
在訓(xùn)練階段的任何時間點(diǎn),人工組織數(shù)據(jù)的需求從內(nèi)在來看都是成本很高的。迄今為止,在這一領(lǐng)域僅存在少量人工標(biāo)注的偏好數(shù)據(jù)集可以用來訓(xùn)練大模型,例如 Anthropic’s HHH data、OpenAssistant’s dialogue rankings 或是 OpenAI 的 Learning to Summarize / WebGPT 數(shù)據(jù)集。相同的偏好標(biāo)簽也可以用模型輸出獲取,用以構(gòu)建兩兩模型間的 Elo 排序 (Elo 排序 是常用于象棋或游戲中的一種通過兩兩對比構(gòu)建全局排行榜的方法,排名越高越好)。當(dāng)給到標(biāo)注者的文本源是由我們關(guān)注的模型生成時,數(shù)據(jù)就變得很有趣了。
訓(xùn)練模型的過程會發(fā)生很多意想不到的趣事,所以我們需要對各個開源模型做一個更嚴(yán)格的對照實驗,看看偏好收集過程如何轉(zhuǎn)化為當(dāng)今盛行的 GPT-4/ChatGPT 偏好評估,以及與它們的差異對比。
為了這一目的,我們組織了一個指令提示語的集合,以及對應(yīng)的一系列由開源模型 ( Koala 13b、Vicuna 13b、OpenAssistant 12b、Dolly 12b) 完成的補(bǔ)全。

我們從 Self-Instruct 評測集中收集了一系列高質(zhì)量、由人編寫的提示語,同時也從數(shù)據(jù)商那里收集了一些早期的討論類對話數(shù)據(jù),涵蓋了生成、頭腦風(fēng)暴、問答、總結(jié)、常識、編程等各種任務(wù)類別。總共有 327 條覆蓋這些任務(wù)類型的提示語,其中 25 條是編程相關(guān)的。
這里我們列出一些提示語相關(guān)的數(shù)據(jù)統(tǒng)計,包括其句子長度。

借助這些數(shù)據(jù),我們開始使用 Scale AI 和 GPT-4 去評估模型質(zhì)量。我們針對偏好模型使用 Antropic 的方法,并要求打分者去依照利克特 (Likert) 量表打 1 到 8 分。在這個范圍內(nèi),1 分代表打分者相比第一個模型,對當(dāng)前模型有強(qiáng)烈偏好; 4 分表示基本與第一個模型持平; 8 分則代表評價者的觀點(diǎn)與 1 分完全相反。
人工 Elo 結(jié)果
我們與 Scale AI 合作,為一些開源的指令調(diào)教的模型基于我們的盲測集收集了高質(zhì)量的人工標(biāo)注。我們要求標(biāo)注者以一種兩兩對比的形式,針對有用性和真實性對模型的回答打分。為此,我們?yōu)槊總€提示語生成了 個組合對,其中 是我們要評測的模型的數(shù)量。下圖就是一個為人工標(biāo)注者提供的打分頁面,其中包含了給標(biāo)注者發(fā)出的任務(wù)指示 (相關(guān)工具由 Scale AI 提供)。

使用這一數(shù)據(jù),我們依據(jù)兩兩模型間的勝率“自舉地”估算出了 Elo 排序結(jié)果。如果讀者對 Elo 的過程感興趣,可以閱讀 LMSYS 的這篇 notebook,我們盲測集上的 Elo 分?jǐn)?shù)也在 leaderboard 上有列出。
在本文中,我們會展示“自舉”估算 Elo 的方法以及其中的錯誤估算。下表列出了依據(jù)我們盲測集和標(biāo)注人員的排行榜:
**************不含平局的 Elo 排序 (由 1000 輪采樣的對局自舉計算而來) **************

針對利克特量表,打分打到 4 或 5 分是否構(gòu)成一場勝利也很有爭議。所以我們也計算了一個當(dāng) 4 或 5 分表示平局時的 Elo 排序。但基于這一改變,我們并沒有觀察到模型間相互勝負(fù)的太大變化。平局的計數(shù) (每對模型間對局 327 次) 和新的 Elo 排序如下圖所示。每格的數(shù)字代表兩個模型的平局?jǐn)?shù),比如,Koala-13B 和 Vicuna-13B 之間由最多的平局 (96 次),說明它們可能性能非常相近。
注意這張表的讀法: 選取一行,如 oasst-12b
,然后橫向看這個模型和其它各個模型分別有多少場平局。

**************包含平局的 Elo 排序 (由 1000 輪采樣的對局自舉計算而來) **************

下圖統(tǒng)計了打分的分布情況,數(shù)據(jù)來自 Scale AI taskforce。

在本文接下來內(nèi)容中,你還會看到基于不同數(shù)據(jù)生成準(zhǔn)測的相似分析流程。
GPT-4 的 Elo 結(jié)果
接下來我們來看看 GPT-4 如何對比結(jié)果。幾個待評測模型的順序不變,但相對的間隔變了。
不含平局的 Elo 排序 (由 1000 輪采樣的對局自舉計算而來)

包含平局的 Elo 排序 (由 1000 輪采樣的對局自舉計算而來)
提醒一下,利克特 1 到 8 分量表中,4 或 5 分代表平局

為此,我們使用了一個由 FastChat evaluation prompts 改編而來的提示語,以便用較短的句子長度來獲得更快和更低成本的生成結(jié)果 (比如解釋性的話語大多數(shù)時間都舍棄掉了)。
下面基于 GPT-4 關(guān)于回答的柱狀圖開始顯示一個基于大語言模型評測的明顯問題了: 位置偏差 ( positional bias )。哪個模型對應(yīng)上面的 answer_1
是完全隨機(jī)的。

鑒于 GPT-4 評價的不確定性,我們決定加上一個新的評測基準(zhǔn): 高度訓(xùn)練過的人類打標(biāo)者的補(bǔ)全。我們希望知道人類給出的 Elo 排序會是什么樣的。
GPT-4 Elo 結(jié)果及展示
最終,人類給出的 Elo 排序看上去非常令人困惑。很多假設(shè)可以解釋這一點(diǎn),但它最終指向了一個潛在的風(fēng)格優(yōu)勢,這種優(yōu)勢存在于在大語言模型的輸出數(shù)據(jù)上訓(xùn)練的那些模型上 (當(dāng)我們拿 Dolly 做對比時)。這是由于訓(xùn)練和評測方法是并行開發(fā)的,導(dǎo)致了兩者之間的“非故意摻雜”( unintentional doping )。
不含平局的 Elo 排序 (由 1000 輪采樣的對局自舉計算而來)

相關(guān)工作
我們不是唯一指出 GPT-4 不一定是個完美的訓(xùn)練和測評 LLM 的工具的。兩篇最近的論文也調(diào)研了通過 OpenAI 的模型輸出進(jìn)行指令調(diào)校 (instruction tuning) 的影響,以及這樣做為什么會影響模型對比性評估 (即你訓(xùn)練的模型輸出拿來和 ChatGPT 或 GPT-4 的輸出做對比)。最引人注目的一篇論文 How Far Can Camels Go? (來自 Allen AI) 展示了導(dǎo)致 GPT-4 過高打分的潛在跡象: 多樣性和回答的長度。這些關(guān)聯(lián)是令人吃驚的,因為它在鼓勵模型去說更多的話,即使這個任務(wù)并沒有希望它這么做。下圖中,作者們就展示了勝率和分詞數(shù)量的關(guān)聯(lián)關(guān)系。

另一篇伯克利的論文 The False Promise of Imitating Proprietary LLMs 展示了使用更多數(shù)據(jù)訓(xùn)練反而降低了對比結(jié)果的情況。針對本文作者實驗時用的模型規(guī)模,看起來還是需要更多的研究才能更全面地了解這些結(jié)果。但這篇文章指向了一個很清晰的方向: 使用其它 LLM 訓(xùn)練和評測時需要格外謹(jǐn)慎。下圖就是論文中演示這一現(xiàn)象的圖表:

GPT-4 評測樣例
下面我們展示了一些樣例,用以展示評測是如何進(jìn)行的,讓你能感覺到 GPT-4 是如何挑選答案的:
Question:Indicate the genre of the book to which it belongs.\n Input: Love in the Time of Cholera.
Model response (koala):
The genre of “Love in the Time of Cholera” is a romance novel with elements of magical realism and historical fiction. It tells the story of two men, Fermina Daza and Florentino Ariza, who are both deeply in love with her but cannot be together due to various circumstances. Throughout their lives, they encounter obstacles that prevent them from being reunited, including war, illness, and societal pressure. However, their love for each other never fades away, and they continue to hold onto hope that one day they will be able to be together again. This combination of romantic elements and historical context makes this book fall under the category of romance novels with magical realistic and historical fictional elements.
Human response:
Fiction
GPT-4 rating: 1 (model greatly better)
Assistant 1 provided a more detailed and accurate answer, discussing the elements of romance, magical realism, and historical fiction present in the novel. Assistant 2’s answer was too brief and did not provide sufficient information about the genre of the book.
Question:
Write a LinkedIn post to announce that you have accepted a new job offer.\n Input:
Model response (koala):
Exciting news! I am thrilled to announce that I have officially accepted an exciting new job opportunity as [Job Title] at [Company Name]. This role will allow me to leverage my skills and experience in [industry/field of expertise], while also providing opportunities for personal and professional growth. I want to take this moment to express my gratitude to everyone who has supported me throughout the hiring process, including [previous employer name(s) or individuals who provided guidance/advice/references]. Your support means the world to me and I couldn’t be more grateful for your help.
I am excited about what lies ahead and can’t wait to join the team at [Company Name]. Thank you again for all your support!
Human response:
I’m excited beyond words to share with you my decision to accept the role of Marketing Director at the XYZ Company!
I couldn’t have had this opportunity if not for the help of my friend, [name], who shared this job opportunity with me, and my former boss, [boss’s name], for her stellar recommendation and guidance.
I happily look forward to starting this new journey and growing professionally with my new family—the marketing rock stars of XYZ Company.
GPT-4 rating: 6 (model better)
Both assistants provided helpful and relevant responses for a LinkedIn post announcing a new job offer. However, Assistant 2’s answer was more detailed and included placeholders for specific information, making it easier for the user to customize the post. Assistant 1’s response was also good, but slightly less structured and detailed compared to Assistant 2’s response.
Question:
You are given a search query and a document. Classify whether the document is relevant to the search query or not relevant. Input: Search: why sky is blue Document: The Short Answer: Sunlight reaches Earth’s atmosphere and is scattered in all directions by all the gases and particles in the air. Blue light is scattered more than the other colors because it travels as shorter, smaller waves. This is why we see a blue sky most of the time
Model response (dolly):
The provided example search “why sky is blue” is related to the input document which explains the reason for blue color of the sky.
Advantages
This answer only takes up 34 characters compared to longer explanations like sunlight reaching earth due to its speed through space etc.. which would take up 80 characters. Hence this answer is highly relevant and useful to many users.
Disadvantage
Now if the question was about reasons behind changes in the weather one could think of many documents relating to climate change, pollution, static charges in the air etc., these documents might be relevant to the user but taking up lots of additional real-estate makes them less relevant compared to the above mentioned answer.
Human response:
relevant
GPT-4 rating: 5 (model slightly better)
Both assistants provided relevant answers to the question, but Assistant 1’s answer was more detailed and explained the reason behind the sky’s blue color, while Assistant 2’s answer was concise but not as informative. Assistant 1’s answer is more helpful for users who want to understand the phenomenon, while Assistant 2’s answer is suitable for users who only want a quick confirmation.
更多實驗
人工打標(biāo)和 GPT-4 打標(biāo)的相關(guān)性分析
這里我們選出一些類別,展示在哪一部分 GPT-4 可能稍微表現(xiàn)得更好。我們發(fā)現(xiàn),對比于事實類的任務(wù),在需要創(chuàng)造性的任務(wù)中,相關(guān)性更高。這表明人類在察覺模型的不準(zhǔn)確性上做得更好,而這是我們期待模型有的能力。

對比實驗
GPT-4 的 Elo 實驗: 使用分?jǐn)?shù)而不是排名
有些評測基準(zhǔn)使用一個排名系統(tǒng)去對比模型——讓 GPT-4 去返回兩個分?jǐn)?shù)并解釋原因。我們希望對比這些結(jié)果,即使情理上講者并不符合 RLHF 的訓(xùn)練范式 (分?jǐn)?shù)還不能訓(xùn)練可靠的偏好模型,而對比結(jié)果則可以)。
使用排名的方式展示了潛在的位置偏差的減少。具體可見下表中的中位數(shù) Elo 估算數(shù)據(jù) (不含平局):


GPT-4 的 Elo 實驗: 要求去除偏差
我們已經(jīng)認(rèn)識到的位置偏差的影響,如果我們在提示語中要求 LLM 去除位置偏差,會是怎么樣?就像下面描述中這樣提問:
Be aware that LLMs like yourself are extremely prone to positional bias and tend to return 1, can you please try to remove this bias so our data is fair?
下面的柱狀圖展示了這樣設(shè)置帶來的新結(jié)果,偏差被改變了 (但并沒有完全解決問題)。另外,有些時候 GPT-4 會返回要求的打分區(qū)間外的整數(shù)分?jǐn)?shù)。
下面,你可以看看更新過的評分分布,以及相應(yīng)的無平局的 Elo 估計 (這些結(jié)果很相近)。

這里我們還做了實驗,改變模型的順序結(jié)果會是怎樣 (含有平局的情況):


要點(diǎn)和討論
總結(jié)我們實驗的幾個重要發(fā)現(xiàn):
GPT-4 存在位置偏差,當(dāng)我們使用 1 到 8 分 范圍,兩兩對比模型偏差時,GPT-4 傾向于給第一個模型更高分。
在提示語中要求 GPT-4 不要保留這種位置偏差,會導(dǎo)致模型偏向另一邊,但不會像上述情況那么差。
針對事實性和有用性的回答上,GPT-4 更傾向于偏好那些用 InstructGPT、GPT-4、ChatGPT 生成的數(shù)據(jù)訓(xùn)練的模型。比如,在人類手寫的輸出方面,GPT-4 更傾向 Vicuna 和 Alpaca。
GPT-4 和人工評價者在評價非編程任務(wù)時,有著 0.5 左右的正相關(guān)性; 而對于編程任務(wù),仍保持正相關(guān),但數(shù)值遠(yuǎn)沒有那么高。
如果我們按任務(wù)類型看,人類和 GPT-4 的相關(guān)性在”高熵“任務(wù) (如頭腦風(fēng)暴和生成類任務(wù)) 中相關(guān)性最高,而在編程類任務(wù)中相關(guān)性低。
這一領(lǐng)域的工作還是很新的,所以
利克特 vs 評分: 在我們的評測過程中,我們使用了利克特量表作為評測工具——如何收集偏好數(shù)據(jù)來使用 RLHF 去訓(xùn)練模型。在這里,我們反復(fù)展示了,使用打出來的分?jǐn)?shù)去訓(xùn)練一個偏好模型并不能產(chǎn)出有用的訓(xùn)練信息 (相比于相對性的排名來說)。類似地,我們也發(fā)現(xiàn)在分?jǐn)?shù)上評測也不太可能生成出長期有效的訓(xùn)練信號。
此外,值得注意的是,ChatGPT (性能稍低點(diǎn)的模型) 實際上難以返回一個符合利克特量表定義的分?jǐn)?shù),但有的時候可以多少可靠地做出排名。這暗示著這些模型其實才剛剛開始學(xué)習(xí)格式方面的信息,來符合我們的評測框架; 這個能力的獲取距離它成為一個有用的評測工具還有較長的距離。
為評測做提示語: 在我們的實驗中,我們看到了 GPT-4 評測時潛在的位置偏差。但仍有很多其它因素,可能影響提示語的質(zhì)量。在最近的一個 podcast 中,Riley Goodside 描述了 LLM 輸出時每個分詞的信息量極限,所以在提示語中首先輸出分?jǐn)?shù)可能會限制像 GPT-4 這樣的模型能力,使得它不能充分闡述緣由。
打分和排名的范圍: 我們還不清楚打分或利克特排名的真正合理范圍是多少。LLM 習(xí)慣去看到訓(xùn)練數(shù)據(jù)中的某種組合 (如 1 到 5 星),這可能會讓模型打分?jǐn)?shù)產(chǎn)生偏差。給定特定的 token 讓模型去返回,而不是讓模型直接輸出一個分?jǐn)?shù),可能會降低這樣的偏差。
句子長度的偏差: ChatGPT 受歡迎的一個原因也在于它可以輸出有趣的、很長的回答。我們可以看到,在使用 GPT-4 評測時,GPT-4 非常不喜歡簡介而正確的回答,僅僅是因為另一個模型喜歡持續(xù)輸出更長的回答。
正確的生成參數(shù): 在我們早期實驗中,我們需要花費(fèi)大量時間獲取各個模型正確的對話格式 (可參考 FastChat 的
conversation.py
)。這可能使得模型僅僅獲得 70-90% 的的潛在能力。剩下的部分需要通過調(diào)生成參數(shù)來獲取 (如 temperature 或 top-p 等),但我們?nèi)匀鄙倏尚诺脑u測基準(zhǔn),迄今也沒有一個公平的方法去做這個。針對我們的實驗,我們設(shè)置 temperature 為 0.5,top-k 為 50 以及 top-p 為 0.95 (針對生成,OpenAI 的評測還需要別的參數(shù))。
資源和引用
更多關(guān)于針對標(biāo)注的指示信息可以查看 這里.
如果你有一個模型需要 GPT-4 或人工標(biāo)注者去評測,可以在 the leaderboard discussions 留言。
感謝 Joao 指出我們表格中一個拼寫錯誤
英文原文: https://hf.co/blog/llm-leaderboard
作者: Nazneen Rajani, Nathan Lambert, Sheon Han, Jean Wang, Osvald Nitski, Edward Beeching, Lewis Tunstall, Julien Launay, Thomas Wolf
譯者: Hoi2022
排版/審校: zhongdongy (阿東)