最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Open LLM 排行榜近況

2023-07-12 08:52 作者:HuggingFace  | 我要投稿

Open LLM 排行榜是 Hugging Face 設(shè)立的一個(gè)用于評(píng)測(cè)開放大語言模型的公開榜單。最近,隨著?Falcon ???的發(fā)布并在?Open LLM 排行榜?上瘋狂屠榜,圍繞這個(gè)榜單在推特上掀起了一輪熱烈的討論。討論主要圍繞排行榜上的四個(gè)評(píng)測(cè)基準(zhǔn)其中之一: 大規(guī)模多任務(wù)語言理解 (Massive Multitask Language Understanding,MMLU) 基準(zhǔn)。社區(qū)發(fā)現(xiàn)頭部模型?LLaMA ???在 Open LLM 榜單上的 MMLU 得分比 LLaMA 論文 中宣稱的數(shù)字要低很多,大家都感覺很奇怪。

因此,我們決定深入分析一下這個(gè)現(xiàn)象????,看看到底是什么原因,又應(yīng)該如何解決。

在求索的過程中,我們與 @javier-m 大神進(jìn)行了討論,他之前參與了 LLaMA 模型的評(píng)估; 我們還與來自 Falcon 團(tuán)隊(duì)的 @slippylolo 進(jìn)行了討論。雖然承教這兩位甚多,但文章中所有可能的錯(cuò)誤都應(yīng)該歸咎于我們而不是他們!

在這段旅程中,你將學(xué)到很多有關(guān)如何評(píng)測(cè)模型的知識(shí),因此,如果后面你在網(wǎng)絡(luò)上或論文中看到了相關(guān)的評(píng)測(cè)數(shù)字,相信你就會(huì)有一定的判斷力了。

準(zhǔn)備好了嗎?系好安全帶,我們要起飛了??。

Open LLM 排行榜是什么?

首先,請(qǐng)注意 Open LLM 排行榜 實(shí)際上只是對(duì)開源基準(zhǔn)測(cè)試庫 EleutherAI LM Evaluation Harness 的一個(gè)封裝,該庫是由 EleutherAI 非營利性人工智能研究實(shí)驗(yàn)室 創(chuàng)建的。EleutherAI 實(shí)驗(yàn)室是一支在人工智能領(lǐng)域資歷深厚的團(tuán)隊(duì),他們有很多耳熟能詳?shù)墓ぷ?,如?chuàng)建 The Pile 數(shù)據(jù)集,訓(xùn)練 GPT-J 、GPT-Neo-X 20B 以及 Pythia 模型。

Open LLM 排行榜會(huì)在 Hugging Face 計(jì)算集群空閑時(shí)運(yùn)行?lm-evaluation-harness?以對(duì)眾多模型進(jìn)行評(píng)測(cè),將結(jié)果保存在 Hub 上的一個(gè)數(shù)據(jù)集中,并最終顯示在 排行榜 space 上。

在 EleutherAI lm-evaluation-harness 上運(yùn)行 LLaMA 模型所得的 MMLU 分?jǐn)?shù)與 LLaMA 論文宣稱的分?jǐn)?shù)有很大差距。

為什么會(huì)這樣?

MMLU 的 1001 種測(cè)法

事實(shí)證明,LLaMA 團(tuán)隊(duì)使用的是另一個(gè)開源實(shí)現(xiàn): 由最初提出并開發(fā) MMLU 基準(zhǔn)的加州大學(xué)伯克利分校團(tuán)隊(duì)實(shí)現(xiàn)的版本,見 這兒,我們稱其為?“原始實(shí)現(xiàn)”。

隨著調(diào)查的進(jìn)一步深入,我們還發(fā)現(xiàn)了另一個(gè)有趣的實(shí)現(xiàn): 斯坦福大學(xué) 基礎(chǔ)模型研究中心 (CRFM) 開發(fā)的一個(gè)全面的評(píng)估基準(zhǔn): 語言模型整體評(píng)估 (Holistic Evaluation of Language Models,HELM) 中也實(shí)現(xiàn)了 MMLU 基準(zhǔn),我們將其稱為?HELM 實(shí)現(xiàn)。

EleutherAI Harness 和斯坦福 HELM 的設(shè)計(jì)理念殊途同歸,兩者都在單個(gè)代碼庫中集成了多個(gè)評(píng)測(cè)基準(zhǔn) (包括 MMLU),以為模型提供一個(gè)全景式性能評(píng)估工具。Open LLM 排行榜也秉持相同的理念,因此我們?cè)趯?shí)現(xiàn) Open LLM 排行榜時(shí)選擇了封裝 EleutherAI Harness 這樣的“整體”基準(zhǔn),而不是集成多個(gè)單指標(biāo)評(píng)測(cè)代碼庫。

為了弄清楚得分差異的問題,我們決定在同一組模型上運(yùn)行 MMLU 評(píng)測(cè)的三種不同實(shí)現(xiàn),并根據(jù)得分對(duì)這些模型進(jìn)行排名:

  • Harness 實(shí)現(xiàn) (commit e47e01b)

  • HELM 實(shí)現(xiàn) (提交 cab5d89)

  • 原始實(shí)現(xiàn) (由 @olmer 大神集成入 Hugging Face (代碼) )

(請(qǐng)注意,Harness 實(shí)現(xiàn)最近有更新,更多信息請(qǐng)參見文末。)

結(jié)果很神奇 (下圖只是排名,后文有完整的評(píng)分):

圖 0

我們發(fā)現(xiàn),MMLU 的不同實(shí)現(xiàn)給出的得分竟然截然不同,甚至于改變了模型的排名順序!

下面我們?cè)囍私庀逻@種差異從何而來。???在此之前,我們先簡要了解一下大家都如何對(duì)現(xiàn)代 LLM 進(jìn)行自動(dòng)化評(píng)估。

現(xiàn)如今,大家都如何對(duì) LLM 模型進(jìn)行自動(dòng)化評(píng)估

MMLU 測(cè)試由一組多項(xiàng)選擇題組成,因此相對(duì)于開放式問答題這樣的題型而言,該基準(zhǔn)算是比較簡單了。但正如大家后面會(huì)看到的,即便這么簡單,這里面依然存在一些空間使得實(shí)現(xiàn)細(xì)節(jié)上的差異足以影響評(píng)測(cè)結(jié)果。MMLU 基準(zhǔn)涵蓋“人文”、“社會(huì)科學(xué)”、“STEM” 等 57 個(gè)通用知識(shí)領(lǐng)域,里面的每個(gè)問題包含四個(gè)可能選項(xiàng),且每個(gè)問題只有一個(gè)正確答案。

下面給出一個(gè)例子:

注意: 你可以使用 Hub 的 數(shù)據(jù)集查看器 來輕松探索該數(shù)據(jù)集的更多細(xì)節(jié)。

大語言模型在所有 AI 模型中其實(shí)算比較簡單的模型。其輸入為“文本字符串”(或稱為“提示”),該輸入會(huì)被切分成詞元 (詞元可以是單詞、子詞或字符,具體取決于模型的要求) 并饋送至模型。根據(jù)這個(gè)輸入,模型預(yù)測(cè)詞匯表中每一個(gè)詞元是下一輸出詞元的概率,至此,你就得到了詞匯表中每一個(gè)詞適合作為輸入提示的下一個(gè)詞的可能性。

然后,我們可以采取一些策略來從這個(gè)概率分布中選擇一個(gè)詞元作為輸出詞元,例如可以選擇概率最大的詞元 (或者我們還可以通過采樣引入些微噪聲,以避免出現(xiàn)“過于機(jī)械”的答案)。接著,我們把選擇的詞元添加到提示中并將其饋送給模型以繼續(xù)生成下一個(gè)詞元,依此類推,直至句子結(jié)束:

圖 1

上圖展示了 ChatGPT 或 Hugging Chat 生成答案的過程。

總結(jié)一下,從模型中獲取信息以對(duì)其進(jìn)行評(píng)測(cè),主要有兩種方法:

  1. 獲取某一組特定詞元的輸出?概率,并?將其與樣本中的備選項(xiàng)進(jìn)行比較;

  2. 獲取模型?生成的文本?(用上文所述的方法一個(gè)個(gè)迭代生成),并?將這些文本與樣本中的備選項(xiàng)進(jìn)行比較。

有了這些知識(shí),我們就可以開始深入研究 MMLU 的三種實(shí)現(xiàn),以了解饋送到模型的輸入是什么、預(yù)期的輸出是什么以及如何比較這些輸出。

各式各樣的 MMLU: 提示

我們先比較一下對(duì)同一個(gè) MMLU 數(shù)據(jù)集樣本,這三種實(shí)現(xiàn)都是如何構(gòu)建模型輸入的:

可以看到,三者之間差異雖小,但仍不可忽視:

  • 首句 (或指令): 差異不大。HELM 實(shí)現(xiàn)額外多加了一個(gè)空格,但注意 Harness 實(shí)現(xiàn)是沒有指令句的;

  • 問題: HELM 實(shí)現(xiàn)和 Harness 實(shí)現(xiàn)都加了?Question:?前綴;

  • 選項(xiàng): Harness 實(shí)現(xiàn)在選項(xiàng)之前加了?Choice:?前綴。

我們?nèi)绾斡蒙厦鏄?gòu)建的提示評(píng)估模型?

我們首先看看 原始實(shí)現(xiàn) 是如何做的: 其僅比較模型對(duì)四個(gè)選項(xiàng)字母的預(yù)測(cè)概率。

圖 2

這種方法其實(shí)是有點(diǎn)放水的,舉個(gè)例子:

圖 3

在上圖這種情況下,因?yàn)樵谀P徒o D 選項(xiàng)的概率在 4 個(gè)選項(xiàng)中是最高的,因此原始實(shí)現(xiàn)認(rèn)為模型預(yù)測(cè)正確,給加了 1 分。但如果我們抬起頭來看一下完整的概率輸出,單詞 “Zygote” 的概率其實(shí)是最高的,而它并不屬于 4 個(gè)選項(xiàng)之一 (這僅是一個(gè)示例,而不是一個(gè)真實(shí)的例子)。

那么,如何確保模型盡可能少犯這類錯(cuò)誤呢?

我們可以使用“?少樣本?”方法,在提示中為模型提供一個(gè)或多個(gè)范例 (包括示例問題及其答案),如下:

圖 4

上圖,我們?cè)谔崾局屑恿艘粋€(gè)范例,用于告訴模型我們的預(yù)期,這樣在預(yù)測(cè)時(shí)模型就不太可能給出超出選項(xiàng)范圍的答案。

由于這種方法能夠提高性能,因此在全部 3 種實(shí)現(xiàn)中,我們均選擇了以 5 樣本方式進(jìn)行 MMLU 評(píng)估 (即每個(gè)提示中都含有 5 個(gè)范例)。(注意: 在每個(gè)基準(zhǔn)測(cè)試中,雖然我們用了同樣 5 個(gè)范例,但它們的排列順序可能有所不同,這也有可能導(dǎo)致性能差異,但我們?cè)诖瞬簧钊?。另外,我們還必須注意避免范例中的某些答案泄漏到預(yù)測(cè)樣本中 ……)

HELM 實(shí)現(xiàn):?我們?cè)倏纯?HELM 實(shí)現(xiàn)。其少樣本提示的實(shí)現(xiàn)與原始實(shí)現(xiàn)類似,但其模型評(píng)估方式與我們剛剛看到的原始實(shí)現(xiàn)有很大不同: 其根據(jù)模型預(yù)測(cè)的下一個(gè)輸出詞元的概率來選擇輸出文本,并將生成的文本與正確答案的文本進(jìn)行對(duì)比,如下所示:

圖 5

此時(shí),如果輸出詞元中 “Zygote” 概率最高 (如上圖),則模型會(huì)輸出 “Zygote”,然后 HELM 實(shí)現(xiàn)就將其判為錯(cuò)誤,模型就無法得分:

圖 6

Harness 實(shí)現(xiàn):?最后我們看下 截至 2023 年 1 月 ?的 Harness 實(shí)現(xiàn),Open LLM 排行榜使用了該實(shí)現(xiàn)。它對(duì)同一個(gè)數(shù)據(jù)集的得分計(jì)算方法又不一樣 (請(qǐng)注意,該實(shí)現(xiàn)最近有重大更新,文末有詳細(xì)信息)。

這里,我們?nèi)匀皇褂酶怕?,但這次用的是完整答案序列的概率,這個(gè)完整序列包括選項(xiàng)字母及其后面的答案文本,例如 “C. The second pharyngeal arch”。為了計(jì)算整序列的概率,我們獲取每個(gè)詞元的概率 (與上面其他實(shí)現(xiàn)一樣) 并求它們的聯(lián)合概率。為了數(shù)值穩(wěn)定性,在計(jì)算聯(lián)合概率時(shí)我們主要計(jì)算對(duì)數(shù)概率并對(duì)其進(jìn)行求和,最后對(duì)其進(jìn)行歸一化 (可選,也可以不做),歸一化主要是將對(duì)數(shù)聯(lián)合概率除以詞元數(shù),以避免長答案有不公平的得分優(yōu)勢(shì) (稍后會(huì)詳細(xì)介紹)。工作原理如下圖所示:

圖 7

下表總結(jié)了每種實(shí)現(xiàn)對(duì)模型的輸出形式的要求:

搞清楚這些之后,我們比較一下多個(gè)模型在這三種實(shí)現(xiàn)上的得分:

可以看到,即便對(duì)于相同的 MMLU 數(shù)據(jù)集,模型的絕對(duì)分?jǐn)?shù)和相對(duì)排名 (參見第一張圖) 對(duì)評(píng)測(cè)基準(zhǔn)的實(shí)現(xiàn)方式仍非常敏感。

假設(shè)你已經(jīng)完美復(fù)刻了一個(gè) LLaMA 65B 模型,并使用 Harness 對(duì)其進(jìn)行了評(píng)估 (得分 0.488,見上表)?,F(xiàn)在,你想要將其與其他人發(fā)表的公開結(jié)果進(jìn)行比較 (假設(shè)他是在原始 MMLU 實(shí)現(xiàn)上進(jìn)行評(píng)估的,得分為 0.637),分?jǐn)?shù)竟相差 30% 之巨。你可能會(huì)想: “天哪,我的訓(xùn)練完全毀了??”。但事實(shí)并非如此,這些都只是毫無可比性的數(shù)字,即使它們都叫 “MMLU 分?jǐn)?shù)”,且都是在同一個(gè) MMLU 數(shù)據(jù)集上進(jìn)行評(píng)測(cè)的。

那么,是否存在一個(gè)評(píng)估 LLM 模型性能的“最佳方法”呢?這個(gè)問題不好回答。正如我們?cè)谏衔目吹降?,使用不同的評(píng)測(cè)方式對(duì)不同的模型進(jìn)行評(píng)估時(shí),其排名會(huì)變得混亂。為了盡可能保持公平,人們可能會(huì)傾向于選擇那個(gè)平均打分最高的評(píng)測(cè)方法,因?yàn)榭瓷先ズ孟袼堋敖怄i”模型的實(shí)力。在本文中,這意味著我們應(yīng)該使用原始實(shí)現(xiàn)。但正如我們?cè)谏厦婵吹降模褂脙H對(duì)四個(gè)選項(xiàng)的概率進(jìn)行排序的方式有可能以某種方式給模型放水,而且它更偏心那些性能較弱的模型。此外,從開源模型中獲取詞元預(yù)測(cè)概率 (或似然) 可能很容易,但閉源 API 模型可能并不會(huì)提供這樣的 API。

親愛的讀者,我們說了這么多,你有何高見?不妨到 Open LLM 排行榜的這個(gè)帖子中說上兩句:https://hf.co/spaces/HuggingFaceH4/open_llm_leaderboard/discussions/82

總結(jié)

整個(gè)過程走下來,我們學(xué)到了一個(gè)重要的教訓(xùn): 評(píng)測(cè)得分與實(shí)現(xiàn)緊密相關(guān) —— 具體到提示、分詞等微小細(xì)節(jié)的差異都有可能導(dǎo)致最終得分的差異。僅靠 “MMLU 得分” 這幾個(gè)字不足以帶來什么信息量,因?yàn)樗鼈兯褂玫脑u(píng)測(cè)代碼實(shí)現(xiàn)可能不同,所以根本沒有可比性。

這就是為什么我們需要開放、標(biāo)準(zhǔn)化、可重復(fù)的基準(zhǔn)測(cè)試。諸如 EleutherAI Eval Harness 或 Stanford HELM 這樣的開放基準(zhǔn)對(duì)社區(qū)來說是無價(jià)的,如果沒有它們,我們就無法比較模型和論文之間的結(jié)果,更談不上改進(jìn) LLM 了。

后記: 就 Open LLM 排行榜而言,我們決定堅(jiān)持使用社區(qū)維護(hù)的評(píng)估庫。值得慶幸的是,本文撰寫期間,優(yōu)秀的 EleutherAI Harness 的社區(qū),尤其是 ollmer,完成了一項(xiàng)壯舉: 更新了 Harness 實(shí)現(xiàn)中的 MMLU 的評(píng)測(cè)代碼,使其不管是實(shí)現(xiàn)還是得分都與原始實(shí)現(xiàn)更相似。

現(xiàn)在,我們正在用新版的 EleutherAI Eval Harness 重刷排行榜,在未來的幾周內(nèi)你將看到基于 Eleuther Harness v2 的跑分,敬請(qǐng)期待!(重新運(yùn)行所有模型需要一些時(shí)間,請(qǐng)耐心等待,??)

致謝

非常感謝 LLaMA 團(tuán)隊(duì)的 Xavier Martinet、Aurélien Rodriguez 和 Sharan Narang 對(duì)本文內(nèi)容的寶貴建議,并撥冗回答了我們所有的問題。

可用于復(fù)現(xiàn)的軟件及其版本

以下是本文使用的各代碼庫的 commit 版本。

  • EleutherAI LM harness 實(shí)現(xiàn) commit e47e01b:https://github.com/EleutherAI/lm-evaluation-harness/tree/e47e01beea79cfe87421e2dac49e64d499c240b4

  • HELM 實(shí)現(xiàn) commit cab5d89:https://github.com/stanford-crfm/helm/tree/cab5d89fadbff86190f29ddfa497301958eaf2ec

  • 原始 MMLU 實(shí)現(xiàn) (由 @olmer 大神集成至 Hugging Face):https://github.com/hendrycks/test/pull/13

英文原文:?https://hf.co/blog/evaluating-mmlu-leaderboard

原文作者: Clémentine Fourrier, Nathan Habib, Julien Launay, Thomas Wolf

譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向?yàn)?transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。

審校/排版: zhongdongy (阿東)


Open LLM 排行榜近況的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
得荣县| 吉首市| 乌兰察布市| 偃师市| 卢龙县| 高州市| 固原市| 磐安县| 沧源| 池州市| 玉林市| 墨脱县| 库车县| 开原市| 巴中市| 柳林县| 汶川县| 边坝县| 玉屏| 黄骅市| 无为县| 长顺县| 镇沅| 乐陵市| 鹤岗市| 琼海市| 苍溪县| 个旧市| 乐亭县| 惠水县| 万山特区| 和政县| 五大连池市| 临夏县| 龙泉市| 伊通| 开江县| 潞西市| 蚌埠市| 军事| 秭归县|