更大的語(yǔ)言模型在In-context Learning上表現(xiàn)出的不同

本文首發(fā)于 機(jī)器翻譯學(xué)堂
轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問(wèn)哦
譯者 |?寇凱淇
單位?|?東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室


論文題目:Larger language models do in-context learning differently
論文機(jī)構(gòu):Google Research, Brain Team;?Stanford University; Brown University
論文作者:Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma
論文鏈接:https://arxiv.org/abs/2303.03846
博客鏈接:https://ai.googleblog.com/2023/05/larger-language-models-do-in-context.html
引言
隨著語(yǔ)言模型規(guī)模的越做越大,越來(lái)越多的大模型表現(xiàn)出來(lái)不俗的“語(yǔ)言理解能力”,前段時(shí)間,OpenAI研發(fā)的ChatGPT的面世更是給我們帶來(lái)了很多關(guān)于大語(yǔ)言模型的討論。其中,In-context Learning(上下文學(xué)習(xí))被視為是一種隨著模型規(guī)模增大而表現(xiàn)出來(lái)的能力。正是因?yàn)檫@種能力,大語(yǔ)言模型可以通過(guò)幾個(gè)示例的輸入來(lái)快速執(zhí)行新的任務(wù)[1]。近期,Google Research通過(guò)論文和博客的形式發(fā)表了一項(xiàng)工作,該工作嘗試通過(guò)實(shí)驗(yàn)來(lái)探究不同規(guī)模的語(yǔ)言模型所表現(xiàn)出In-context Learning能力中,模型的先驗(yàn)語(yǔ)義知識(shí)和模型學(xué)習(xí)輸入-標(biāo)簽映射能力之間的相互關(guān)系。下面,讓我們來(lái)一起看看Google Research這次帶來(lái)了哪些發(fā)現(xiàn)吧!
何為In-context Learning
In-context learning是一種語(yǔ)言模型表現(xiàn)出的能力,也可以說(shuō)是一種學(xué)習(xí)的范式。它最早是由OpenAI在GPT-3的論文[2]中提出并開始普及的,它通過(guò)在輸入的文本中添加一個(gè)或多個(gè)任務(wù)示例,來(lái)使模型執(zhí)行一個(gè)新的任務(wù),并獲得較好的效果。如下圖的樣例所示,我們希望讓語(yǔ)言模型執(zhí)行從英語(yǔ)到法語(yǔ)的翻譯任務(wù),所以我們?cè)谳斎肽P偷膒rompt(提示)的最開始,通過(guò)自然語(yǔ)言對(duì)任務(wù)進(jìn)行了描述“Translate English to French:”。而在prompt的最后,我們輸入了我們想要翻譯成法語(yǔ)的英文“cheese”。而在兩者之間,我們又為prompt補(bǔ)充了3個(gè)從英語(yǔ)到法語(yǔ)的翻譯示例,讓模型更好的理解我們想要執(zhí)行的任務(wù)。

這有點(diǎn)類似我們?nèi)ソ庖坏佬碌臄?shù)學(xué)題的過(guò)程。面對(duì)一種新的題型,我們或許很難在第一時(shí)間做出解答,但如果給我們幾道相同題型的例題與答案,我們就可以參考這些例題來(lái)學(xué)會(huì)解答這種題型。

需要知道的是,不同于Fine-tuning(微調(diào))任務(wù),In-context Learning不需要使用下游任務(wù)的數(shù)據(jù)集對(duì)語(yǔ)言模型的參數(shù)進(jìn)行進(jìn)一步的訓(xùn)練,而是在凍結(jié)模型參數(shù)的基礎(chǔ)上執(zhí)行推理任務(wù)。這使得用戶無(wú)需耗費(fèi)大量資源對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,降低了模型對(duì)不同任務(wù)部署的難度。當(dāng)然,在prompt中你所提供的示例也并不會(huì)被模型所學(xué)習(xí)記錄,在處理相同任務(wù)的時(shí)候,你需要不斷地為模型提供示例。
關(guān)于In-context Learning的原理究竟是什么,大家可以進(jìn)一步閱讀我們?cè)缧r(shí)候發(fā)表的《In-context learning如何工作?斯坦福學(xué)者用貝葉斯方法解開其奧秘》,它或許可以為各位解答一部分疑惑。
文章鏈接:https://school.niutrans.com/qualityArticleInfo?id=482。
模型的In-context Learning在做什么?
通常來(lái)說(shuō),語(yǔ)言模型能夠通過(guò)In-context Learning來(lái)獲取較為優(yōu)秀的生成結(jié)果與以下兩個(gè)方面有關(guān)(這里以針對(duì)電影評(píng)論的情感分析任務(wù)為例):
語(yǔ)言模型使用模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的先驗(yàn)的語(yǔ)義知識(shí)來(lái)對(duì)標(biāo)簽進(jìn)行預(yù)測(cè),同時(shí)模型會(huì)遵守上下文示例的格式。(即模型查看了帶有“Positive”和“Negative”標(biāo)簽的上下文示例,并使用先驗(yàn)知識(shí)對(duì)句子進(jìn)行情緒分析)
語(yǔ)言模型從輸入所提供的上下文示例中學(xué)習(xí)到了一種輸入與標(biāo)簽的映射,從而進(jìn)行情緒分析。(例如,模型通過(guò)上下文示例找到了一種模式,正面的評(píng)論會(huì)被映射到一個(gè)標(biāo)簽上,而負(fù)面評(píng)論會(huì)被映射到另外一種標(biāo)簽上)
所以,文章設(shè)計(jì)了幾個(gè)實(shí)驗(yàn)來(lái)探究這模型的先驗(yàn)語(yǔ)義知識(shí)和模型學(xué)習(xí)輸入-標(biāo)簽映射的能力這兩種因素在模型的In-context Learning的過(guò)程中所發(fā)揮的作用,特別是與模型參數(shù)的規(guī)模的關(guān)系。
實(shí)驗(yàn)設(shè)置

常規(guī)In-context Learning(Regular ICL):模型的輸入示例是符合正確的語(yǔ)義且與標(biāo)簽匹配的,這樣的情況下,模型的先驗(yàn)語(yǔ)義知識(shí)以及對(duì)輸入-標(biāo)簽映射的學(xué)習(xí)能力都可以發(fā)揮作用,使得In-context Learning的表現(xiàn)更好。
翻轉(zhuǎn)標(biāo)簽的In-context Learning(Flipped-Label ICL):將輸入的示例的“Positive”與“Negative”標(biāo)簽翻轉(zhuǎn),原本積極的評(píng)論被標(biāo)注為消極,消極的評(píng)論被標(biāo)注為積極。這意味著輸入模型的上下文示例的標(biāo)簽映射與模型所學(xué)習(xí)的先驗(yàn)語(yǔ)義知識(shí)不一致。因此,對(duì)與二元分類任務(wù),如果在這個(gè)實(shí)驗(yàn)設(shè)置下,模型的表現(xiàn)優(yōu)于50%的隨機(jī)猜測(cè)的準(zhǔn)確度,說(shuō)明模型對(duì)輸入的上下文示例的理解無(wú)法覆蓋模型原本學(xué)習(xí)的先驗(yàn)語(yǔ)義知識(shí)。而表現(xiàn)低于50%準(zhǔn)確度的模型則意味著該模型能夠通過(guò)上下文示例學(xué)習(xí)輸入-標(biāo)簽的映射關(guān)系,并且會(huì)覆蓋原本模型學(xué)習(xí)的先驗(yàn)語(yǔ)義知識(shí)。
語(yǔ)義無(wú)關(guān)標(biāo)簽的In-context Learning(SUL-ICL):將輸入模型的上下文示例的標(biāo)簽更換為語(yǔ)義無(wú)關(guān)的標(biāo)簽,比如將“Positive/Negative”更換為“Bar/Foo”。在這種實(shí)驗(yàn)設(shè)置下,標(biāo)簽的語(yǔ)義知識(shí)被移除,模型只能夠通過(guò)對(duì)輸入-標(biāo)簽映射的學(xué)習(xí)來(lái)執(zhí)行In-context Learning。如果一個(gè)模型執(zhí)行In-context Learning主要依賴于模型自身的先驗(yàn)語(yǔ)義知識(shí),那么模型的性能應(yīng)該會(huì)有所下降。從另一個(gè)角度來(lái)看,如果一個(gè)模型可以在上下文示例中學(xué)習(xí)輸入-標(biāo)簽的映射,那么這種模型的性能應(yīng)該不會(huì)出現(xiàn)嚴(yán)重的下降。
為了多樣化的數(shù)據(jù)集組合,文章對(duì)七種廣泛使用的自然語(yǔ)言處理任務(wù)進(jìn)行了實(shí)驗(yàn),分別是:情感分析、主客觀分類、問(wèn)題分類、重復(fù)問(wèn)題識(shí)別、蘊(yùn)含識(shí)別、金融情感分析和仇恨言論檢測(cè)。并對(duì)五個(gè)語(yǔ)言模型系列進(jìn)行實(shí)驗(yàn),分別是:PaLM、Flan-PaLM、GPT-3、InstructGPT和Codex。

其中,GPT-3系列的模型的大小為babbage-1B,curie-6.7B和davinci-175B[2][3]。作者在文章中補(bǔ)充ada的模型大小為350M。InstructGPT[4]與Codex[5]系列模型是在GPT3模型的基礎(chǔ)上微調(diào)而得的,其中code-cushman-001模型大小為12B[3][5],其余模型大小則無(wú)直接信息。根據(jù)對(duì)應(yīng)的相關(guān)信息,其模型大小應(yīng)該可以參考與其相同名稱的GPT-3模型大小[3][4][5]。PaLM系列與Flan-PaLM系列模型大小被標(biāo)注在表中。
翻轉(zhuǎn)標(biāo)簽實(shí)驗(yàn)
就如先前介紹的實(shí)驗(yàn)設(shè)置那樣,翻轉(zhuǎn)標(biāo)簽實(shí)驗(yàn)設(shè)計(jì)是為了測(cè)試模型在In-context Learning的過(guò)程中能多大程度上學(xué)習(xí)上下文示例中的輸入-標(biāo)簽映射并覆蓋模型的先驗(yàn)語(yǔ)義知識(shí)。測(cè)試中,能夠覆蓋先驗(yàn)語(yǔ)義知識(shí)的模型的性能應(yīng)該會(huì)下降到隨機(jī)猜測(cè)的性能以下。
在這個(gè)測(cè)試實(shí)驗(yàn)中,設(shè)置了不同翻轉(zhuǎn)程度的上下文示例來(lái)進(jìn)行測(cè)試。比如,100%的翻轉(zhuǎn)標(biāo)簽比例意味著所有標(biāo)記為“Positive”的樣本都會(huì)在上下文實(shí)例中被標(biāo)記為“Negative”,而所有“Negative”的樣本會(huì)被重新標(biāo)記為“Positive”。
在評(píng)估的過(guò)程中并不會(huì)翻轉(zhuǎn)測(cè)試樣例的標(biāo)簽,即使用正確的標(biāo)記對(duì)模型的輸出結(jié)果進(jìn)行測(cè)試。所以,對(duì)于一個(gè)可以完全覆蓋先驗(yàn)語(yǔ)義知識(shí)的完美模型,對(duì)于100%的翻轉(zhuǎn)標(biāo)簽比例,它的測(cè)試結(jié)果的準(zhǔn)確度應(yīng)該是0%。

觀察實(shí)驗(yàn)結(jié)果,我們可以發(fā)現(xiàn),隨著翻轉(zhuǎn)標(biāo)簽比例的增加,所有模型系列在都有著類似的變化趨勢(shì)。當(dāng)沒(méi)有標(biāo)簽發(fā)生翻轉(zhuǎn)時(shí),較大的模型有著比較小模型更加好的性能,這是與預(yù)期相符合的。然而,隨著越來(lái)越多的標(biāo)簽被翻轉(zhuǎn),特別是當(dāng)全部標(biāo)簽被翻轉(zhuǎn)之后,較小的模型性能變化趨勢(shì)相對(duì)緩慢,并且其通常不會(huì)低于隨機(jī)的猜測(cè)準(zhǔn)確度(即50%)。而對(duì)于較大的語(yǔ)言模型,它的性能可以下降到遠(yuǎn)低于隨機(jī)猜測(cè)的準(zhǔn)確度,比如text-davinci-002的性能從原本90.3%的性能下降到了最終22.5%的性能。
這個(gè)實(shí)驗(yàn)結(jié)果表明,大型的語(yǔ)言模型是可以從上下文示例中學(xué)習(xí)輸入-標(biāo)簽的映射的,并且新的知識(shí)可以覆蓋原本在模型預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)到的先驗(yàn)的語(yǔ)義知識(shí)。而小的語(yǔ)言模型則無(wú)法推翻先驗(yàn)的語(yǔ)義知識(shí)。這種現(xiàn)象表明,這種通過(guò)上下文示例學(xué)習(xí)輸入-標(biāo)簽的映射的能力是只出現(xiàn)在大型的語(yǔ)言模型中,是一種通過(guò)擴(kuò)大模型規(guī)模而涌現(xiàn)的新興現(xiàn)象。
GPT-3模型在實(shí)驗(yàn)中的表現(xiàn)比較特殊,雖然性能降低到了50%,但很難進(jìn)一步降低。即便在標(biāo)簽被100%翻轉(zhuǎn)后,情況依舊,與小模型的表現(xiàn)相同。
語(yǔ)義無(wú)關(guān)標(biāo)簽實(shí)驗(yàn)
語(yǔ)義無(wú)關(guān)標(biāo)簽上下文學(xué)習(xí)(SUL-ICL)的實(shí)驗(yàn)將所有用自然語(yǔ)言書寫的標(biāo)簽都用語(yǔ)義無(wú)關(guān)的標(biāo)簽替換。例如,對(duì)SST-2數(shù)據(jù)集(情感分析),SUL-ICL實(shí)驗(yàn)將標(biāo)記為“Negative”的標(biāo)簽替換為“Foo”,并將標(biāo)記為“Positive”的標(biāo)簽替換為“Bar”,然后對(duì)模型進(jìn)行性能測(cè)試。結(jié)果如下圖:

圖中,淺色數(shù)據(jù)為執(zhí)行SUL-ICL實(shí)驗(yàn)的性能,深色數(shù)據(jù)為執(zhí)行常規(guī)ICL的性能。我們可以觀測(cè)到,實(shí)驗(yàn)結(jié)果中與預(yù)期相同的是,隨著模型規(guī)模的增大,模型在SUL-ICL實(shí)驗(yàn)上的性能與模型在常規(guī)ICL實(shí)驗(yàn)上的性能都有所提高。然而,對(duì)比同一系列不同規(guī)模的模型上兩種實(shí)驗(yàn)是性能差距,我們可以發(fā)現(xiàn),與大語(yǔ)言模型相比較,小的語(yǔ)言模型在進(jìn)行語(yǔ)義無(wú)關(guān)標(biāo)簽實(shí)驗(yàn)時(shí),性能下降的更大。這是因?yàn)?,語(yǔ)義無(wú)關(guān)標(biāo)簽實(shí)驗(yàn)的設(shè)置使得模型輸入的上下文示例的標(biāo)簽的語(yǔ)義被移除,小模型收到了嚴(yán)重的影響。所以小模型在進(jìn)行In-context Learning的過(guò)程之中,更加依賴于標(biāo)簽的語(yǔ)義信息,而不是去學(xué)習(xí)示例中的映射關(guān)系。于此同時(shí),大模型的性能下降卻十分微小,這表明在標(biāo)簽的語(yǔ)義被移除后,大語(yǔ)言模型有能力從上下文示例中獲取輸入-標(biāo)簽映射。因此,在沒(méi)有給出語(yǔ)義先驗(yàn)的情況下,這種對(duì)輸入-標(biāo)簽的映射的學(xué)習(xí)能力也能被視作為模型規(guī)模增大而帶來(lái)的新能力。
GPT系列中175B的davinci模型依舊展現(xiàn)出了與其他大模型性能不符的特點(diǎn),與小模型的表現(xiàn)更為相似。
另外,在SUL-ICL實(shí)驗(yàn)設(shè)置中,隨著上下文示例個(gè)數(shù)的增加,模型規(guī)模越大,其在實(shí)驗(yàn)中所表現(xiàn)的性能提升越多。這表明,大模型更有能力使用上下文示例中提供的額外的輸入-標(biāo)簽映射來(lái)學(xué)習(xí)輸入與標(biāo)簽之間的正確關(guān)系。測(cè)試結(jié)果如下圖所示。

Instruction tuning為模型帶來(lái)了什么?
作為對(duì)文章的拓展,文章還通過(guò)實(shí)驗(yàn)分析了Instruction tuning(指令微調(diào))對(duì)先前提到的使用先驗(yàn)知識(shí)和學(xué)習(xí)輸入-標(biāo)簽映射著兩種能力的影響。Instruction tuning通過(guò)在微調(diào)階段,用自然語(yǔ)言對(duì)任務(wù)進(jìn)行描述并加入prompt中,來(lái)提高模型回答自然語(yǔ)言指令的能力[6]。同樣通過(guò)先前設(shè)計(jì)的兩種實(shí)驗(yàn)對(duì)普通預(yù)訓(xùn)練模型(PaLM)和指令微調(diào)模型(Flan-PaLM)進(jìn)行對(duì)比。

在語(yǔ)義無(wú)關(guān)標(biāo)簽實(shí)驗(yàn)的結(jié)果中,指令微調(diào)模型的表現(xiàn)明顯好于普通預(yù)訓(xùn)練模型,其中微調(diào)后的Flan-PaLM-8B模型性能追趕上了PaLM-62B。這說(shuō)明指令調(diào)優(yōu)增強(qiáng)了模型學(xué)習(xí)輸入-標(biāo)簽映射的能力。

而在翻轉(zhuǎn)標(biāo)簽實(shí)驗(yàn)中,指令微調(diào)模型的準(zhǔn)確度要高于普通模型。這說(shuō)明指令微調(diào)加強(qiáng)了語(yǔ)言模型對(duì)語(yǔ)義先驗(yàn)知識(shí)的使用,學(xué)習(xí)的上下文示例映射無(wú)法覆蓋先驗(yàn)語(yǔ)義知識(shí)??赡苁侵噶钗⒄{(diào)技術(shù)增加了模型對(duì)語(yǔ)義先驗(yàn)知識(shí)的依賴,或者提供了更多的語(yǔ)義先驗(yàn)知識(shí)。
盡管指令微調(diào)提高了模型學(xué)習(xí)輸入-標(biāo)簽映射的能力,但它同時(shí)也加強(qiáng)了模型對(duì)語(yǔ)義先驗(yàn)的使用。
總結(jié)
這篇文章通過(guò)實(shí)驗(yàn)為我們展示了語(yǔ)言模型在上下文學(xué)習(xí)中的能力。當(dāng)提供足夠多的翻轉(zhuǎn)標(biāo)簽時(shí),大的模型能夠?qū)W習(xí)新的映射并覆蓋先驗(yàn)語(yǔ)義知識(shí),這種能力隨著模型規(guī)模增大而出現(xiàn)。同時(shí),執(zhí)行SUL-ICL設(shè)置的能力,即學(xué)習(xí)輸入與語(yǔ)義無(wú)關(guān)標(biāo)簽映射的能力也是大模型的另一新能力。而指令微調(diào)技術(shù)同時(shí)提高了模型學(xué)習(xí)輸入-標(biāo)簽映射的能力,也加強(qiáng)了語(yǔ)義先驗(yàn)對(duì)模型的影響。這些實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了語(yǔ)言模型的上下文學(xué)習(xí)能力是如何隨著模型規(guī)模的增大而變化的,并且大語(yǔ)言模型展現(xiàn)出的新能力是一種真正的符號(hào)推理,可以學(xué)習(xí)任意符號(hào)的輸入-標(biāo)簽映射。這種現(xiàn)象為什么會(huì)隨著模型規(guī)模的增大而出現(xiàn)可能是未來(lái)的工作需要探討的。
參考文獻(xiàn)
[1] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022.
[2] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.
[3] https://platform.openai.com/docs/model-index-for-researchers#footnote-1
[4] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[5] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.?
[6] Wei J, Bosma M, Zhao V Y, et al. Finetuned language models are zero-shot learners[J]. arXiv preprint arXiv:2109.01652, 2021.

hi,這里是小牛翻譯~
想要看到更多我們的文章,可以關(guān)注下
機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)
筆芯~

往期精彩文章


