In-Context-Learning在更大的語言模型上表現(xiàn)不同

本文首發(fā)于網(wǎng)站 機(jī)器翻譯學(xué)堂
轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問哦
譯者 | 高成浩
單位 | 東北大學(xué)自然語言處理實(shí)驗(yàn)室

最近,在語言模型領(lǐng)域取得了巨大的進(jìn)展,部分是因?yàn)樗鼈兛梢酝ㄟ^In-Context- Learning ( ICL)來完成各種復(fù)雜的任務(wù)。在ICL中,模型在執(zhí)行未見過的用例之前,會(huì)首先接收一些輸入-標(biāo)簽對(duì)的示例。一般來說,ICL對(duì)模型的增強(qiáng),有以下原因:
按照上下文示例的格式,利用預(yù)訓(xùn)練階段得到的語義先驗(yàn)知識(shí)來預(yù)測(cè)標(biāo)簽(例如,當(dāng)看到帶有“正面情感”和“負(fù)面情感”標(biāo)簽的電影評(píng)論示例,使用先驗(yàn)知識(shí)來做情感分析)。
從給的上下文示例中學(xué)習(xí)輸入-標(biāo)簽的映射(例如,正面評(píng)論應(yīng)該映射到一個(gè)標(biāo)簽,負(fù)面評(píng)論應(yīng)該映射到另一個(gè)標(biāo)簽的模式)。
在本文中,我們旨在了解這兩個(gè)因素(語義先驗(yàn)知識(shí)和輸入-標(biāo)簽映射)在ICL的影響,尤其是當(dāng)語言模型的規(guī)模發(fā)生變化時(shí)。我們通過2種實(shí)驗(yàn)方法來對(duì)這兩個(gè)因素進(jìn)行研究,實(shí)驗(yàn)方法分別為:翻轉(zhuǎn)標(biāo)簽的 ICL (flipped-label ICL)和語義無關(guān)標(biāo)簽的ICL ( SUL- ICL)。
在翻轉(zhuǎn)標(biāo)簽的ICL中,上下文示例的標(biāo)簽的語義被翻轉(zhuǎn)(例如原先的標(biāo)簽為“Negative”,被反轉(zhuǎn)為 “Positive”),使得語義先驗(yàn)知識(shí)和輸入-標(biāo)簽映射不匹配。
ps:可以理解為,語義先驗(yàn)知識(shí)中與該上下文示例相似的標(biāo)簽都是“Negative”的,但是此處 通過“翻轉(zhuǎn)標(biāo)簽”方法,變?yōu)椤癙ositive”后,先驗(yàn)知識(shí)與當(dāng)前的上下文示例的輸入-標(biāo)簽映射產(chǎn)生 了不匹配。
在SUL- ICL中,上下文示例的標(biāo)簽被替換為與上下文中所呈現(xiàn)的任務(wù)在語義上無關(guān)的詞語(例如,原先的標(biāo)簽“Positive”,被替換為"Foo")。
ps:例如,原先的標(biāo)簽為影評(píng)領(lǐng)域的,現(xiàn)在替換為美食或者其他領(lǐng)域的詞
我們發(fā)現(xiàn),覆蓋先驗(yàn)知識(shí)是隨著模型規(guī)模的增大而涌現(xiàn)的一種能力(ps:覆蓋先驗(yàn)知識(shí)可以理解為,從上下文示例中學(xué)習(xí),而不是預(yù)訓(xùn)練階段的先驗(yàn)知識(shí)),從語義無關(guān)標(biāo)簽的上下文中學(xué)習(xí)的能力也是如此。我們還發(fā)現(xiàn),指令微調(diào)(Instruct-tuning)對(duì)學(xué)習(xí)先驗(yàn)知識(shí)能力的加強(qiáng)上要超過對(duì)學(xué)習(xí)輸入-標(biāo)簽映射的增強(qiáng)。(下圖為普通ICL,翻轉(zhuǎn)標(biāo)簽ICL和語義無關(guān)ICL的示例)

實(shí)驗(yàn)設(shè)計(jì)
我們?cè)谄邆€(gè)廣泛使用的自然語言處理(NLP)任務(wù)上進(jìn)行了實(shí)驗(yàn):情感分析、主/客觀分類、問題分類、重復(fù)問題識(shí)別、蘊(yùn)含關(guān)系識(shí)別、金融情感分析和仇恨言論檢測(cè)。我們?cè)?種LLM上進(jìn)行測(cè)試: PaLM、 Flan- PaLM、GPT-InstructGPT和Codex。
翻轉(zhuǎn)標(biāo)簽(Flipped Labels-ICL)
在這個(gè)實(shí)驗(yàn)中,上下文示例的標(biāo)簽被翻轉(zhuǎn),意味著先驗(yàn)知識(shí)和輸入-標(biāo)簽映射不一致(例如,包含正面情 感的句子被標(biāo)記為“Negative”),從而讓我們可以研究模型是否能夠覆蓋其先驗(yàn)知識(shí)。在這種情況下,具備覆蓋先驗(yàn)知識(shí)能力的模型的性能應(yīng)該會(huì)下降(因?yàn)檎鎸?shí)的評(píng)估標(biāo)簽沒有被翻轉(zhuǎn))。(下圖為使用翻轉(zhuǎn)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測(cè)試集上的準(zhǔn)確率變化)

我們發(fā)現(xiàn),當(dāng)沒有標(biāo)簽被翻轉(zhuǎn)時(shí),大型模型的性能優(yōu)于小型模型(如預(yù)期所示)。但是,當(dāng)我們翻轉(zhuǎn)越來越多的標(biāo)簽時(shí),小型模型的性能保持相對(duì)穩(wěn)定,而大型模型的性能下降得非常明顯,甚至低于隨機(jī)猜測(cè)的水平(例如,對(duì)于code-davinci-002模型,性能從90%下降到22.5%)。
這些結(jié)果表明,當(dāng)上下文中出現(xiàn)與先驗(yàn)知識(shí)不一致的輸入-標(biāo)簽映射時(shí),大型模型可以覆蓋預(yù)訓(xùn)練的先驗(yàn) 知識(shí),而小型模型則無法做到。
作者說:此處,我理解為,更大的語言模型在覆蓋先驗(yàn)知識(shí)的能力上更強(qiáng),也就是更容易從給的上 下文示例中學(xué)習(xí)到新的知識(shí),如果給的上下文示例中存在與先驗(yàn)知識(shí)沖突的情況,則模型會(huì)更加偏 重上下文示例。
語義無關(guān)標(biāo)簽(SUL-ICL)
在這個(gè)實(shí)驗(yàn)中,我們將標(biāo)簽替換為語義不相關(guān)的標(biāo)簽(例如,在情感分析中,我們使用“foo/bar”代替 “negative/positive”),這意味著模型只能通過學(xué)習(xí)輸入-標(biāo)簽映射來執(zhí)行ICL。如果模型在ICL中主要依 賴于先驗(yàn)知識(shí),那么在進(jìn)行這種更改后,其性能應(yīng)該會(huì)下降,因?yàn)樗鼘o法再利用標(biāo)簽的語義含義進(jìn)行預(yù)測(cè)。而如果模型能夠在上下文中學(xué)習(xí)輸入-標(biāo)簽映射,它就能夠?qū)W習(xí)這些語義無關(guān)的映射,并且不應(yīng)該 出現(xiàn)主要性能下降。
(下圖為使用語義無關(guān)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測(cè)試集上的準(zhǔn)確率變化)

事實(shí)上,我們發(fā)現(xiàn)對(duì)于小型模型來說,使用語義無關(guān)標(biāo)簽導(dǎo)致了更大的性能下降。這表明,小型模型主 要依賴于它們的語義先驗(yàn)知識(shí)進(jìn)行ICL,而不是從給的的輸入-標(biāo)簽映射示例中學(xué)習(xí)。另一方面,當(dāng)這些標(biāo)簽標(biāo)簽不再具備其原來所有的語義時(shí),大型模型的學(xué)習(xí)上下文中的輸入-標(biāo)簽映射的能力更強(qiáng)。
我們還發(fā)現(xiàn),模型輸入更多的上下文示例對(duì)于大型模型的性能的提升要強(qiáng)于小模型,這表明大型模型比小型模型更擅長(zhǎng)從上下文示例中學(xué)習(xí)。
(下圖為使用不同數(shù)量的語義無關(guān)標(biāo)簽ICL后,不同語言模型的不同尺寸的在測(cè)試集上的準(zhǔn)確率變化)

指令微調(diào)(Instruction tuning)
指令微調(diào)是一種提高模型性能的常用技術(shù),它將各種自然語言處理(NLP)任務(wù)調(diào)整為指令的形式輸入 給模型(例如,“問題:以下句子的情感是什么?答案:積極的“)。然而,由于該過程使用自然語言標(biāo) 簽,一個(gè)懸而未決的問題是,它是否提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力,亦或是增強(qiáng)了學(xué)習(xí)并應(yīng)用語義先 驗(yàn)知識(shí)的能力。這兩者都會(huì)給ICL任務(wù)帶來性能提升,因此目前尚不清楚這兩者中哪一個(gè)生效了。
我們通過前兩個(gè)實(shí)驗(yàn)方法繼續(xù)研究這個(gè)問題,但這一次我們專注于比較標(biāo)準(zhǔn)語言模型(PaLM)與經(jīng)過指令微調(diào)的模型(Flan- PaLM)之間的差異。
首先,我們發(fā)現(xiàn)在使用語義無關(guān)標(biāo)簽時(shí), Flan- PaLM要優(yōu)于PaLM。在小型模型中,這種效果非常明顯, Flan- PaLM-8B的性能超過PaLM-8B約9.6%,并且接近PaLM-62B的性能。這一趨勢(shì)表明,指令微調(diào)增強(qiáng)了學(xué)習(xí)輸入-標(biāo)簽映射的能力。
(下圖表明:指令微調(diào)后的模型更容易學(xué)習(xí)輸入-標(biāo)簽映射)

更有趣的是,我們發(fā)現(xiàn)Flan- PaLM在遵循翻轉(zhuǎn)標(biāo)簽方面實(shí)際上比PaLM要差,這意味著經(jīng)過指令調(diào)整的模型無法覆蓋其先驗(yàn)知識(shí)(Flan- PaLM模型在100%翻轉(zhuǎn)標(biāo)簽的情況下無法達(dá)到低于隨機(jī)猜測(cè) 的水平,而沒有經(jīng)過指令調(diào)整的PaLM模型在相同設(shè)置下可以達(dá)到31%的準(zhǔn)確率)。這些結(jié)果表明,指令調(diào)整必須增加模型在有語義先驗(yàn)知識(shí)可用時(shí)依賴于語義先驗(yàn)知識(shí)的程度。
(下圖表示:指令微調(diào)后的模型,在使用翻轉(zhuǎn)標(biāo)簽ICL時(shí),更不容易覆蓋先驗(yàn)知識(shí))

結(jié)合之前的結(jié)果,我們得出結(jié)論,雖然指令微調(diào)提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力,但它在學(xué)習(xí)語義先驗(yàn)知識(shí)上的加強(qiáng)更為突出。
結(jié)論
通過上述實(shí)驗(yàn),可以得到以下的結(jié)論:
首先,大語言模型可以在輸入足夠多的翻轉(zhuǎn)標(biāo)簽的情況下學(xué)會(huì)對(duì)先驗(yàn)知識(shí)的覆蓋,并且這種能力隨 著模型規(guī)模的增大而加強(qiáng)。
其次,使用語義無關(guān)標(biāo)簽進(jìn)行上下文學(xué)習(xí)的能力隨著模型規(guī)模的增大而加強(qiáng)。
最后,通過對(duì)指令微調(diào)后的語言模型的研究,發(fā)現(xiàn)指令微調(diào)雖然可以提高學(xué)習(xí)輸入-標(biāo)簽映射的能力,但遠(yuǎn)不如其對(duì)學(xué)習(xí)語義先驗(yàn)知識(shí)的加強(qiáng)。
未來工作
這些結(jié)果強(qiáng)調(diào)了語言模型的ICL行為在模型規(guī)模方面可能發(fā)生變化,而更大的語言模型具有將輸入映射到 更多種類型標(biāo)簽的能力,這可能使得模型可以學(xué)習(xí)任意符號(hào)的輸入-標(biāo)簽映射。未來的研究可以幫助我們更好地理解這種現(xiàn)象。
原文鏈接:
https://ai.googleblog.com/2023/05/larger-language-models-do-in-context.html

hi,這里是小牛翻譯~
想要看到更多我們的文章,可以關(guān)注下
機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)
筆芯~

往期精彩回顧


