大模型上下文學(xué)習(xí)(ICL)突破性進(jìn)展分享!包含訓(xùn)練和推理兩個(gè)階段
大模型都火了這么久了,想必大家對LLM的上下文學(xué)習(xí)(In-Context Learning)能力都不陌生吧?
以防有的同學(xué)不太了解,今天學(xué)姐就來簡單講講。
上下文學(xué)習(xí)(ICL)是一種依賴于大型語言模型的學(xué)習(xí)任務(wù)方式,近年來隨著大模型能力的提高,它也成為了NLP的一種新范式。ICL無需對模型權(quán)重做任何改動,只需要給預(yù)訓(xùn)練模型展示一些輸入-輸出示例,就能解決對應(yīng)場景下的新問題。
為了更高效地提示大模型,最近很多業(yè)內(nèi)人士都在研究大模型的上下文學(xué)習(xí)能力,并且也有了不少值得關(guān)注的成果。這次學(xué)姐就整理了其中一部分來和大家分享,共31篇,主要分為2大類,包含訓(xùn)練和推理兩個(gè)階段。
篇幅原因,解析就不多寫了,需要的同學(xué)看這里↓
掃碼添加小享,回復(fù)“上下文學(xué)習(xí)”
免費(fèi)領(lǐng)取全部論文+代碼合集

訓(xùn)練
1.MetaICL: Learning to Learn In Context
學(xué)會在上下文中學(xué)習(xí)
簡述:論文介紹了一種新的元訓(xùn)練框架,叫做MetaICL,用于少樣本學(xué)習(xí)。這種框架通過調(diào)整預(yù)訓(xùn)練的語言模型進(jìn)行上下文學(xué)習(xí)。實(shí)驗(yàn)證明,MetaICL優(yōu)于其他基線模型,尤其對于有領(lǐng)域轉(zhuǎn)移的任務(wù)。使用多樣化的元訓(xùn)練任務(wù)能進(jìn)一步提高性能。

2.OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
通過泛化的視角擴(kuò)展語言模型指令元學(xué)習(xí)
簡述:指令微調(diào)可以改善預(yù)訓(xùn)練語言模型對新任務(wù)的泛化能力。論文研究了微調(diào)過程中的決策對性能的影響,并創(chuàng)建了一個(gè)包含2000個(gè)任務(wù)的基準(zhǔn)來評估模型。研究發(fā)現(xiàn),微調(diào)決策如基準(zhǔn)規(guī)模、任務(wù)采樣、使用演示等都會影響性能。作者訓(xùn)練了兩個(gè)版本的OPT-IML,它們在四個(gè)基準(zhǔn)上都優(yōu)于其他模型。

3.Finetuned Language Models are Zero-Shot Learners
微調(diào)語言模型是零樣本學(xué)習(xí)器
簡述:這篇文章探索了指令微調(diào)提高語言模型零樣本學(xué)習(xí)能力的方法。作者發(fā)現(xiàn),通過在指令描述的數(shù)據(jù)集上微調(diào)模型,可以顯著提高對未見任務(wù)的性能。作者使用137B參數(shù)模型進(jìn)行指令微調(diào),并評估FLAN在未見任務(wù)上的表現(xiàn),發(fā)現(xiàn)它優(yōu)于零樣本175B GPT-3。消融實(shí)驗(yàn)表明,指令微調(diào)的成功取決于微調(diào)數(shù)據(jù)集數(shù)量、模型規(guī)模和自然語言指令。

4.Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
通過1600多個(gè)NLP任務(wù)的聲明性指令實(shí)現(xiàn)泛化
簡述:作者創(chuàng)建了一個(gè)包含1616個(gè)任務(wù)和專家說明的基準(zhǔn)測試,涵蓋了76種不同的任務(wù)類型,并訓(xùn)練了一個(gè)transformer模型Tk-Instruct,該模型可以遵循各種上下文指令。盡管它小一個(gè)數(shù)量級,但作者發(fā)現(xiàn)它在基準(zhǔn)測試中比現(xiàn)有的模型表現(xiàn)更好。作者進(jìn)一步分析了泛化性能如何受到觀察任務(wù)的數(shù)量、每個(gè)任務(wù)的實(shí)例數(shù)量和模型大小等因素的影響。

5.Scaling Instruction-Finetuned Language Models
擴(kuò)展指令微調(diào)語言模型的規(guī)模
簡述:論文探索了在不同任務(wù)數(shù)量、模型大小和提示設(shè)置下進(jìn)行指令微調(diào)的效果。例如,在1.8K個(gè)任務(wù)上微調(diào)Flan-PaLM 540B模型后,性能得到了顯著提升,并在多個(gè)基準(zhǔn)測試中達(dá)到了最佳性能。作者還公開了Flan-T5檢查點(diǎn),這些檢查點(diǎn)在少樣本性能方面表現(xiàn)強(qiáng)勁。

6.Symbol tuning improves in-context learning in language models
符號微調(diào)提高了語言模型中的上下文學(xué)習(xí)效果
簡述:論文提出了一種名為“符號微調(diào)”的新方法,它使用任意符號替換自然語言標(biāo)簽來微調(diào)語言模型。這種方法有助于模型更好地處理未見過且缺乏明確指令的任務(wù),并提高其在算法推理任務(wù)上的表現(xiàn)。作者在大型Flan-PaLM模型上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)符號微調(diào)可以提高模型對上下文信息的利用能力。

7.Improving In-Context Few-Shot Learning via Self-Supervised Training
通過自我監(jiān)督訓(xùn)練提高上下文少樣本學(xué)習(xí)效果
簡述:這篇論文提出了在預(yù)訓(xùn)練和下游少樣本學(xué)習(xí)之間使用自監(jiān)督學(xué)習(xí)的中間訓(xùn)練階段,旨在教會模型進(jìn)行上下文少樣本學(xué)習(xí)。作者在兩個(gè)基準(zhǔn)測試中提出并評估了四種自監(jiān)督目標(biāo),發(fā)現(xiàn)中間的自監(jiān)督學(xué)習(xí)階段產(chǎn)生的模型優(yōu)于強(qiáng)大的基線。消融研究顯示,幾個(gè)因素影響下游表現(xiàn),如訓(xùn)練數(shù)據(jù)量和自監(jiān)督目標(biāo)的多樣性。人類注釋的跨任務(wù)監(jiān)督和自監(jiān)督是互補(bǔ)的。

8.Pre-training to learn in context
通過預(yù)訓(xùn)練來學(xué)習(xí)上下文
簡述:PICL是一種預(yù)訓(xùn)練語言模型的方法,旨在提高模型在上下文中的學(xué)習(xí)能力。通過在大量內(nèi)在任務(wù)上使用簡單的語言建模目標(biāo)進(jìn)行預(yù)訓(xùn)練,PICL鼓勵(lì)模型根據(jù)上下文進(jìn)行推斷和執(zhí)行任務(wù),同時(shí)保持預(yù)訓(xùn)練模型的任務(wù)泛化能力。實(shí)驗(yàn)表明,PICL在各種NLP任務(wù)中表現(xiàn)優(yōu)于其他基線方法,尤其在Super-NaturalInstrctions基準(zhǔn)測試中,它優(yōu)于更大的語言模型。

推理
1.What Makes Good In-Context Examples for GPT-3?
什么讓GPT-3具有良好的上下文示例?
簡述:GPT-3是一種強(qiáng)大的語言模型,適用于多種NLP任務(wù),包括上下文學(xué)習(xí)。然而,如何選擇上下文示例對于GPT-3的性能至關(guān)重要。作者發(fā)現(xiàn),通過檢索與測試查詢樣本語義相似的示例,可以更好地利用GPT-3的上下文學(xué)習(xí)能力。這種方法在多個(gè)基準(zhǔn)測試中優(yōu)于隨機(jī)選擇基線,并且在表格到文本生成和開放領(lǐng)域問答等任務(wù)中取得了顯著成果。

2.Learning To Retrieve Prompts for In-Context Learning
學(xué)習(xí)檢索上下文學(xué)習(xí)的提示
簡述:上下文學(xué)習(xí)是一種自然語言理解的新方法,大型預(yù)訓(xùn)練語言模型觀察測試實(shí)例和訓(xùn)練示例作為輸入,直接解碼輸出而不更新參數(shù)。這種方法的效果取決于所選擇的訓(xùn)練示例(提示)。本文提出了一種新方法,使用帶標(biāo)注的數(shù)據(jù)和LM來檢索提示。給定輸入-輸出對,估計(jì)給定輸入和候選訓(xùn)練示例作為提示時(shí)輸出的概率,并根據(jù)該概率標(biāo)記訓(xùn)練示例。然后訓(xùn)練一個(gè)高效的密集檢索器,用于測試時(shí)檢索訓(xùn)練示例作為提示。
掃碼添加小享,回復(fù)“上下文學(xué)習(xí)”
免費(fèi)領(lǐng)取全部論文+代碼合集

3.Demystifying Prompts in Language Models via Perplexity Estimation
基于困惑度估計(jì)的語言模型提示解謎
簡述:語言模型可以接受各種零樣本和少樣本學(xué)習(xí)任務(wù)的提示,但性能會因提示而異,我們還不明白原因或如何選擇最佳提示。本文分析性能變化的因素,發(fā)現(xiàn)模型對提示語言的熟悉程度影響其性能。作者設(shè)計(jì)了一種新方法來創(chuàng)建提示:首先,使用GPT3和回譯自動擴(kuò)展手動創(chuàng)建的小提示集;然后,選擇困惑度最低的提示可顯著提高性能。
4.Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator
利用自回歸語言模型作為演示生成器
簡述:本文提出了一種新的方法,即自生成上下文學(xué)習(xí)(SG-ICL),用于減少大規(guī)模預(yù)訓(xùn)練語言模型(PLM)對外部演示的依賴。SG-ICL從PLM本身生成演示,以進(jìn)行上下文學(xué)習(xí)。作者在四個(gè)文本分類任務(wù)上進(jìn)行了實(shí)驗(yàn),并發(fā)現(xiàn)SG-ICL的表現(xiàn)優(yōu)于零樣本學(xué)習(xí),大致相當(dāng)于0.6個(gè)黃金訓(xùn)練樣本。與從訓(xùn)練集中隨機(jī)選擇的演示相比,該生成的演示表現(xiàn)更一致,方差更低。

5.An Information-theoretic Approach to Prompt Engineering Without Ground Truth Labels
無需真實(shí)標(biāo)簽的提示工程的信息論方法
簡述:現(xiàn)有的提示工程方法需要大量標(biāo)記數(shù)據(jù)和訪問模型參數(shù)。論文介紹了一種新方法,無需標(biāo)記示例或直接訪問模型。作者選擇最大化輸入和模型輸出之間互信息的模板。在8個(gè)數(shù)據(jù)集中,作者發(fā)現(xiàn)高互信息的模板任務(wù)準(zhǔn)確度也高。在最大模型上,使用該方法可使準(zhǔn)確度達(dá)到最佳的90%,無需真實(shí)標(biāo)簽。

6.Active Example Selection for In-Context Learning
上下文學(xué)習(xí)中的主動范例選擇
簡述:大型語言模型能夠從少量示例中學(xué)習(xí)執(zhí)行各種任務(wù),無需微調(diào)。但是,上下文學(xué)習(xí)的性能在示例之間不穩(wěn)定。論文提出了一種強(qiáng)化學(xué)習(xí)算法來選擇示例,以實(shí)現(xiàn)更好的泛化性能。這種方法在GPT-2上表現(xiàn)良好,平均提高了5.8%的性能。盡管在更大的GPT-3模型上改進(jìn)效果較小,但該方法仍然表明了大型語言模型的能力不斷增強(qiáng)。

7.Finding supporting examples for in-context learning
8.Large language models are implicitly topic models: Explaining and finding good demonstrations for in-context learning
9.Unified Demonstration Retriever for In-Context Learning
10.Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity
11.Instruction Induction: From Few Examples to Natural Language Task Descriptions
12.Large Language Models Are Human-Level Prompt Engineers
13.Self-Instruct: Aligning Language Models with Self-Generated Instructions
14.Complexity-based prompting for multi-step reasoning
15.Automatic Chain of Thought Prompting in Large Language Models
16.Measuring and Narrowing the Compositionality Gap in Language Models
17.Small models are valuable plug-ins for large language models
18.Iteratively prompt pre-trained language models for chain of thought
19.Least-to-Most Prompting Enables Complex Reasoning in Large Language Models
20.Noisy Channel Language Model Prompting for Few-Shot Text Classification
21.Structured Prompting: Scaling In-Context Learning to 1,000 Examples
22.k nn prompting: Learning beyond the context with nearest neighbor inference
23.MoT: Memory-of-Thought Enables ChatGPT to Self-Improve
掃碼添加小享,回復(fù)“上下文學(xué)習(xí)”
免費(fèi)領(lǐng)取全部論文+代碼合集
