大模型指令調(diào)優(yōu)(IT)技術(shù)進(jìn)展與方法匯總,附18篇論文及模型源碼
指令調(diào)優(yōu)(IT),一種針對(duì)大型語(yǔ)言模型(LLMs)的訓(xùn)練方法,是提高大型語(yǔ)言模型能力和可控性的關(guān)鍵技術(shù)。該方法的核心目標(biāo)是使LLM具備遵循自然語(yǔ)言指令并完成現(xiàn)實(shí)世界任務(wù)的能力。它彌補(bǔ)了LLM的下一個(gè)單詞預(yù)測(cè)目標(biāo)與用戶讓LLM遵循人類(lèi)指令的目標(biāo)之間的差距,約束了模型的輸出,使其符合預(yù)期的響應(yīng)特征或領(lǐng)域知識(shí)。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,指令調(diào)優(yōu)在一些需要執(zhí)行特定任務(wù)的場(chǎng)景上,如機(jī)器翻譯、問(wèn)答系統(tǒng)等,都有著廣泛的應(yīng)用前景。
為幫助大家理解并掌握IT,學(xué)姐這次整理了18種指令調(diào)優(yōu)方法,包含指令微調(diào)LLMs、多模態(tài)指令微調(diào)兩個(gè)方向,每個(gè)方法的原文及模型源碼也都整理啦,需要的同學(xué)看下面
掃碼添加小享,回復(fù)“指令調(diào)優(yōu)”
免費(fèi)領(lǐng)取全部論文及模型源碼

指令微調(diào)LLMs
1.InstructGPT
論文:Training language models to follow instructions with human feedback
通過(guò)人類(lèi)反饋訓(xùn)練語(yǔ)言模型遵循指令
簡(jiǎn)述:本文提出一種通過(guò)人類(lèi)反饋微調(diào)語(yǔ)言模型的方法,使其與用戶意圖對(duì)齊。作者收集了標(biāo)注者演示所需行為的數(shù)據(jù)集和模型輸出排名的數(shù)據(jù)集,微調(diào)GPT-3得到InstructGPT模型。在人機(jī)評(píng)估中,1.3B參數(shù)的InstructGPT模型比175B GPT-3更受青睞,同時(shí)減少了輸出不真實(shí)和有害的情況,性能下降不大。

2.BLOOMZ
論文:Crosslingual Generalization through Multitask Finetuning
跨語(yǔ)言泛化通過(guò)多任務(wù)微調(diào)實(shí)現(xiàn)
簡(jiǎn)述:本文將多任務(wù)微調(diào)應(yīng)用于預(yù)訓(xùn)練的多語(yǔ)言BLOOM和mT5模型族,生成了名為BLOOMZ和mT0的微調(diào)變體。研究發(fā)現(xiàn),在英語(yǔ)任務(wù)上微調(diào)大型多語(yǔ)言語(yǔ)言模型并使用英文提示可以使模型泛化到非英語(yǔ)語(yǔ)言的任務(wù)中。在多語(yǔ)言任務(wù)上使用英文提示進(jìn)行微調(diào)進(jìn)一步提高了性能,實(shí)現(xiàn)了各種最先進(jìn)的零樣本結(jié)果。

3.FLAN-T5
論文:Scaling Instruction-Finetuned Language Models
縮放指令微調(diào)語(yǔ)言模型
簡(jiǎn)述:本文研究了在一系列指令性數(shù)據(jù)集中微調(diào)語(yǔ)言模型的效果,并發(fā)現(xiàn)這可以提高模型性能和對(duì)未見(jiàn)過(guò)的任務(wù)的泛化能力。作者特別關(guān)注三個(gè)方面:擴(kuò)展任務(wù)數(shù)量、擴(kuò)大模型規(guī)模、在思維鏈數(shù)據(jù)上進(jìn)行微調(diào)。研究發(fā)現(xiàn),在這些方面進(jìn)行指令微調(diào)可以顯著提高各種模型類(lèi)別、提示設(shè)置和評(píng)估基準(zhǔn)的性能。例如,F(xiàn)lan-PaLM 540B在1.8K個(gè)任務(wù)上進(jìn)行了指令微調(diào),比PaLM 540B高出很多(平均+9.4%)。作者還公開(kāi)發(fā)布了Flan-T5檢查點(diǎn),它在少樣本性能方面表現(xiàn)強(qiáng)勁,甚至與更大的模型相比也毫不遜色。

4.Alpaca
論文:Alpaca: A Strong, Replicable Instruction-Following Model
一種強(qiáng)大、可復(fù)制的指令跟隨模型
簡(jiǎn)述:指令跟隨模型越來(lái)越強(qiáng)大,但仍然存在許多缺陷。為了解決這些問(wèn)題,研究人員發(fā)布了一種名為Alpaca的指令跟隨語(yǔ)言模型,它是基于Meta的LLaMA 7B模型微調(diào)而來(lái)的。該模型在52K個(gè)以text-davinci-003的自我指導(dǎo)風(fēng)格生成的指令跟隨演示上進(jìn)行了訓(xùn)練。

5.Vicuna
項(xiàng)目:Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Qualit
一個(gè)開(kāi)源聊天機(jī)器人,以90%的ChatGPT質(zhì)量給GPT-4留下深刻印象
簡(jiǎn)述:LMSYS介紹了開(kāi)源聊天機(jī)器人Vicuna-13B,它是通過(guò)在ShareGPT上收集的用戶共享對(duì)話中微調(diào)LLaMA進(jìn)行訓(xùn)練的。初步評(píng)估使用GPT-4作為評(píng)判標(biāo)準(zhǔn)顯示,Vicuna-13B實(shí)現(xiàn)了超過(guò)90%*的OpenAI ChatGPT和Google Bard的質(zhì)量,并在超過(guò)90%*的情況下優(yōu)于其他模型,如LLaMA和斯坦福Alpaca。
6.GPT-4-LLM
論文:Instruction tuning with gpt-4
使用GPT-4進(jìn)行指令調(diào)優(yōu)
簡(jiǎn)述:本文介紹了使用GPT-4生成指令跟隨數(shù)據(jù)來(lái)微調(diào)大型語(yǔ)言模型(LLMs)的首次嘗試。早期的實(shí)驗(yàn)表明,使用GPT-4生成的52K英文和中文指令跟隨數(shù)據(jù)比先前最先進(jìn)的模型生成的指令跟隨數(shù)據(jù)在全新任務(wù)上表現(xiàn)出更出色的零樣本性能。作者還收集了來(lái)自GPT-4的反饋和比較數(shù)據(jù),以實(shí)現(xiàn)全面的評(píng)估和獎(jiǎng)勵(lì)模型訓(xùn)練。

7.WizardLM
論文:WizardLM: Empowering Large Language Models to Follow Complex Instructions
賦予大型語(yǔ)言模型遵循復(fù)雜指令的能力
簡(jiǎn)述:本文提出了一種使用大型語(yǔ)言模型(LLM)生成指令數(shù)據(jù)的方法,以代替人工創(chuàng)建。通過(guò)逐步將初始指令重寫(xiě)為更復(fù)雜的指令,并將所有生成的指令數(shù)據(jù)混合到一起微調(diào)LLaMA,得到的結(jié)果被稱(chēng)為WizardLM。在人類(lèi)評(píng)估和GPT-4自動(dòng)評(píng)估中,WizardLM表現(xiàn)出比ChatGPT更好的能力。

8.LIMA
論文:Lima: Less is more for alignment
對(duì)齊時(shí),少即是多
簡(jiǎn)述:本文介紹了一種使用大型語(yǔ)言模型(LLM)進(jìn)行訓(xùn)練的方法,分為無(wú)監(jiān)督預(yù)訓(xùn)練和大規(guī)模指令微調(diào)兩個(gè)階段。作者通過(guò)訓(xùn)練LIMA來(lái)證明,在有監(jiān)督損失微調(diào)中,只需要少量示例即可讓LLM學(xué)習(xí)到高質(zhì)量的輸出。LIMA表現(xiàn)出非常出色的性能,能夠遵循特定的響應(yīng)格式,并泛化到未見(jiàn)過(guò)的任務(wù)上。
9.OPT-IML
論文:OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
通過(guò)泛化的視角擴(kuò)展語(yǔ)言模型指令元學(xué)習(xí)
簡(jiǎn)述:論文提出了一種使用大型預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行指令元學(xué)習(xí)的方法,通過(guò)擴(kuò)展模型和基準(zhǔn)規(guī)模來(lái)提高其在未見(jiàn)過(guò)的任務(wù)上的泛化能力。作者創(chuàng)建了一個(gè)包含2000個(gè)NLP任務(wù)的大型基準(zhǔn)測(cè)試集,并展示了在不同指令微調(diào)決策下的應(yīng)用效果。通過(guò)這個(gè)框架,作者訓(xùn)練了OPT-IML 30B和175B,這兩個(gè)模型是OPT的指令微調(diào)版本,并在四個(gè)不同的評(píng)估基準(zhǔn)測(cè)試集上表現(xiàn)出了很好的性能。

10.Dolly 2.0
項(xiàng)目:Free dolly: Introducing the world’s first truly open instruction-tuned llm
介紹世界上第一個(gè)真正開(kāi)放的指令調(diào)優(yōu)LLM
簡(jiǎn)述:Dolly 2.0 是第一個(gè)開(kāi)源的、指令遵循的、120億參數(shù)的語(yǔ)言模型,完全基于EleutherAI pythia模型系列進(jìn)行微調(diào),并專(zhuān)門(mén)使用了一個(gè)新的、高質(zhì)量的人工生成指令遵循數(shù)據(jù)集,該數(shù)據(jù)集是在Databricks員工中進(jìn)行眾包收集的。
掃碼添加小享,回復(fù)“指令調(diào)優(yōu)”
免費(fèi)領(lǐng)取全部論文及模型源碼

11.Tülu
論文:How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
探索開(kāi)放資源上的指令調(diào)優(yōu)狀態(tài)
簡(jiǎn)述:本文研究了在一系列開(kāi)放指令遵循數(shù)據(jù)集上進(jìn)行指令調(diào)優(yōu)的語(yǔ)言模型的最新進(jìn)展,提供了一組從67億到650億參數(shù)規(guī)模的指令調(diào)優(yōu)模型,并使用自動(dòng)、基于模型和基于人類(lèi)的指標(biāo)對(duì)其進(jìn)行了評(píng)估。實(shí)驗(yàn)表明,不同的指令調(diào)優(yōu)數(shù)據(jù)集可以發(fā)現(xiàn)或增強(qiáng)特定的技能,但沒(méi)有單個(gè)數(shù)據(jù)集(或組合)在所有評(píng)估中提供最佳性能。作者還介紹了Tülu,這是在高質(zhì)量的開(kāi)放資源組合上微調(diào)的最佳表現(xiàn)的指令調(diào)優(yōu)模型套件。

12.UltraLM
論文:Enhancing chat language models by scaling high-quality instructional conversations
通過(guò)擴(kuò)展高質(zhì)量的指導(dǎo)性對(duì)話來(lái)增強(qiáng)聊天語(yǔ)言模型
簡(jiǎn)述:作者提供了一個(gè)多樣化、信息量大的指導(dǎo)性對(duì)話數(shù)據(jù)集UltraChat,并基于該數(shù)據(jù)集微調(diào)了一個(gè)強(qiáng)大的對(duì)話模型UltraLLaMA。評(píng)估結(jié)果表明,UltraLLaMA優(yōu)于其他開(kāi)源模型。

多模態(tài)指令微調(diào)
1.InstructPix2Pix
論文:Instructpix2pix: Learning to follow image editing instructions
學(xué)習(xí)遵循圖像編輯指令
簡(jiǎn)述:本文提出了一種根據(jù)人類(lèi)指令快速編輯圖像的方法。作者結(jié)合了兩個(gè)大型預(yù)訓(xùn)練模型的知識(shí)來(lái)生成大量的圖像編輯示例數(shù)據(jù)集,并使用這個(gè)數(shù)據(jù)集訓(xùn)練了一個(gè)新的條件擴(kuò)散模型InstructPix2Pix。該模型可以在幾秒鐘內(nèi)快速編輯圖像,并在推理時(shí)推廣到真實(shí)圖像和用戶編寫(xiě)的指令。

2.LLaVA
論文:Visual instruction tuning
可視化指令調(diào)優(yōu)
簡(jiǎn)述:本文介紹了一種使用語(yǔ)言模型生成多模態(tài)語(yǔ)言-圖像指令遵循數(shù)據(jù)的可視化指令調(diào)優(yōu)方法,以改善新任務(wù)的零樣本能力。作者首次嘗試使用只有語(yǔ)言的GPT-4來(lái)生成多模態(tài)語(yǔ)言-圖像指令遵循數(shù)據(jù),并通過(guò)這種生成的數(shù)據(jù)進(jìn)行指令調(diào)優(yōu),引入了LLaVA。LLaVA是一個(gè)端到端訓(xùn)練的大型多模態(tài)模型,將視覺(jué)編碼器和LLM連接起來(lái),用于通用的視覺(jué)和語(yǔ)言理解。

3.Video-LLaMA
論文:Video-llama: An instruction-tuned audio-visual language model for video understanding
一種用于視頻理解的指令調(diào)優(yōu)的視聽(tīng)語(yǔ)言模型
簡(jiǎn)述:論文提出了一種多模態(tài)框架Video-LLaMA,可讓大型語(yǔ)言模型理解視頻中的視覺(jué)和聽(tīng)覺(jué)內(nèi)容。該模型從凍結(jié)的預(yù)訓(xùn)練視覺(jué)和音頻編碼器以及凍結(jié)的LLMs開(kāi)始進(jìn)行跨模態(tài)訓(xùn)練,解決了捕捉視覺(jué)場(chǎng)景中的時(shí)間變化和整合視聽(tīng)信號(hào)兩個(gè)挑戰(zhàn)。作者還提出了一個(gè)Video Q-former來(lái)將預(yù)訓(xùn)練的圖像編碼器組裝到視頻編碼器中,并引入了一個(gè)視頻到文本生成任務(wù)來(lái)學(xué)習(xí)視頻-語(yǔ)言對(duì)應(yīng)關(guān)系。

4.InstructBLIP
論文:Instructblip: Towards general-purpose visionlanguage models with instruction tuning
通過(guò)指令調(diào)優(yōu)實(shí)現(xiàn)通用視覺(jué)語(yǔ)言模型
簡(jiǎn)述:本文介紹了一種通用視覺(jué)語(yǔ)言模型InstructBLIP,通過(guò)大規(guī)模的預(yù)訓(xùn)練和指令調(diào)優(yōu)實(shí)現(xiàn)了廣泛的能力。作者使用26個(gè)公開(kāi)可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,引入了一種指令感知的查詢轉(zhuǎn)換器來(lái)提取相關(guān)信息特征。在13個(gè)持有數(shù)據(jù)集中進(jìn)行訓(xùn)練后,InstructBLIP在所有測(cè)試集上都達(dá)到了最先進(jìn)的零樣本性能,顯著優(yōu)于其他模型。在單個(gè)下游任務(wù)上進(jìn)行微調(diào)時(shí),InstructBLIP也取得了很好的性能。

5.Otter
論文:Otter: A multi-modal model with in-context instruction tuning
一種具有上下文指令調(diào)優(yōu)的多模態(tài)模型
簡(jiǎn)述:本文介紹了多模態(tài)模型Otter,它基于DeepMind的Flamingo模型并通過(guò)上下文指令調(diào)優(yōu)進(jìn)行了訓(xùn)練。作者使用類(lèi)似的方式構(gòu)建了MultI-Modal In-Context Instruction Tuning(MIMIC-IT)數(shù)據(jù)集,并展示了Otter在遵循指令和上下文學(xué)習(xí)方面的優(yōu)秀能力。

6.MultiModal-GPT
論文:Multimodal-gpt: A vision and language model for dialogue with humans
一種用于與人類(lèi)對(duì)話的視覺(jué)和語(yǔ)言模型
簡(jiǎn)述:本文介紹了一種名為MultiModal-GPT的視覺(jué)和語(yǔ)言模型,用于與人類(lèi)進(jìn)行多輪對(duì)話。該模型可以從人類(lèi)那里遵循各種指令,例如生成詳細(xì)的描述、計(jì)算感興趣的對(duì)象數(shù)量以及回答用戶提出的一般問(wèn)題。作者使用視覺(jué)和語(yǔ)言數(shù)據(jù)構(gòu)建了多模態(tài)指令調(diào)優(yōu)的指令模板,以使模型能夠理解和遵循人類(lèi)的指令。作者還利用僅語(yǔ)言指令跟隨數(shù)據(jù)對(duì)MultiModal-GPT進(jìn)行聯(lián)合訓(xùn)練,有效地提高了對(duì)話性能。

掃碼添加小享,回復(fù)“指令調(diào)優(yōu)”
免費(fèi)領(lǐng)取全部論文及模型源碼
