大模型LLM微調(diào)技術(shù)進展與熱門方法匯總【附開源代碼】
大模型微調(diào)是機器學習中的一項重要技術(shù),旨在幫助我們降低成本,進一步提高模型的性能。具體來說,大模型微調(diào)指的是在現(xiàn)有預訓練模型的基礎(chǔ)上,根據(jù)特定任務(wù)數(shù)據(jù)進行微調(diào),以適應(yīng)任務(wù)的特定需求,以便我們更好地解決各種實際問題。
目前較為流行的大模型微調(diào)技術(shù)是PEFT(Parameter-Efficient Fine Tuning),只對部分的參數(shù)進行訓練,主要有Prompt Tuning、Prefix Tuning、LoRA、QLoRA等方法。
這次整理的19篇論文都是大模型微調(diào)相關(guān)的必讀論文,包括了技術(shù)向文章以及模型微調(diào)方法相關(guān),建議同學們收藏一下仔細研讀。
論文原文及開源代碼照例已打包,看這里領(lǐng)取??
掃碼添加小享,回復“模型微調(diào)”??
免費獲取全部論文+代碼合集

技術(shù)
1、Parameter-efficient fine-tuning of large-scale pre-trained language models
標題:參數(shù)高效的大規(guī)模預訓練語言模型微調(diào)
一句話概括:隨著預訓練語言模型規(guī)模的增長,逐漸出現(xiàn)了只優(yōu)化和改變模型的小部分參數(shù)的delta調(diào)整方法,這種參數(shù)高效的調(diào)整方式可以有效地刺激大規(guī)模模型,并極大降低計算和存儲成本。
2、The Power of Scale for Parameter-Efficient Prompt Tuning
標題:規(guī)模化帶來的參數(shù)高效提示調(diào)優(yōu)的力量
一句話概括:本文通過學習軟提示來調(diào)節(jié)凍結(jié)的語言模型,這種提示調(diào)優(yōu)方法隨著模型規(guī)模的增長而變得更有競爭力,在大模型上幾乎匹配全模型調(diào)優(yōu)的性能,還具有魯棒性和效率優(yōu)勢。

3、Scaling Instruction-Finetuned Language Models
標題:大規(guī)模指令微調(diào)語言模型
一句話概括:在大規(guī)模指令任務(wù)上微調(diào)語言模型可以極大提升模型在各類設(shè)置下的性能和泛化能力,是增強預訓練語言模型效果和可用性的通用有效方法。

4、Towards Better Instruction Following Language Models for Chinese
標題:面向中文的更好指令遵循語言模型
一句話概括:本文通過在多種公開中文指令數(shù)據(jù)集上全面評估開源對話模型,發(fā)現(xiàn)訓練數(shù)據(jù)的量、質(zhì)和語言分布等因素對模型性能有重要影響,并通過擴充詞表和二次預訓練提升了中文領(lǐng)域模型的效果。
5、Exploring the Impact of Instruction Data Scaling on Large Language Models An Empirical Study on Real-World Use Cases
標題:探索指令數(shù)據(jù)規(guī)?;瘜Υ笠?guī)模語言模型的影響——基于真實場景的實證研究
一句話概括:本文通過構(gòu)建真實場景的評估集,發(fā)現(xiàn)指令調(diào)優(yōu)后模型性能隨訓練數(shù)據(jù)量的提升而持續(xù)改進,但在某些任務(wù)上提升乏力,需要考慮數(shù)據(jù)質(zhì)量選擇、模型和方法的擴展。

6、ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation
標題:ChatHome:開發(fā)并評估一個用于家居裝修的領(lǐng)域特定語言模型
一句話概括:本文通過領(lǐng)域自適應(yīng)預訓練和大規(guī)模指令調(diào)優(yōu),開發(fā)了ChatHome這一家居裝修領(lǐng)域特定語言模型,并在通用和專業(yè)評估集上證明了其在提升領(lǐng)域能力的同時保留通用性的效果。

7、A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model
標題:基于中文指令數(shù)據(jù)的全參數(shù)和LoRA調(diào)優(yōu)方式在指令遵循大語言模型上的比較研究
一句話概括:本文通過在中文指令數(shù)據(jù)集上比較全參數(shù)和LoRA調(diào)優(yōu)策略,發(fā)現(xiàn)基礎(chǔ)模型選擇、可學習參數(shù)量、訓練數(shù)據(jù)集規(guī)模和成本都是影響指令遵循模型性能的關(guān)鍵因素。
8、Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
標題:為中文LLaMA和Alpaca設(shè)計高效和有效的文本編碼
一句話概括:本文為LLaMA和Alpaca設(shè)計了高效和有效的中文文本編碼方法,通過擴充中文詞表、中文數(shù)據(jù)二次預訓練和中文指令微調(diào),顯著提升了模型對中文的理解和生成能力,在中文按指令執(zhí)行任務(wù)上取得了競爭性能。
9、BloombergGPT: A Large Language Model for Finance(金融)
標題:BloombergGPT:針對金融領(lǐng)域的大規(guī)模語言模型
一句話概括:本文提出了BloombergGPT,這是一個針對金融領(lǐng)域訓練的500億參數(shù)語言模型,構(gòu)建了3630億詞元的金融領(lǐng)域數(shù)據(jù)集進行模型預訓練,是目前最大的領(lǐng)域特定數(shù)據(jù)集之一,BloombergGPT在金融領(lǐng)域任務(wù)上明顯優(yōu)于現(xiàn)有模型,同時在通用語言模型基準測試上保持競爭力。
10、XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters(金融)
標題:軒轅2.0: 數(shù)百億參數(shù)規(guī)模的大型中文金融聊天模型
一句話概括:本文提出了迄今為止最大的中文聊天模型軒轅2.0,基于BLOOM-176B架構(gòu),并采用混合調(diào)優(yōu)的新型訓練方法來緩解災難性遺忘問題。通過整合通用領(lǐng)域和特定領(lǐng)域知識,以及預訓練和微調(diào)階段的融合,軒轅2.0能夠在中文金融領(lǐng)域提供準確、場景適宜的回復。

11、Lawyer LLaMA Technical Report(法律)
標題:法律家LLaMA技術(shù)報告
一句話概括:本文針對法律領(lǐng)域,探索了如何在持續(xù)訓練階段注入領(lǐng)域知識,以及如何設(shè)計合適的監(jiān)督微調(diào)任務(wù),來幫助模型處理實際問題;此外,為減輕生成時的虛構(gòu)問題,添加檢索模塊在回答查詢前提取相關(guān)法條作為證據(jù)。增強的模型在法律領(lǐng)域問答、法律判斷和案例分析任務(wù)上都獲得顯著提升。

12、ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases(法律)
標題:ChatLaw: 集成外部知識源的開源法律大語言模型
一句話概括:本文提出開源法律大語言模型ChatLaw,精心設(shè)計法律微調(diào)數(shù)據(jù)集,并結(jié)合向量數(shù)據(jù)庫檢索與關(guān)鍵詞檢索的方法有效降低單純依靠向量檢索的不準確率,還通過自注意力機制增強模型處理參考數(shù)據(jù)錯誤的能力,從模型層面優(yōu)化虛構(gòu)問題,提高問題解析能力。

13、LIMA: Less Is More for Alignment
標題:LIMA: 對齊而言,少即是多
一句話概括:通過只用1,000個精選提示訓練65B參數(shù)的LIMA模型,發(fā)現(xiàn)大語言模型的知識主要在預訓練中獲得,指令調(diào)優(yōu)數(shù)據(jù)量很小就可產(chǎn)生高質(zhì)量輸出,提示數(shù)據(jù)越少模型推斷能力越強,表明預訓練比調(diào)優(yōu)更為關(guān)鍵。
14、How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
標題:駱駝能走多遠? 在開放資源上探索指令調(diào)優(yōu)的狀態(tài)
一句話概括:本文通過在各種開放指令數(shù)據(jù)集上對6.7B到65B參數(shù)量的調(diào)優(yōu)模型進行系統(tǒng)評估,發(fā)現(xiàn)單一數(shù)據(jù)集難以提升所有能力,不同的數(shù)據(jù)集可強化特定技能,最佳模型平均達到ChatGPT的83%和GPT-4的68%性能,說明基模型與指令調(diào)優(yōu)數(shù)據(jù)仍需進一步投入以縮小差距。
掃碼添加小享,回復“模型微調(diào)”??
免費獲取全部論文+代碼合集

方法
1、LoRA: Low-Rank Adaptation of Large Language Models
標題:LoRA: 大語言模型的低秩自適應(yīng)
一句話概括:作者提出了LoRA低秩自適應(yīng)方法,通過在Transformer架構(gòu)的每個層中注入可訓練的低秩分解矩陣,大大減少下游任務(wù)的可訓練參數(shù)量,相比于對GPT-3 175B完全微調(diào),LoRA可以將可訓練參數(shù)量減少1萬倍,GPU內(nèi)存需求減少3倍,但性能與完全微調(diào)相當或更好。作者還通過實證研究揭示了語言模型自適應(yīng)中的秩缺陷問題,釋明了LoRA的有效性。

2、Parameter-Efficient Transfer Learning for NLP
標題:NLP中參數(shù)高效的遷移學習
一句話概括:作者提出了adapter模塊進行遷移,相較于每個任務(wù)都要微調(diào)整個模型的昂貴方案,adapter為每個任務(wù)只增加很少的參數(shù), Tasks可以添加而不需要重新訓練以前的模型,原網(wǎng)絡(luò)的參數(shù)保持固定,實現(xiàn)了高度的參數(shù)共享。在26項文本分類任務(wù)包括GLUE基準測試上,adapter取得接近SOTA的性能,但每個任務(wù)只增加很少參數(shù),在GLUE上只增加了3.6%參數(shù)就達到完全微調(diào)的0.4%性能,大大提升了參數(shù)利用效率。
3、MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer
標題:MAD-X: 基于適配器的多任務(wù)跨語言遷移框架
一句話概括:作者提出基于adapter的MAD-X框架,通過學習模塊化的語言和任務(wù)表示,實現(xiàn)對任意任務(wù)和語言的高可移植性和參數(shù)高效遷移,彌補了當前多語言預訓練模型如BERT和XLM-R在低資源語言上的弱點,并在多個跨語言遷移任務(wù)上優(yōu)于或匹敵當前最優(yōu)方。

4、Prefix-Tuning: Optimizing Continuous Prompts for Generation
標題:Prefix-Tuning: 優(yōu)化連續(xù)提示進行生成
一句話概括:作者提出了prefix-tuning,這是適用于自然語言生成任務(wù)的微調(diào)方法的一種輕量化替代方案,可以固定語言模型的參數(shù),僅優(yōu)化一個小的連續(xù)的特定任務(wù)向量(稱為prefix)。prefix-tuning借鑒提示學習的思想,后續(xù)的token可以參照prefix,就像prefix是“虛擬token”一樣。在GPT-2的表格到文本生成和BART的摘要任務(wù)上,只學習0.1%的參數(shù),prefix-tuning在充分數(shù)據(jù)下獲得了與微調(diào)相當?shù)男阅?,在小?shù)據(jù)集上優(yōu)于微調(diào),并能更好地推廣到訓練中未見的主題。
5、GPT Understands, Too
標題:GPT也能理解
一句話概括:作者提出了P-tuning方法,使用可訓練的連續(xù)提示嵌入,使GPT在自然語言理解(NLU)任務(wù)上優(yōu)于或匹敵相似規(guī)模的BERT。在LAMA知識探測基準測試上,最佳GPT無需在測試時提供額外文本就可以恢復64%的世界知識,比之前最佳提高20%以上。在SuperGLUE基準測試上,GPT在有監(jiān)督學習中可匹敵相似規(guī)模BERT。重要的是,P-tuning也提升了BERT在少樣本和全監(jiān)督場景的表現(xiàn),大大減少了提示設(shè)計的需求,因此P-tuning超越當前在少樣本SuperGLUE上的狀態(tài)oftheart。

掃碼添加小享,回復“模型微調(diào)”??
免費獲取全部論文+代碼合集
