散文網(wǎng) » 科技 »學習 » 大模型LLM微調(diào)技術(shù)進展與熱門方法匯總【附開源代碼】

大模型LLM微調(diào)技術(shù)進展與熱門方法匯總【附開源代碼】

2023-09-01 12:23 作者:深度之眼官方賬號 0人讀過 | 我要投稿

大模型微調(diào)是機器學習中的一項重要技術(shù)，旨在幫助我們降低成本，進一步提高模型的性能。具體來說，大模型微調(diào)指的是在現(xiàn)有預訓練模型的基礎(chǔ)上，根據(jù)特定任務(wù)數(shù)據(jù)進行微調(diào)，以適應(yīng)任務(wù)的特定需求，以便我們更好地解決各種實際問題。

目前較為流行的大模型微調(diào)技術(shù)是PEFT(Parameter-Efficient Fine Tuning)，只對部分的參數(shù)進行訓練，主要有Prompt Tuning、Prefix Tuning、LoRA、QLoRA等方法。

這次整理的19篇論文都是大模型微調(diào)相關(guān)的必讀論文，包括了技術(shù)向文章以及模型微調(diào)方法相關(guān)，建議同學們收藏一下仔細研讀。

論文原文及開源代碼照例已打包，看這里領(lǐng)取??

掃碼添加小享，回復“模型微調(diào)”??

免費獲取全部論文+代碼合集

技術(shù)

1、Parameter-efficient fine-tuning of large-scale pre-trained language models

標題：參數(shù)高效的大規(guī)模預訓練語言模型微調(diào)

一句話概括：隨著預訓練語言模型規(guī)模的增長，逐漸出現(xiàn)了只優(yōu)化和改變模型的小部分參數(shù)的delta調(diào)整方法，這種參數(shù)高效的調(diào)整方式可以有效地刺激大規(guī)模模型，并極大降低計算和存儲成本。

2、The Power of Scale for Parameter-Efficient Prompt Tuning

標題：規(guī)模化帶來的參數(shù)高效提示調(diào)優(yōu)的力量

一句話概括：本文通過學習軟提示來調(diào)節(jié)凍結(jié)的語言模型，這種提示調(diào)優(yōu)方法隨著模型規(guī)模的增長而變得更有競爭力，在大模型上幾乎匹配全模型調(diào)優(yōu)的性能，還具有魯棒性和效率優(yōu)勢。

3、Scaling Instruction-Finetuned Language Models

標題：大規(guī)模指令微調(diào)語言模型

一句話概括：在大規(guī)模指令任務(wù)上微調(diào)語言模型可以極大提升模型在各類設(shè)置下的性能和泛化能力，是增強預訓練語言模型效果和可用性的通用有效方法。

4、Towards Better Instruction Following Language Models for Chinese

標題：面向中文的更好指令遵循語言模型

一句話概括：本文通過在多種公開中文指令數(shù)據(jù)集上全面評估開源對話模型，發(fā)現(xiàn)訓練數(shù)據(jù)的量、質(zhì)和語言分布等因素對模型性能有重要影響，并通過擴充詞表和二次預訓練提升了中文領(lǐng)域模型的效果。

5、Exploring the Impact of Instruction Data Scaling on Large Language Models An Empirical Study on Real-World Use Cases

標題：探索指令數(shù)據(jù)規(guī)?；瘜Υ笠?guī)模語言模型的影響——基于真實場景的實證研究

一句話概括：本文通過構(gòu)建真實場景的評估集，發(fā)現(xiàn)指令調(diào)優(yōu)后模型性能隨訓練數(shù)據(jù)量的提升而持續(xù)改進，但在某些任務(wù)上提升乏力，需要考慮數(shù)據(jù)質(zhì)量選擇、模型和方法的擴展。

6、ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation

標題：ChatHome：開發(fā)并評估一個用于家居裝修的領(lǐng)域特定語言模型

一句話概括：本文通過領(lǐng)域自適應(yīng)預訓練和大規(guī)模指令調(diào)優(yōu)，開發(fā)了ChatHome這一家居裝修領(lǐng)域特定語言模型，并在通用和專業(yè)評估集上證明了其在提升領(lǐng)域能力的同時保留通用性的效果。

7、A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model

標題：基于中文指令數(shù)據(jù)的全參數(shù)和LoRA調(diào)優(yōu)方式在指令遵循大語言模型上的比較研究

一句話概括：本文通過在中文指令數(shù)據(jù)集上比較全參數(shù)和LoRA調(diào)優(yōu)策略，發(fā)現(xiàn)基礎(chǔ)模型選擇、可學習參數(shù)量、訓練數(shù)據(jù)集規(guī)模和成本都是影響指令遵循模型性能的關(guān)鍵因素。

8、Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

標題：為中文LLaMA和Alpaca設(shè)計高效和有效的文本編碼

一句話概括：本文為LLaMA和Alpaca設(shè)計了高效和有效的中文文本編碼方法，通過擴充中文詞表、中文數(shù)據(jù)二次預訓練和中文指令微調(diào)，顯著提升了模型對中文的理解和生成能力，在中文按指令執(zhí)行任務(wù)上取得了競爭性能。

9、BloombergGPT: A Large Language Model for Finance（金融）

標題：BloombergGPT：針對金融領(lǐng)域的大規(guī)模語言模型

一句話概括：本文提出了BloombergGPT，這是一個針對金融領(lǐng)域訓練的500億參數(shù)語言模型，構(gòu)建了3630億詞元的金融領(lǐng)域數(shù)據(jù)集進行模型預訓練，是目前最大的領(lǐng)域特定數(shù)據(jù)集之一，BloombergGPT在金融領(lǐng)域任務(wù)上明顯優(yōu)于現(xiàn)有模型，同時在通用語言模型基準測試上保持競爭力。

10、XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters（金融）

標題：軒轅2.0：數(shù)百億參數(shù)規(guī)模的大型中文金融聊天模型

一句話概括：本文提出了迄今為止最大的中文聊天模型軒轅2.0，基于BLOOM-176B架構(gòu)，并采用混合調(diào)優(yōu)的新型訓練方法來緩解災難性遺忘問題。通過整合通用領(lǐng)域和特定領(lǐng)域知識，以及預訓練和微調(diào)階段的融合，軒轅2.0能夠在中文金融領(lǐng)域提供準確、場景適宜的回復。

11、Lawyer LLaMA Technical Report（法律）

標題：法律家LLaMA技術(shù)報告

一句話概括：本文針對法律領(lǐng)域，探索了如何在持續(xù)訓練階段注入領(lǐng)域知識，以及如何設(shè)計合適的監(jiān)督微調(diào)任務(wù)，來幫助模型處理實際問題;此外，為減輕生成時的虛構(gòu)問題，添加檢索模塊在回答查詢前提取相關(guān)法條作為證據(jù)。增強的模型在法律領(lǐng)域問答、法律判斷和案例分析任務(wù)上都獲得顯著提升。

12、ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases（法律）

標題：ChatLaw: 集成外部知識源的開源法律大語言模型

一句話概括：本文提出開源法律大語言模型ChatLaw，精心設(shè)計法律微調(diào)數(shù)據(jù)集，并結(jié)合向量數(shù)據(jù)庫檢索與關(guān)鍵詞檢索的方法有效降低單純依靠向量檢索的不準確率，還通過自注意力機制增強模型處理參考數(shù)據(jù)錯誤的能力，從模型層面優(yōu)化虛構(gòu)問題，提高問題解析能力。

13、LIMA: Less Is More for Alignment

標題：LIMA: 對齊而言，少即是多

一句話概括：通過只用1,000個精選提示訓練65B參數(shù)的LIMA模型，發(fā)現(xiàn)大語言模型的知識主要在預訓練中獲得，指令調(diào)優(yōu)數(shù)據(jù)量很小就可產(chǎn)生高質(zhì)量輸出，提示數(shù)據(jù)越少模型推斷能力越強，表明預訓練比調(diào)優(yōu)更為關(guān)鍵。

14、How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

標題：駱駝能走多遠? 在開放資源上探索指令調(diào)優(yōu)的狀態(tài)

一句話概括：本文通過在各種開放指令數(shù)據(jù)集上對6.7B到65B參數(shù)量的調(diào)優(yōu)模型進行系統(tǒng)評估，發(fā)現(xiàn)單一數(shù)據(jù)集難以提升所有能力，不同的數(shù)據(jù)集可強化特定技能，最佳模型平均達到ChatGPT的83%和GPT-4的68%性能，說明基模型與指令調(diào)優(yōu)數(shù)據(jù)仍需進一步投入以縮小差距。

掃碼添加小享，回復“模型微調(diào)”??

免費獲取全部論文+代碼合集

方法

1、LoRA: Low-Rank Adaptation of Large Language Models

標題：LoRA: 大語言模型的低秩自適應(yīng)

一句話概括：作者提出了LoRA低秩自適應(yīng)方法，通過在Transformer架構(gòu)的每個層中注入可訓練的低秩分解矩陣，大大減少下游任務(wù)的可訓練參數(shù)量，相比于對GPT-3 175B完全微調(diào)，LoRA可以將可訓練參數(shù)量減少1萬倍，GPU內(nèi)存需求減少3倍，但性能與完全微調(diào)相當或更好。作者還通過實證研究揭示了語言模型自適應(yīng)中的秩缺陷問題，釋明了LoRA的有效性。

2、Parameter-Efficient Transfer Learning for NLP

標題：NLP中參數(shù)高效的遷移學習

一句話概括：作者提出了adapter模塊進行遷移，相較于每個任務(wù)都要微調(diào)整個模型的昂貴方案，adapter為每個任務(wù)只增加很少的參數(shù)， Tasks可以添加而不需要重新訓練以前的模型，原網(wǎng)絡(luò)的參數(shù)保持固定，實現(xiàn)了高度的參數(shù)共享。在26項文本分類任務(wù)包括GLUE基準測試上，adapter取得接近SOTA的性能，但每個任務(wù)只增加很少參數(shù)，在GLUE上只增加了3.6%參數(shù)就達到完全微調(diào)的0.4%性能，大大提升了參數(shù)利用效率。

3、MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer

標題：MAD-X: 基于適配器的多任務(wù)跨語言遷移框架

一句話概括：作者提出基于adapter的MAD-X框架，通過學習模塊化的語言和任務(wù)表示，實現(xiàn)對任意任務(wù)和語言的高可移植性和參數(shù)高效遷移，彌補了當前多語言預訓練模型如BERT和XLM-R在低資源語言上的弱點，并在多個跨語言遷移任務(wù)上優(yōu)于或匹敵當前最優(yōu)方。

4、Prefix-Tuning: Optimizing Continuous Prompts for Generation

標題：Prefix-Tuning: 優(yōu)化連續(xù)提示進行生成

一句話概括：作者提出了prefix-tuning，這是適用于自然語言生成任務(wù)的微調(diào)方法的一種輕量化替代方案，可以固定語言模型的參數(shù)，僅優(yōu)化一個小的連續(xù)的特定任務(wù)向量(稱為prefix)。prefix-tuning借鑒提示學習的思想，后續(xù)的token可以參照prefix，就像prefix是“虛擬token”一樣。在GPT-2的表格到文本生成和BART的摘要任務(wù)上，只學習0.1%的參數(shù)，prefix-tuning在充分數(shù)據(jù)下獲得了與微調(diào)相當?shù)男阅?，在小?shù)據(jù)集上優(yōu)于微調(diào)，并能更好地推廣到訓練中未見的主題。

5、GPT Understands, Too

標題：GPT也能理解

一句話概括：作者提出了P-tuning方法，使用可訓練的連續(xù)提示嵌入，使GPT在自然語言理解(NLU)任務(wù)上優(yōu)于或匹敵相似規(guī)模的BERT。在LAMA知識探測基準測試上，最佳GPT無需在測試時提供額外文本就可以恢復64%的世界知識，比之前最佳提高20%以上。在SuperGLUE基準測試上，GPT在有監(jiān)督學習中可匹敵相似規(guī)模BERT。重要的是，P-tuning也提升了BERT在少樣本和全監(jiān)督場景的表現(xiàn)，大大減少了提示設(shè)計的需求，因此P-tuning超越當前在少樣本SuperGLUE上的狀態(tài)oftheart。

掃碼添加小享，回復“模型微調(diào)”??

免費獲取全部論文+代碼合集

標簽：