直播回顧 |“生成式大語(yǔ)言模型技術(shù)分享”系列之《指令微調(diào)與上下文學(xué)習(xí)》

生成式大語(yǔ)言模型系列直播第六期報(bào)告在7月13日成功舉辦,本期非常榮幸地邀請(qǐng)到了來自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的阿卜杜熱西提·熱合曼博士作為嘉賓,為廣大關(guān)注大語(yǔ)言模型的朋友們帶來了備受期待的《指令微調(diào)與上下文學(xué)習(xí)》主題報(bào)告。

在本期報(bào)告中,阿卜杜熱西提·熱合曼博士主要圍繞如何對(duì)大語(yǔ)言模型進(jìn)行微調(diào)、如何高效地使用大語(yǔ)言模型展開。阿卜杜熱西提·熱合曼博士首先介紹指令微調(diào)相關(guān)內(nèi)容,包括為什么指令微調(diào)、指令微調(diào)的特點(diǎn)以及如何進(jìn)行指令微調(diào)的具體細(xì)節(jié),包括基座模型、數(shù)據(jù)準(zhǔn)備以及微調(diào)步驟,并對(duì)“指令微調(diào)學(xué)習(xí)了什么”進(jìn)行了更深層次的思考。然后介紹了上下文學(xué)習(xí)方法,包括定義、few-shot learning以及一些有趣的發(fā)現(xiàn)。最后分享了思維鏈等大語(yǔ)言模型受益的最新技術(shù),包括CoT、SC-CoT、ToT。
在報(bào)告分享后的Q&A環(huán)節(jié),阿卜杜熱西提·熱合曼博士與各平臺(tái)的網(wǎng)友就指令微調(diào)與上下文學(xué)習(xí)相關(guān)技術(shù)提問進(jìn)行了廣泛討論,以下是本環(huán)節(jié)的問題和解答:
Q1:指令微調(diào)與常規(guī)微調(diào)的區(qū)別是什么?
A1:指令微調(diào),它針對(duì)的是多個(gè)任務(wù),就是利用多個(gè)任務(wù)數(shù)據(jù)集對(duì)于一個(gè)模型去訓(xùn)練,微調(diào)后得到的也是一個(gè)模型。這一個(gè)模型可以解決很多不同種任務(wù)。過去的預(yù)訓(xùn)練加微調(diào)的方式的話,我們利用現(xiàn)有的預(yù)訓(xùn)練模型,針對(duì)某一個(gè)任務(wù)做微調(diào)。這樣的話,它只能對(duì)這個(gè)特定任務(wù)去推理,不能在別的任務(wù)上推理。也就是每一中下游任務(wù)我們會(huì)微調(diào)一個(gè)模型,一個(gè)任務(wù)一個(gè)模型這樣的。但是指令微調(diào)的話,它就只用一個(gè)模型就能解決眾多的任務(wù)。
Q2:上下文學(xué)習(xí)在大語(yǔ)言模型中的作用是什么?
A2:其實(shí)在大語(yǔ)言模型中,不管是預(yù)訓(xùn)練的時(shí)候,還是指令微調(diào)的時(shí)候,不可能對(duì)人類的所有的需求都會(huì)有訓(xùn)練,肯定會(huì)遺漏很多種不同的人類需求。而且,指令微調(diào)過后,它仍然不一定能以zero-shot的方式解決一些人類復(fù)雜的需求。這個(gè)時(shí)候,只要給它提供一些對(duì)于這個(gè)特定任務(wù)的一些示例的話,模型能夠很好地從這個(gè)示例當(dāng)中總結(jié)規(guī)律,總結(jié)規(guī)律以后,它就能做出比較好的一個(gè)解答。
Q3:LoRA的微調(diào)方式為什么是有效的,其中低秩矩陣的作用是什么?
A3:這是非常好的一個(gè)問題,我當(dāng)時(shí)學(xué)習(xí)LoRA的時(shí)候也是一度非常困惑的。就是說低秩矩陣,為什么它可以模擬這種全量微調(diào)的這種方式?我們可以看到這個(gè)兩個(gè)低秩矩陣的乘積的話,能夠得到一個(gè)跟原來的矩陣一樣的形狀的一個(gè)矩陣。但是微調(diào)的時(shí)候,只需要微調(diào)這個(gè)低秩矩陣的參數(shù),效果依然能跟全量微調(diào)一樣。我們?cè)谶@里稍微提一下這個(gè)低秩是什么意思?關(guān)于矩陣的秩,我們?cè)谶^去學(xué)習(xí)這個(gè)線性代數(shù)的時(shí)候就學(xué)過矩陣的秩。
比如說有一個(gè)方程,x+y=1,2x+2y=2,3x+3y=3。對(duì)于這樣的三個(gè)方程的話,其實(shí)它的信息量是只有一個(gè)向量,因?yàn)樗鼈兪怯谐杀兜年P(guān)系。雖然這個(gè)方程的參數(shù)矩陣的話,11,22,33這樣三行的矩陣,但是它真正有效的部分只有一個(gè)向量。也就是說這個(gè)秩就是1,只有這1個(gè)向量是有效的,別的向量是對(duì)我解決這個(gè)特定的任務(wù)是無效的。這樣的話,我們回到大語(yǔ)言模型。在預(yù)訓(xùn)練的時(shí)候,因?yàn)槭窃诤A康臄?shù)據(jù)上訓(xùn)練,所以它已經(jīng)具備了通用知識(shí)的能力,它只是不知道如何回答,也就是如何根據(jù)人類的意圖回答問題。為了做這樣的一個(gè)事情,我們沒有必要對(duì)模型的所有參數(shù)矩陣微調(diào),或者是為了解決這樣的一個(gè)任務(wù),大語(yǔ)言模型很多的參數(shù)是多余的。就像我剛才說的一樣,它可能是只有少量的部分更新的話,就能得到理解人類問題的這樣的需求的效果。所以說低秩矩陣在這里就是很好地去模擬了這樣的全量微調(diào)的過程。
Q4:思維鏈提示需要多大的語(yǔ)言模型?
A4:思維鏈能力的話,根據(jù)經(jīng)驗(yàn),是從6B、7Billion這么大的參數(shù)量的時(shí)候,就展現(xiàn)了涌現(xiàn)能力。涌現(xiàn)能力就帶來了大語(yǔ)言模型的很多能力,比如思維鏈能力,上下文學(xué)習(xí)能力之類的,這些都是涌現(xiàn)能力出現(xiàn)以后才有的。所以說我們根據(jù)這個(gè)可以判斷大概是6、7個(gè)Billion這樣的參數(shù)的時(shí)候,就會(huì)有這種思維鏈的能力。當(dāng)然這也不能說絕對(duì),就是如果基座模型訓(xùn)練的時(shí),訓(xùn)練數(shù)據(jù)的高質(zhì)量數(shù)據(jù)的話,也有可能會(huì)進(jìn)一步降低這個(gè)門檻。
Q5:大模型預(yù)訓(xùn)練和微調(diào)的區(qū)別是什么?
A5:預(yù)訓(xùn)練和微調(diào)的話,首先,是它們的訓(xùn)練目標(biāo)是不一樣的。預(yù)訓(xùn)練的訓(xùn)練目標(biāo)是根據(jù)前文生成下一個(gè)單詞,微調(diào)的目標(biāo)是根據(jù)這個(gè)任務(wù)描述還有示例作為輸入,然后讓它去預(yù)測(cè)輸出。也就是從訓(xùn)練的目標(biāo)函數(shù)來說,它們是不一樣的。另外一點(diǎn)是預(yù)訓(xùn)練是在海量的無標(biāo)注的數(shù)據(jù)集上訓(xùn)練。可以說大語(yǔ)言模型98%的數(shù)據(jù)或者能力,都來自于預(yù)訓(xùn)練過程。然后指令微調(diào)的話,有標(biāo)簽的指令數(shù)據(jù)集上訓(xùn)練,它的目標(biāo)就是如何根據(jù)人類指令去回答問題。
Q6:大模型的應(yīng)用主要集中在哪些領(lǐng)域?
A6:那就很多了,大語(yǔ)言模型出來以后,我們現(xiàn)在主要用對(duì)話的這種方式解決我們的一些實(shí)際問題。其實(shí)大語(yǔ)言模型的成功,給人工智能別的領(lǐng)域給了一個(gè)參考,只要我的模型足夠大、數(shù)據(jù)量足夠多,模型就可以涌現(xiàn)。涌現(xiàn)以后大模型的性能就會(huì)有質(zhì)的突破。那么這樣的話,像現(xiàn)在的自動(dòng)駕駛,或者是智能醫(yī)療,教育等行業(yè),利用本行業(yè)的相關(guān)的海量數(shù)據(jù)去訓(xùn)練自己的大模型的話,大模型能改變那些行業(yè)。
Q7:除了指令微調(diào)、上下文學(xué)習(xí)和思維鏈技術(shù),還有哪些方法可以提高大型語(yǔ)言模型的效率和性能?
A7:其實(shí)語(yǔ)言模型的訓(xùn)練的過程中,我們還差了一步,就是基于人類反饋的強(qiáng)化學(xué)習(xí)。這一步其實(shí)是對(duì)大語(yǔ)言模型行為的一個(gè)約束,就是不要讓它生成一些有害的答案。除了上面我們所說的幾種方法之外,這個(gè)強(qiáng)化學(xué)習(xí)的方式,也是大語(yǔ)言模型訓(xùn)練當(dāng)中的非常重要的一步。
Q8:預(yù)訓(xùn)練模型的準(zhǔn)確度有多高?
A8:預(yù)訓(xùn)練模型的準(zhǔn)確度的話,關(guān)于預(yù)訓(xùn)練的大語(yǔ)言模型我們最早可以追溯到GPT-3。那個(gè)時(shí)候GPT-3已經(jīng)有了比較強(qiáng)的生成能力。當(dāng)時(shí)的做法都是prompt learning的方式去使用GPT-3。所以說在當(dāng)時(shí)看來,只需要設(shè)計(jì)一個(gè)比較好的模板,GPT-3依然能夠很好地解決實(shí)際問題。所以說雖然沒有很客觀、很準(zhǔn)確的一個(gè)數(shù)字去描述它的準(zhǔn)確度,GPT-3的性能已經(jīng)是非常好了。它只是不太能夠這個(gè)理解人類指令、如何根據(jù)人類指令去回答問題。
Q9:如何微調(diào)一個(gè)神經(jīng)網(wǎng)絡(luò)的模型?
A9:微調(diào)神經(jīng)網(wǎng)絡(luò)的話,它的步驟跟我們的指令微調(diào)還是大同小異,首先還是有預(yù)訓(xùn)練模型,然后我們還得有針對(duì)特定任務(wù)的數(shù)據(jù)集,然后利用這個(gè)標(biāo)注數(shù)據(jù)集去訓(xùn)練。其實(shí)它的訓(xùn)練過程就是微調(diào)過程,只不過不是從零開始訓(xùn)練。這過程需要精心地調(diào)整學(xué)習(xí)率等那些超參數(shù),使得微調(diào)過后的模型能夠在下游任務(wù)有更好的表現(xiàn)。
Q10:為什么現(xiàn)在的LLM都是Decoder only 的架構(gòu)?
A10:?我們?yōu)槭裁词褂肈ecoder only架構(gòu)的話,這個(gè)主要還是因?yàn)樾?。Encoder-decoder架構(gòu)需要訓(xùn)練encoder和decoder兩個(gè)模塊,而decoder-only架構(gòu)只需要decoder。另一方面,transformer的decoder本身具備一個(gè)語(yǔ)言模型的作用,也就是根據(jù)前文生成下一個(gè)單詞。這剛好是大預(yù)言模型在訓(xùn)練時(shí)想要的能力。

以上就是直播問答環(huán)節(jié)的全部?jī)?nèi)容,下期報(bào)告《基于人類反饋的強(qiáng)化學(xué)習(xí)》將于7月27日18:30與您相見。更多關(guān)于報(bào)告的詳細(xì)內(nèi)容以及觀看直播回放可于小牛翻譯云平臺(tái)視頻號(hào)或機(jī)器翻譯學(xué)堂獲取。NiuTrans Talk,每期將邀請(qǐng)到不同領(lǐng)域的機(jī)器翻譯專家進(jìn)行講解,分享行業(yè)干貨知識(shí),帶你走進(jìn)機(jī)器翻譯的世界。更多精彩內(nèi)容盡在小牛翻譯直播間,想了解更多有關(guān)機(jī)器翻譯的內(nèi)容,請(qǐng)關(guān)注機(jī)器翻譯學(xué)堂或小牛翻譯官方賬號(hào),與小牛翻譯一起探討機(jī)器翻譯技術(shù)。
關(guān)于我們
專注于機(jī)器翻譯技術(shù)基礎(chǔ)研究50年,擁有百余人的機(jī)器翻譯產(chǎn)學(xué)研團(tuán)隊(duì),自主研發(fā)以中文為核心的NiuTrans機(jī)器翻譯系統(tǒng),支持388種語(yǔ)言隨心互譯。通過豐富的應(yīng)用與功能,為用戶提供機(jī)器翻譯服務(wù)全棧式解決方案,致力于為機(jī)器翻譯產(chǎn)業(yè)化應(yīng)用提供基礎(chǔ)平臺(tái),幫助企業(yè)級(jí)用戶在國(guó)際業(yè)務(wù)中消除語(yǔ)言障礙。

精彩回顧


