最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

直播回顧 |“生成式大語(yǔ)言模型技術(shù)分享”系列之《預(yù)訓(xùn)練基礎(chǔ):生成模型》

2023-06-14 09:18 作者:小牛翻譯NiuTrans  | 我要投稿

小牛翻譯直播間(NiuTrans Talk)在6月8日成功舉辦,本期直播由東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室主辦,小牛翻譯協(xié)辦。非常榮幸地邀請(qǐng)到了東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的穆永譽(yù)博士作為嘉賓,為廣大關(guān)注大語(yǔ)言模型的朋友們帶來(lái)了備受期待的第四期報(bào)告——《預(yù)訓(xùn)練基礎(chǔ):生成模型》。

本次報(bào)告延續(xù)上一期生成式大語(yǔ)言模型的相關(guān)技術(shù),繼續(xù)由穆永譽(yù)博士介紹“預(yù)訓(xùn)練基礎(chǔ):生成模型”相關(guān)內(nèi)容。穆永譽(yù)博士重點(diǎn)講解了使用自然語(yǔ)言直接生成下游任務(wù)答案的語(yǔ)言生成類(lèi)預(yù)訓(xùn)練模型,包括語(yǔ)言生成的實(shí)質(zhì),生成模型的工作流程、模型結(jié)構(gòu)、預(yù)訓(xùn)練任務(wù)、推斷方式、思想解剖和前沿技術(shù)。最后對(duì)預(yù)訓(xùn)練相關(guān)技術(shù)進(jìn)行總結(jié),對(duì)比分析語(yǔ)言編碼、生成模型的特點(diǎn),幫助大家對(duì)后續(xù)大語(yǔ)言模型前沿技術(shù)有更清晰的了解。

在報(bào)告分享后的Q&A環(huán)節(jié),穆永譽(yù)博士與各平臺(tái)的網(wǎng)友就大模型相關(guān)技術(shù)提問(wèn)進(jìn)行了廣泛討論,以下是本環(huán)節(jié)的問(wèn)題和解答:

Q1:NLP中詞向量的預(yù)訓(xùn)練是什么意思?有什么作用?

A1:詞向量的預(yù)訓(xùn)練可能這個(gè)網(wǎng)友指的就是Word2Vec這種,去專(zhuān)門(mén)訓(xùn)練一個(gè)詞向量層。實(shí)際上Word2Vec這種模型就是采用大量語(yǔ)料,然后訓(xùn)練一個(gè)詞向量,也叫查找表這種東西。詞向量層的一個(gè)主要作用,實(shí)際上就是面對(duì)什么樣的一個(gè)單詞或者叫它token 更專(zhuān)業(yè)一些,給它轉(zhuǎn)換成一個(gè)向量表示,也就是一串?dāng)?shù)。然后有了這串?dāng)?shù)之后,我們就可以讓模型進(jìn)行一些更復(fù)雜的計(jì)算,詞向量層實(shí)際上就是這個(gè)作用。然后Word2Vec就是在大量語(yǔ)料上訓(xùn)練出來(lái)這樣一個(gè)包含了很多知識(shí),或者是說(shuō)可以方便下游任務(wù)使用的一些詞向量。

Q2:語(yǔ)言生成類(lèi)預(yù)訓(xùn)練模型的工作流程是怎么樣的?

A2:工作流程實(shí)際上就是這樣,還是分為兩個(gè)階段。第一個(gè)階段就是預(yù)訓(xùn)練階段,我們采用海量的文本數(shù)據(jù),提前地去訓(xùn)練一個(gè)Transformer模型,這個(gè)Transformer模型通常是解碼器結(jié)構(gòu)或者是編碼器-解碼器結(jié)構(gòu)。在預(yù)訓(xùn)練階段,我們會(huì)訓(xùn)練模型的一個(gè)文本生成能力,也就是說(shuō)主要就是讓它去生成文本。然后在下游任務(wù)階段,假設(shè)我們已經(jīng)有了一個(gè)訓(xùn)練好的,或者說(shuō)生成能力很強(qiáng)的預(yù)訓(xùn)練模型了。那么這個(gè)時(shí)候我們就需要把各種下游任務(wù)都給它轉(zhuǎn)化成文本生成任務(wù),具體怎么轉(zhuǎn)化的,就是我們?yōu)槊恳粋€(gè)任務(wù),專(zhuān)門(mén)設(shè)計(jì)一個(gè)提示或者模板,然后和下游任務(wù)數(shù)據(jù)結(jié)合到一起,作為預(yù)訓(xùn)練模型的輸入,預(yù)訓(xùn)練模型只需要接著它的輸入繼續(xù)去生成文本,就可以包含我們需要它做的預(yù)測(cè)的一個(gè)結(jié)果。然后對(duì)于不同的任務(wù),涉及不同的提示,還有答案提取的一些規(guī)則。

Q3:生成類(lèi)預(yù)訓(xùn)練模型存在哪些潛在的問(wèn)題和限制?

A3:首先它有兩個(gè)劣勢(shì),第一個(gè)問(wèn)題就是因?yàn)槲覀冃枰岊A(yù)訓(xùn)練模型,在預(yù)訓(xùn)練階段去涵蓋或者說(shuō)學(xué)習(xí)到它在下游任務(wù)階段需要的能力或者知識(shí)。它只有一個(gè)預(yù)訓(xùn)練階段,這就導(dǎo)致它這個(gè)預(yù)訓(xùn)練階段需要學(xué)的東西非常非常多。所以說(shuō)我們需要用一個(gè)非常大量的數(shù)據(jù),這種規(guī)模的數(shù)據(jù)幾乎是語(yǔ)言編碼類(lèi)預(yù)訓(xùn)練模型幾乎不會(huì)去這么使用的這樣一個(gè)大量的數(shù)據(jù),然后訓(xùn)練一個(gè)大量的模型,這就會(huì)導(dǎo)致它的這個(gè)訓(xùn)練代價(jià)是非常高的。還有包括我們前面給大家介紹的就是語(yǔ)言生成類(lèi)這種方法的過(guò)程中,它是有一些任務(wù)模板,還有答案提取規(guī)則,需要人工的進(jìn)行一個(gè)構(gòu)造,它可能會(huì)產(chǎn)生一些局限性。當(dāng)然也有一些自動(dòng)設(shè)計(jì)的方法,但是其實(shí)它還是需要基于一些人類(lèi)的直覺(jué),或者說(shuō)人工先驗(yàn)知識(shí),它會(huì)造成一定的局限性。我覺(jué)得這是語(yǔ)言生成類(lèi)預(yù)模型的一些劣勢(shì)。

Q4:生成類(lèi)模型是否不需要融合外部知識(shí)而使用Prompt就行?不像Encoder那樣需要顯示的融合知識(shí)。

A4:生成類(lèi)模型我們理想情況下,它肯定是在預(yù)訓(xùn)練階段就學(xué)到了各種知識(shí)。在下游任務(wù)階段,只是去調(diào)用它在預(yù)訓(xùn)練階段學(xué)到的知識(shí)即可。但是調(diào)用其實(shí)也就是我們使用提示進(jìn)行調(diào)用也有一些講究。比如說(shuō)我們給大家介紹的在輸入給生成式模型,它可以包含一些輸入輸出樣例。這些輸入輸出樣例,我們可以理解為它也是在融入一些知識(shí)。也就是說(shuō)我們?cè)谙掠稳蝿?wù)階段,我們依然可以把一些下游任務(wù)的知識(shí)其實(shí)是可以通過(guò)輸入的方式送給一些模型。我可以在這些輸入輸出樣例里面去涵蓋一些模型面對(duì)下游任務(wù)時(shí)候,可能會(huì)遇到的一些特殊情況,或者是說(shuō)一些類(lèi)別,這樣可以是幫助模型更全面的進(jìn)行一個(gè)思考。實(shí)際上few-shot的效果也是確實(shí)是比較好的。就包括我們?cè)谧罱龅囊恍╆P(guān)于大語(yǔ)言模型的一些研究,通常會(huì)采用few-shot當(dāng)作我們的一個(gè)基線(xiàn)。

Q5:生成類(lèi)預(yù)訓(xùn)練模型中的語(yǔ)言有哪些常見(jiàn)的應(yīng)用領(lǐng)域?

A5:常見(jiàn)應(yīng)用領(lǐng)域,我覺(jué)得目前一個(gè)比較通用的應(yīng)用領(lǐng)域可能就是assistant,就是助手。它幫助人類(lèi)或者說(shuō)協(xié)助人類(lèi)去做一些工作,但是它這個(gè)可以做的工作的面還是比較廣。除了這個(gè)助手,我覺(jué)得現(xiàn)在還比較有趣的一個(gè)研究點(diǎn)就是我們把這個(gè)大型的語(yǔ)言生成類(lèi)預(yù)訓(xùn)練模型當(dāng)作一個(gè)邏輯或者說(shuō)智能的一個(gè)中樞,讓它去控制其它的一些模型完成更復(fù)雜的任務(wù),我覺(jué)得這也是一個(gè)很有趣的應(yīng)用方向。

Q6:GPT模型與其它的生成式預(yù)訓(xùn)練模型相比有什么優(yōu)勢(shì)?比較具體的優(yōu)勢(shì)。

A6:優(yōu)勢(shì)其實(shí)這個(gè)目前學(xué)術(shù)界還沒(méi)有一個(gè)很明確的回答,但我個(gè)人覺(jué)得就是GPT這種模型可能非常適合文本生成一些。它直接砍去了Encoder,然后也直接拿語(yǔ)言模型這個(gè)任務(wù)來(lái)當(dāng)作它的預(yù)訓(xùn)練任務(wù)。它的優(yōu)勢(shì)可能就是在于天然就適合做一個(gè)文本生成,它生成出來(lái)的文本也相對(duì)來(lái)說(shuō)可能更流暢一些。但實(shí)際上我們說(shuō)就是直接預(yù)訓(xùn)練階段就拿到的這個(gè)GPT-3這種模型,其實(shí)智能性還是差一點(diǎn),后面可能需要配合一些比如指令微調(diào)這種方式,來(lái)讓它達(dá)到一個(gè)比較好的效果。

Q7:預(yù)訓(xùn)練模型是否能夠處理非文本類(lèi)的數(shù)據(jù)

A7:預(yù)訓(xùn)練模型是否能夠處理非文本類(lèi)的數(shù)據(jù),也是可以的,就是看怎么用了。實(shí)際上Transformer的這種結(jié)構(gòu),它是適合于處理一些序列信息的。比如說(shuō)DeepMind公司去年發(fā)布的那個(gè)AlphaFold2就是預(yù)訓(xùn)練的一個(gè)蛋白質(zhì)預(yù)測(cè)的一個(gè)預(yù)訓(xùn)練模型。因?yàn)榈鞍踪|(zhì)大家知道也是主要由一些氨基酸組成的,這些氨基酸就像單詞一樣,也是類(lèi)似于文本的序列信息。我們使用這些序列信息預(yù)訓(xùn)練得到一個(gè)模型,這個(gè)模型就可以處理這種蛋白質(zhì)預(yù)測(cè)的這樣的一些任務(wù)。包括還有一些關(guān)于音樂(lè)的預(yù)訓(xùn)練模型,我了解也是有的。就是這種能夠表示成序列的這種信息,然后我們還有大規(guī)模的數(shù)據(jù),我們就可以預(yù)訓(xùn)練一個(gè)Transformer出來(lái),然后專(zhuān)門(mén)處理這種序列的一些任務(wù)。

Q8:生成式預(yù)訓(xùn)練模型中的前沿技術(shù)混合精度訓(xùn)練是如何提高模型訓(xùn)練效率的?

A8:混合精度訓(xùn)練其實(shí)就是大家如果正常使用一個(gè)框架,比如fairseq可能去訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),它可能使用的是fp32,就是float 32位的這樣一個(gè)數(shù)來(lái)進(jìn)行計(jì)算。混合精度訓(xùn)練就是說(shuō)我有一部分的數(shù)了,我不采用fp32,我們采用fp16或者是bf16。那這種fp16或者是bf16相比f(wàn)p32它有哪些優(yōu)勢(shì)?為什么要用它就是因?yàn)檫@種更短的或者說(shuō)占用空間更少的這樣一個(gè)數(shù),它對(duì)于內(nèi)存讀取,還有GPU計(jì)算都是非常有利的。比如GPT,就GPU來(lái)說(shuō)采用fp16來(lái)計(jì)算的話(huà),它是比f(wàn)p32計(jì)算的速度要快很多很多倍。但是實(shí)際上我們直接使用fp16也會(huì)產(chǎn)生一些問(wèn)題,因?yàn)樗鎯?chǔ)的這個(gè)數(shù)占的存儲(chǔ)位是更少的,表示數(shù)值的一個(gè)范圍也是變小的,這就可能引起一些比如數(shù)值上溢,或者是下溢這樣一些問(wèn)題。所以說(shuō)有一些關(guān)鍵的步驟,我們可以采用一些fp32來(lái)計(jì)算。

Q9:預(yù)訓(xùn)練語(yǔ)言模型可以應(yīng)用到哪些下游任務(wù)中?

A9:下游任務(wù)還是蠻多的,像語(yǔ)言編碼類(lèi)模型非常適合文本理解的一些任務(wù),就比如像情感分類(lèi),還有詞塊識(shí)別任務(wù)。其實(shí)在我上一次直播的那個(gè)片子里面,有一些提及預(yù)訓(xùn)練下游任務(wù)的例子。今天給大家介紹的一些生成類(lèi)預(yù)訓(xùn)練模型,就偏向一些生成任務(wù)好一點(diǎn),比如說(shuō)翻譯任務(wù)、摘要任務(wù),或者是說(shuō)寫(xiě)故事、一些糾錯(cuò)任務(wù),都是還是不錯(cuò)的,還有風(fēng)格遷移這種任務(wù),都是用的很多的。

Q10:有沒(méi)有已經(jīng)預(yù)訓(xùn)練好的大語(yǔ)言模型可供使用?

A10:這個(gè)是有的,其實(shí)有不少開(kāi)源的大型生成模型我們是可以用的,比如最近比較火的就是Meta AI公開(kāi)出來(lái)的一個(gè),也沒(méi)有說(shuō)完全公開(kāi),但它確實(shí)是開(kāi)源的一個(gè)模型叫LLaMA,這個(gè)模型它可能是說(shuō)除非商業(yè)使用,我們學(xué)術(shù)使用是沒(méi)有問(wèn)題的。我們可以拿它過(guò)來(lái)去做一些我們前面說(shuō)的,比如說(shuō)指令微調(diào),或者是說(shuō)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等一些訓(xùn)練,然后訓(xùn)練出來(lái)我們專(zhuān)有的,或者是說(shuō)我們想要它在某個(gè)領(lǐng)域數(shù)據(jù)上非常精通的一個(gè)大語(yǔ)言模型。

Q11:使用訓(xùn)練大語(yǔ)言模型是否會(huì)面臨過(guò)擬合的問(wèn)題?

A11:我覺(jué)得過(guò)擬合還是會(huì)有的,但我也倒是沒(méi)有說(shuō)實(shí)際去拿下游任務(wù)數(shù)據(jù)或者說(shuō)數(shù)據(jù)去微調(diào)一個(gè)生成式大語(yǔ)言模型,我只微調(diào)過(guò)BERT這些模型。但是我個(gè)人感覺(jué)這個(gè)過(guò)擬合現(xiàn)象還是會(huì)有,包括大模型在訓(xùn)練階段甚至?xí)a(chǎn)生一些訓(xùn)練上的問(wèn)題,比如很明顯的就是訓(xùn)崩了或者怎么樣,這個(gè)時(shí)候可能甚至需要說(shuō)重啟訓(xùn)練,就是加載到之前的一些它正常訓(xùn)練狀態(tài)下的一個(gè)checkpoint,就是檢查點(diǎn)。然后我跳過(guò)會(huì)導(dǎo)致它訓(xùn)崩的這個(gè)數(shù)據(jù),然后再進(jìn)行訓(xùn)練,也就是說(shuō)大模型訓(xùn)練面臨過(guò)擬合的這些問(wèn)題還是很多。

Q12:生成類(lèi)預(yù)訓(xùn)練模型存在哪些潛在的問(wèn)題和限制?

A12:這個(gè)其實(shí)跟我們前面解答的問(wèn)題是非常相似的,一個(gè)是它需要涵蓋的知識(shí)面非常廣,所以說(shuō)我需要用一個(gè)海量的數(shù)據(jù)訓(xùn)練很大的模型,導(dǎo)致它的訓(xùn)練代價(jià)是非常高的。第二點(diǎn)就是我們寫(xiě)一些Prompt或者答案提取的規(guī)則是依靠人工來(lái)進(jìn)行的,然后產(chǎn)生一些限制。當(dāng)然除了這兩點(diǎn)之外,我覺(jué)得還是會(huì)有一些其它的劣勢(shì)。但是這兩點(diǎn)可能更明顯一點(diǎn)。

Q13:預(yù)訓(xùn)練模型是否需要進(jìn)行更新或者是重新訓(xùn)練?

A13:這個(gè)還是需要的,比如說(shuō)GPT-3使用的訓(xùn)練數(shù)據(jù)可能是21年之前的,但是21年22年23年又產(chǎn)生了很多新的一些訓(xùn)練數(shù)據(jù),或者產(chǎn)生一些新的比如說(shuō)概念、知識(shí),比如說(shuō)網(wǎng)絡(luò)梗的那種東西。這個(gè)時(shí)候我們可能會(huì)需要把這種新的數(shù)據(jù)給它加到這個(gè)GPT-3的這個(gè)訓(xùn)練語(yǔ)料里,然后讓它繼續(xù)訓(xùn)練一下,這樣能夠讓它去更加適應(yīng)我們?nèi)缃竦倪@樣一個(gè)語(yǔ)境,或者是說(shuō)語(yǔ)言的使用環(huán)境。

Q14:預(yù)訓(xùn)練模型是如何捕捉語(yǔ)言的上下文關(guān)系和語(yǔ)義表示的?

A14:這個(gè)問(wèn)題可能涉及到一些模型解釋性。實(shí)際上就是我了解的比較多的就是Transformer的attention機(jī)制會(huì)讓它在理解當(dāng)前這個(gè)單詞的時(shí)候,去看一些它周?chē)膯卧~,也就是說(shuō)根據(jù)一個(gè)語(yǔ)境進(jìn)行一個(gè)理解。其實(shí)有很多工作指明,在預(yù)訓(xùn)練好的一個(gè)預(yù)訓(xùn)練模型身上,拿它attention的這些權(quán)重,我們可以得到一些比如語(yǔ)法樹(shù)這些知識(shí)。就說(shuō)明它可能在預(yù)訓(xùn)練階段,就是在self-attention里面去學(xué)習(xí)到這些知識(shí),就是比如根據(jù)上下文去理解這個(gè)詞等等,我覺(jué)得主要還是看attention機(jī)制。

以上就是直播問(wèn)答環(huán)節(jié)的全部?jī)?nèi)容,下期報(bào)告《大語(yǔ)言模型發(fā)展與現(xiàn)狀》將于6月29日與您相見(jiàn)。更多關(guān)于報(bào)告的詳細(xì)內(nèi)容以及觀看直播回放可于小牛翻譯云平臺(tái)視頻號(hào)或機(jī)器翻譯學(xué)堂獲取。NiuTrans Talk,是由小牛翻譯主辦的,每期將邀請(qǐng)到不同領(lǐng)域的機(jī)器翻譯專(zhuān)家進(jìn)行講解,分享行業(yè)干貨知識(shí),帶你走進(jìn)機(jī)器翻譯的世界。更多精彩內(nèi)容盡在小牛翻譯直播間 ,想了解更多有關(guān)機(jī)器翻譯的內(nèi)容請(qǐng)關(guān)注機(jī)器翻譯學(xué)堂或小牛翻譯官方微博號(hào),與小牛翻譯一起探討機(jī)器翻譯技術(shù)。?

關(guān)于我們

專(zhuān)注于機(jī)器翻譯技術(shù)基礎(chǔ)研究50年,擁有百余人的機(jī)器翻譯產(chǎn)學(xué)研團(tuán)隊(duì),自主研發(fā)以中文為核心的NiuTrans機(jī)器翻譯系統(tǒng),支持388種語(yǔ)言隨心互譯。通過(guò)豐富的應(yīng)用與功能,為用戶(hù)提供機(jī)器翻譯服務(wù)全棧式解決方案,致力于為機(jī)器翻譯產(chǎn)業(yè)化應(yīng)用提供基礎(chǔ)平臺(tái),幫助企業(yè)級(jí)用戶(hù)在國(guó)際業(yè)務(wù)中消除語(yǔ)言障礙。?



hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~


直播回顧 |“生成式大語(yǔ)言模型技術(shù)分享”系列之《預(yù)訓(xùn)練基礎(chǔ):生成模型》的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
灵丘县| 新竹县| 策勒县| 象山县| 龙海市| 丰顺县| 和林格尔县| 万州区| 宁都县| 彭山县| 德江县| 丹寨县| 宁陕县| 高台县| 治县。| 招远市| 通州区| 重庆市| 龙泉市| 乌兰县| 封丘县| 右玉县| 万源市| 岳阳县| 临城县| 廉江市| 平谷区| 遂溪县| 芷江| 太和县| 商南县| 美姑县| 醴陵市| 吐鲁番市| 仙游县| 宁南县| 临邑县| 泾源县| 包头市| 池州市| 莱州市|