直播回顧 | 長(zhǎng)序列建模技術(shù)

由東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室主辦、小牛翻譯協(xié)辦的小牛翻譯直播間(NiuTrans Talk),于8月10日成功舉辦,我們榮幸地邀請(qǐng)到了來(lái)自東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的劉新宇博士作為嘉賓,為廣大關(guān)注大語(yǔ)言模型的朋友們帶來(lái)了生成式大語(yǔ)言模型技術(shù)分享系列的第八期報(bào)告——《長(zhǎng)序列建模技術(shù)》

本次報(bào)告繼續(xù)為大家?guī)?lái)生成式大語(yǔ)言模型關(guān)鍵技術(shù)細(xì)節(jié)的相關(guān)分享,由劉新宇博士介紹“長(zhǎng)序列建模技術(shù)”,主要分為三個(gè)部分。第一部分劉新宇博士介紹了序列建模背景,包括為什么要建模更長(zhǎng)的序列,Transformer建模長(zhǎng)序列的問(wèn)題以及大語(yǔ)言模型可建模的序列長(zhǎng)度。第二部分從三個(gè)不同的維度介紹現(xiàn)有長(zhǎng)序列建模技術(shù),包括基于Memory、Attention、Engineering的改進(jìn)。最后基于上述內(nèi)容進(jìn)行了深入的思考與總結(jié)。
在報(bào)告后的Q&A環(huán)節(jié),劉新宇博士與各平臺(tái)的網(wǎng)友就大模型相關(guān)技術(shù)提問(wèn)進(jìn)行了廣泛討論,進(jìn)一步加強(qiáng)了對(duì)該類大語(yǔ)言模型的認(rèn)知,以下是本環(huán)節(jié)的問(wèn)題和解答:
Q1:如何讓Transformer更高效處理長(zhǎng)序列?
A1:實(shí)際上我們?cè)谙乱黄诘闹辈ブ?,我們?huì)講這種高效方法,本期我們是講這種長(zhǎng)序列方法。實(shí)際上,長(zhǎng)序列和高效它們可以看作是一對(duì)兄弟吧,它們沒(méi)有那么分的開的。我做長(zhǎng)序列,實(shí)際上像剛才說(shuō)的第二類方法,也是如何把這個(gè)Transformer的attention從冪次的復(fù)雜度降低為一個(gè)線性的復(fù)雜度,這一類其實(shí)就是屬于一種高效方法了。我覺得如果同學(xué)對(duì)這一類方法感興趣的話,其實(shí)可以在線性注意力這類去探索探索。
Q2:想學(xué)習(xí)大語(yǔ)言模型,應(yīng)該從哪個(gè)開源模型開始?
A2:這個(gè)當(dāng)然是推薦目前可能生態(tài)最完整的LLaMA了,包括最近出的LLaMA-2。但是LLaMA-2好像目前中文版本只有7b開源出權(quán)重了,13b好像還沒(méi)有開源出來(lái)。我覺得后面如果開源的話,非常推薦去嘗試,因?yàn)長(zhǎng)LaMA-2的效果還是很不錯(cuò)的。
Q3:長(zhǎng)序列數(shù)據(jù)的長(zhǎng)度對(duì)模型性能有什么影響?
A3:就像我們說(shuō)的這個(gè)序列長(zhǎng)度,它作為我們模型運(yùn)算時(shí)張量的一個(gè)維度,它實(shí)際上對(duì)模型的這個(gè)計(jì)算次數(shù),包括像這個(gè)內(nèi)存占用還是有蠻大影響的。那這里說(shuō)的性能可能主要理解為計(jì)算次數(shù)這一類。實(shí)際上模型長(zhǎng)度呈線性增加的時(shí)候,像我說(shuō)的,它的注意力復(fù)雜度還是成平方次增加的,所以說(shuō)它的顯存也是呈平方次增加的。所以說(shuō)它可以非常占用計(jì)算和顯存的資源,長(zhǎng)序列。那我除了影響這個(gè)模型的一個(gè)計(jì)算和它的一個(gè)顯存占用以外,那我對(duì)模型效果會(huì)有什么影響,可能長(zhǎng)序列長(zhǎng)對(duì)模型效果影響是一個(gè)比較積極比較正向的。就是我序列越長(zhǎng),我可能可以利用的上下文就越長(zhǎng),就可以給模型更多的信息。所以說(shuō)如果序列比較長(zhǎng),包括像這種大模型,這種多輪也是需要更長(zhǎng)的上下文窗口。所以說(shuō)建模如果序列越長(zhǎng),那模型性能我覺得可能越好。但是它會(huì)影響它的這種計(jì)算和顯存占用,這個(gè)問(wèn)題是必須要解決的。
Q4:長(zhǎng)序列建模是否會(huì)面臨計(jì)算資源的挑戰(zhàn)?
A4:長(zhǎng)序列建模當(dāng)然會(huì)面臨計(jì)算資源的挑戰(zhàn)。像我前面說(shuō)的,就是像這個(gè)顯存,不知道大家現(xiàn)在手里都是什么卡,目前我能拿到的80G顯存的卡,就是我實(shí)際上放個(gè)13b模型,我可能放個(gè)2k或者4k的max?token,就已經(jīng)很緊巴了。那實(shí)際上目前如果再用更長(zhǎng)的序列去做,那我就必須把模型切的很碎,切到每一個(gè)卡上,這樣我才可以讓模型占的顯存更小,然后給它輸入更長(zhǎng)的序列。所以說(shuō)序列長(zhǎng)度會(huì)不會(huì)占用計(jì)算資源,答案是肯定的,它一定非常占用計(jì)算資源。
Q5:位置編碼對(duì)長(zhǎng)序列建模有什么影響?是否可以從位置編碼的角度優(yōu)化長(zhǎng)序列建模?
A5:位置編碼其實(shí)對(duì)長(zhǎng)序列就像我們從最早的XL技術(shù)開始說(shuō),它就是兩個(gè)改進(jìn),它也改進(jìn)了位置編碼。就是我如果采用一種絕對(duì)位置編碼形式肯定是不行的。我可能需要用一些相對(duì)位置編碼,然后在更長(zhǎng)距離的位置給它做一些分桶,類似于這種技術(shù)。但我們可以從位置編碼的角度去優(yōu)化這種長(zhǎng)序列建模,實(shí)際上目前對(duì)于很多很多技術(shù),對(duì)于位置編碼都有一些調(diào)整。包括像我們前面說(shuō)的一個(gè)非常簡(jiǎn)單的方法,像位置插值,實(shí)際上它也是從位置編碼角度去改了一下,就可以優(yōu)化長(zhǎng)序列嘛。實(shí)際上位置編碼面對(duì)長(zhǎng)序列的影響是什么?就是位置編碼外推性越好,可能在更長(zhǎng)序列上我去建模它的一個(gè)效果就更好。那這一類方法我覺得還是挺有研究?jī)r(jià)值的。
Q6:大語(yǔ)言模型中的涌現(xiàn)現(xiàn)象是不是偽科學(xué)?
A6:這個(gè)問(wèn)題非常犀利啊,涌現(xiàn)現(xiàn)象是不是偽科學(xué)?我覺得以我現(xiàn)在的這個(gè)水平,我可能沒(méi)法給一個(gè)非常準(zhǔn)確的答案。但是我可以說(shuō)的是,涌現(xiàn)實(shí)際上是很多人都認(rèn)可的一個(gè)情況。就是實(shí)際上模型為什么突然會(huì)受到大家關(guān)注?為什么大家感覺它的能力這么強(qiáng),你別說(shuō)是一些使用ChatGPT的普通人了。就連我這種研究者,我可能對(duì)ChatGPT的出現(xiàn),我都是有一個(gè)吃驚的反應(yīng)的。那實(shí)際上這就說(shuō)明了它不是一步一步走到今天的,它的一個(gè)提升不是一個(gè)線性提升,它可能確實(shí)就是這樣突然出現(xiàn)的一個(gè)提升,那這個(gè)東西叫涌現(xiàn),我覺得沒(méi)什么問(wèn)題的。但是當(dāng)然也有人說(shuō)涌現(xiàn)是因?yàn)槲以O(shè)置的指標(biāo)不對(duì)或者評(píng)價(jià)方法不對(duì),才會(huì)有一個(gè)這種斷崖式的上升。但是我們今天不說(shuō)指標(biāo),不說(shuō)方法,從我們個(gè)人的體驗(yàn)來(lái)看,這個(gè)東西它出現(xiàn)確實(shí)還是挺讓人吃驚的。那我覺得它的能力超出預(yù)期,那可能對(duì)于我來(lái)說(shuō),它就是具備涌現(xiàn),它的能力就是突然出現(xiàn)的。
Q7:是否有一些特定的數(shù)據(jù)增強(qiáng)技術(shù)可以提高模型的泛化能力?
A7:數(shù)據(jù)增強(qiáng)和模型泛化,其實(shí)我個(gè)人之前在碩士階段也做過(guò)一些類似的研究。我當(dāng)時(shí)做的主要是情感分析,我通過(guò)一些數(shù)據(jù)增強(qiáng),讓模型在一些OOD的場(chǎng)景上表現(xiàn)的很好。但是在大模型這個(gè)時(shí)代,這個(gè)泛化通常它可能代表含義有點(diǎn)不一樣了。比如說(shuō)它在未見樣本的泛化上其實(shí)還是很好的。那可能在未見任務(wù)的泛化上還有待考究。通常情況下,如果大模型會(huì)做翻譯,ABC過(guò)來(lái),可能能翻譯的很好。但是我在一些沒(méi)有見過(guò)的任務(wù)上,泛化能力可能需要我們?cè)偃ヌ剿饕幌?。但你說(shuō)這個(gè)數(shù)據(jù)增強(qiáng)技術(shù)提高模型的方法能力。我目前認(rèn)為數(shù)據(jù)增強(qiáng)技術(shù),可能在大模型時(shí)期用來(lái)做泛化,這個(gè)是沒(méi)什么必要的。因?yàn)樗呀?jīng)見過(guò)了非常非常多的數(shù)據(jù),你要用數(shù)據(jù)增強(qiáng)之后,提升大模型的泛化能力,我個(gè)人覺得好像沒(méi)有這個(gè)必要。
Q8:模型的超參數(shù)調(diào)整和網(wǎng)格搜索等方法是否適用?
A8:這個(gè)實(shí)際上仍然是適用的。實(shí)際上在我們自己的實(shí)驗(yàn)過(guò)程中,我們也會(huì)調(diào)一些超參和做一些GridSearch,就是所說(shuō)的網(wǎng)格搜索。因?yàn)閷?shí)際上訓(xùn)練大模型某種程度上也是在煉丹,就是有很多這種超參,可能設(shè)置成學(xué)習(xí)率適當(dāng)高一些,低一些都會(huì)有一些影響,實(shí)際上對(duì)超參還是蠻敏感的。所以說(shuō)這些傳統(tǒng)的,比如說(shuō)你有一些調(diào)超參的經(jīng)驗(yàn),你有一些做GridSearch的經(jīng)驗(yàn),我覺得在這個(gè)時(shí)代還是非常有用。

以上就是直播問(wèn)答環(huán)節(jié)的全部?jī)?nèi)容,下期報(bào)告《模型壓縮與高效神經(jīng)網(wǎng)絡(luò)》將于8月31日18:30與您相見。更多關(guān)于報(bào)告的詳細(xì)內(nèi)容以及觀看直播回放可于小牛翻譯云平臺(tái)視頻號(hào)或機(jī)器翻譯學(xué)堂獲取。NiuTrans Talk,是由小牛翻譯主辦的,每期將邀請(qǐng)到不同領(lǐng)域的機(jī)器翻譯專家進(jìn)行講解,分享行業(yè)干貨知識(shí),帶你走進(jìn)機(jī)器翻譯的世界。更多精彩內(nèi)容盡在小牛翻譯直播間 ,想了解更多有關(guān)機(jī)器翻譯的內(nèi)容請(qǐng)關(guān)注機(jī)器翻譯學(xué)堂或小牛翻譯官方微博號(hào),與小牛翻譯一起探討機(jī)器翻譯技術(shù)。
關(guān)于我們
專注于機(jī)器翻譯技術(shù)基礎(chǔ)研究50年,擁有百余人的機(jī)器翻譯產(chǎn)學(xué)研團(tuán)隊(duì),自主研發(fā)以中文為核心的NiuTrans機(jī)器翻譯系統(tǒng),支持388種語(yǔ)言隨心互譯。通過(guò)豐富的應(yīng)用與功能,為用戶提供機(jī)器翻譯服務(wù)全棧式解決方案,致力于為機(jī)器翻譯產(chǎn)業(yè)化應(yīng)用提供基礎(chǔ)平臺(tái),幫助企業(yè)級(jí)用戶在國(guó)際業(yè)務(wù)中消除語(yǔ)言障礙。

精彩回顧


