Transformer各魔改版本分享!這9種模型效率優(yōu)化方案必看!
Transformer目前已經(jīng)成為人工智能領(lǐng)域的主流模型,應(yīng)用非常廣泛。然而Transformer中注意力機(jī)制計(jì)算代價(jià)較高,隨著序列長(zhǎng)度的增加,這個(gè)計(jì)算量還會(huì)持續(xù)上升。
為了解決這個(gè)問(wèn)題,業(yè)內(nèi)出現(xiàn)了許多Transformer的魔改工作,以優(yōu)化Transformer的運(yùn)行效率。學(xué)姐這次就給大家分享9篇對(duì)Transformer模型進(jìn)行效率優(yōu)化的改進(jìn)文章,以方便大家更高效地使用模型,尋找論文創(chuàng)新點(diǎn)。
文章主要涉及4個(gè)方向:稀疏注意力機(jī)制、Transformer處理長(zhǎng)文本、Transformer運(yùn)行提效以及卷積Attention,原文及源碼都已整理,需要的同學(xué)看下面↓
掃碼添加小享,回復(fù)“魔改”
免費(fèi)領(lǐng)取全部提效方案原文及源碼

稀疏注意力機(jī)制
1.Longformer: The Long-Document Transformer
長(zhǎng)文檔Transformer
方法簡(jiǎn)述:Transformer-based models處理長(zhǎng)序列時(shí)存在困難,因?yàn)樗鼈兊淖宰⒁饬Σ僮髋c序列長(zhǎng)度呈二次方關(guān)系。Longformer通過(guò)引入一個(gè)與序列長(zhǎng)度呈線性關(guān)系的注意力機(jī)制解決了這個(gè)問(wèn)題,使其能夠輕松處理數(shù)千個(gè)標(biāo)記或更長(zhǎng)的文檔。Longformer在字符級(jí)語(yǔ)言建模方面表現(xiàn)優(yōu)秀,并在各種下游任務(wù)上取得了最先進(jìn)的結(jié)果。此外,Longformer還支持長(zhǎng)文檔生成序列到序列任務(wù),并在arXiv摘要生成數(shù)據(jù)集上展示了其有效性。

2.Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting
增強(qiáng)局部性并打破Transformer在時(shí)間序列預(yù)測(cè)中的內(nèi)存瓶頸
方法簡(jiǎn)述:時(shí)間序列預(yù)測(cè)是許多領(lǐng)域中的重要問(wèn)題,包括太陽(yáng)能發(fā)電廠能源輸出、電力消耗和交通擁堵情況的預(yù)測(cè)。本文提出了使用Transformer來(lái)解決這種預(yù)測(cè)問(wèn)題的方法。雖然初步研究表明其性能令人印象深刻,但作者發(fā)現(xiàn)它有兩個(gè)主要缺點(diǎn):局部性不敏感和內(nèi)存瓶頸。為了解決這兩個(gè)問(wèn)題,作者提出了卷積自注意力和LogSparse Transformer,它們能夠更好地處理局部上下文并降低內(nèi)存成本。實(shí)驗(yàn)表明,這些方法在時(shí)間序列預(yù)測(cè)方面具有優(yōu)勢(shì)。

3.Adaptive Attention Span in Transformers
Transformers中的自適應(yīng)注意力跨度
方法簡(jiǎn)述:論文提出了一種新的自注意力機(jī)制,可以學(xué)習(xí)其最優(yōu)的注意力跨度。這使得我們可以顯著擴(kuò)展Transformer中使用的最大上下文大小,同時(shí)保持對(duì)內(nèi)存占用和計(jì)算時(shí)間的掌控。作者在字符級(jí)語(yǔ)言建模任務(wù)上展示了該方法的有效性,在該任務(wù)中,作者使用最大8k個(gè)字符的上下文實(shí)現(xiàn)了在text8和enwiki8上最先進(jìn)的性能。

Transformer處理長(zhǎng)文本
1.Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
超越固定長(zhǎng)度上下文的注意語(yǔ)言模型
方法簡(jiǎn)述:Transformers在語(yǔ)言建模中受到固定長(zhǎng)度上下文的限制,作者提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer-XL,可以學(xué)習(xí)超過(guò)固定長(zhǎng)度的依賴關(guān)系。它由一個(gè)段級(jí)別循環(huán)機(jī)制和一個(gè)新的位置編碼方案組成,能夠捕捉更長(zhǎng)的依賴關(guān)系并解決上下文碎片化問(wèn)題。該方法不僅在短序列和長(zhǎng)序列上都取得了更好的性能,而且在評(píng)估期間比普通的Transformers快1,800+倍。

Transformer運(yùn)行提效
1.REFORMER: THE EFFICIENT TRANSFORMER
高效的Transformer
方法簡(jiǎn)述:大型Transformer模型訓(xùn)練成本高,尤其是在長(zhǎng)序列上。論文提出了兩種技術(shù)來(lái)提高效率:使用局部敏感哈希替換點(diǎn)積注意力,將復(fù)雜度從O(L^2)降低到O(L log L);使用可逆殘差層代替標(biāo)準(zhǔn)殘差,允許只存儲(chǔ)一次激活。由此產(chǎn)生的Reformer模型在長(zhǎng)序列上表現(xiàn)相當(dāng),但更內(nèi)存高效和更快。

掃碼添加小享,回復(fù)“魔改”
免費(fèi)領(lǐng)取全部提效方案原文及源碼

2.RETHINKING ATTENTION WITH PERFORMERS
重新思考注意力機(jī)制:Performer模型
方法簡(jiǎn)述:論文介紹了Performers,一種Transformer架構(gòu),可以以可證明的準(zhǔn)確性估計(jì)常規(guī)(softmax)全秩注意力Transformers,但僅使用線性空間和時(shí)間復(fù)雜度。為了近似softmax注意力核,Performers使用了一種新穎的快速注意通過(guò)正交隨機(jī)特征方法(FAVOR+),并可以用于高效地建??珊嘶淖⒁饬C(jī)制。

3.Linformer: Self-Attention with Linear Complexity
具有線性復(fù)雜度的自注意力機(jī)制
方法簡(jiǎn)述:大型Transformer模型在自然語(yǔ)言處理應(yīng)用中表現(xiàn)出色,但長(zhǎng)序列的訓(xùn)練和部署成本很高。本文提出一種新自注意力機(jī)制,將復(fù)雜度從O(n^2)降低到O(n),同時(shí)保持性能不變。由此產(chǎn)生的Linformer比標(biāo)準(zhǔn)的Transformer更節(jié)省時(shí)間和內(nèi)存。

卷積Attention
1.Conformer: Convolution-augmented Transformer for Speech Recognition
用于語(yǔ)音識(shí)別的卷積增強(qiáng)Transformer
方法簡(jiǎn)述:Conformer是一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和Transformer的模型,用于語(yǔ)音識(shí)別。它能夠同時(shí)捕捉音頻序列的局部和全局依賴關(guān)系,并實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確率。在LibriSpeech基準(zhǔn)測(cè)試中,Conformer在不使用語(yǔ)言模型的情況下實(shí)現(xiàn)了2.1%/4.3%的WER,在使用外部語(yǔ)言模型的情況下實(shí)現(xiàn)了1.9%/3.9%的WER。此外,它還具有競(jìng)爭(zhēng)力的小模型,只有10M參數(shù)。

2.LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION
具有長(zhǎng)短范圍注意力的輕量級(jí)Transformer
方法簡(jiǎn)述:本文提出了一種高效的移動(dòng)自然語(yǔ)言處理架構(gòu)Lite Transformer,它使用長(zhǎng)短范圍注意力(LSRA)來(lái)提高性能。LSRA將一組頭專門(mén)用于局部上下文建模(通過(guò)卷積),另一組頭則專門(mén)用于長(zhǎng)距離關(guān)系建模(通過(guò)注意力)。在三個(gè)語(yǔ)言任務(wù)上,Lite Transformer始終優(yōu)于普通的Transformer。在受限資源下,Lite Transformer比Transformer在WMT’14英法翻譯任務(wù)上高出1.2/1.7 BLEU分?jǐn)?shù)。

掃碼添加小享,回復(fù)“魔改”
免費(fèi)領(lǐng)取全部提效方案原文及源碼
