散文網(wǎng) » 科技 »學(xué)習(xí) » Transformer各魔改版本分享！這9種模型效率優(yōu)化方案必看！

Transformer各魔改版本分享！這9種模型效率優(yōu)化方案必看！

2023-11-14 16:00 作者:深度之眼官方賬號(hào) 0人讀過(guò) | 我要投稿

Transformer目前已經(jīng)成為人工智能領(lǐng)域的主流模型，應(yīng)用非常廣泛。然而Transformer中注意力機(jī)制計(jì)算代價(jià)較高，隨著序列長(zhǎng)度的增加，這個(gè)計(jì)算量還會(huì)持續(xù)上升。

為了解決這個(gè)問(wèn)題，業(yè)內(nèi)出現(xiàn)了許多Transformer的魔改工作，以優(yōu)化Transformer的運(yùn)行效率。學(xué)姐這次就給大家分享9篇對(duì)Transformer模型進(jìn)行效率優(yōu)化的改進(jìn)文章，以方便大家更高效地使用模型，尋找論文創(chuàng)新點(diǎn)。

文章主要涉及4個(gè)方向：稀疏注意力機(jī)制、Transformer處理長(zhǎng)文本、Transformer運(yùn)行提效以及卷積Attention，原文及源碼都已整理，需要的同學(xué)看下面↓

掃碼添加小享，回復(fù)“魔改”

免費(fèi)領(lǐng)取全部提效方案原文及源碼

稀疏注意力機(jī)制

1.Longformer: The Long-Document Transformer

長(zhǎng)文檔Transformer

方法簡(jiǎn)述：Transformer-based models處理長(zhǎng)序列時(shí)存在困難，因?yàn)樗鼈兊淖宰⒁饬Σ僮髋c序列長(zhǎng)度呈二次方關(guān)系。Longformer通過(guò)引入一個(gè)與序列長(zhǎng)度呈線性關(guān)系的注意力機(jī)制解決了這個(gè)問(wèn)題，使其能夠輕松處理數(shù)千個(gè)標(biāo)記或更長(zhǎng)的文檔。Longformer在字符級(jí)語(yǔ)言建模方面表現(xiàn)優(yōu)秀，并在各種下游任務(wù)上取得了最先進(jìn)的結(jié)果。此外，Longformer還支持長(zhǎng)文檔生成序列到序列任務(wù)，并在arXiv摘要生成數(shù)據(jù)集上展示了其有效性。

2.Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

增強(qiáng)局部性并打破Transformer在時(shí)間序列預(yù)測(cè)中的內(nèi)存瓶頸

方法簡(jiǎn)述：時(shí)間序列預(yù)測(cè)是許多領(lǐng)域中的重要問(wèn)題，包括太陽(yáng)能發(fā)電廠能源輸出、電力消耗和交通擁堵情況的預(yù)測(cè)。本文提出了使用Transformer來(lái)解決這種預(yù)測(cè)問(wèn)題的方法。雖然初步研究表明其性能令人印象深刻，但作者發(fā)現(xiàn)它有兩個(gè)主要缺點(diǎn)：局部性不敏感和內(nèi)存瓶頸。為了解決這兩個(gè)問(wèn)題，作者提出了卷積自注意力和LogSparse Transformer，它們能夠更好地處理局部上下文并降低內(nèi)存成本。實(shí)驗(yàn)表明，這些方法在時(shí)間序列預(yù)測(cè)方面具有優(yōu)勢(shì)。

3.Adaptive Attention Span in Transformers

Transformers中的自適應(yīng)注意力跨度

方法簡(jiǎn)述：論文提出了一種新的自注意力機(jī)制，可以學(xué)習(xí)其最優(yōu)的注意力跨度。這使得我們可以顯著擴(kuò)展Transformer中使用的最大上下文大小，同時(shí)保持對(duì)內(nèi)存占用和計(jì)算時(shí)間的掌控。作者在字符級(jí)語(yǔ)言建模任務(wù)上展示了該方法的有效性，在該任務(wù)中，作者使用最大8k個(gè)字符的上下文實(shí)現(xiàn)了在text8和enwiki8上最先進(jìn)的性能。

Transformer處理長(zhǎng)文本

1.Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

超越固定長(zhǎng)度上下文的注意語(yǔ)言模型

方法簡(jiǎn)述：Transformers在語(yǔ)言建模中受到固定長(zhǎng)度上下文的限制，作者提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer-XL，可以學(xué)習(xí)超過(guò)固定長(zhǎng)度的依賴關(guān)系。它由一個(gè)段級(jí)別循環(huán)機(jī)制和一個(gè)新的位置編碼方案組成，能夠捕捉更長(zhǎng)的依賴關(guān)系并解決上下文碎片化問(wèn)題。該方法不僅在短序列和長(zhǎng)序列上都取得了更好的性能，而且在評(píng)估期間比普通的Transformers快1,800+倍。

Transformer運(yùn)行提效

1.REFORMER: THE EFFICIENT TRANSFORMER

高效的Transformer

方法簡(jiǎn)述：大型Transformer模型訓(xùn)練成本高，尤其是在長(zhǎng)序列上。論文提出了兩種技術(shù)來(lái)提高效率：使用局部敏感哈希替換點(diǎn)積注意力，將復(fù)雜度從O(L^2)降低到O(L log L)；使用可逆殘差層代替標(biāo)準(zhǔn)殘差，允許只存儲(chǔ)一次激活。由此產(chǎn)生的Reformer模型在長(zhǎng)序列上表現(xiàn)相當(dāng)，但更內(nèi)存高效和更快。

掃碼添加小享，回復(fù)“魔改”

免費(fèi)領(lǐng)取全部提效方案原文及源碼

2.RETHINKING ATTENTION WITH PERFORMERS

重新思考注意力機(jī)制：Performer模型

方法簡(jiǎn)述：論文介紹了Performers，一種Transformer架構(gòu)，可以以可證明的準(zhǔn)確性估計(jì)常規(guī)（softmax）全秩注意力Transformers，但僅使用線性空間和時(shí)間復(fù)雜度。為了近似softmax注意力核，Performers使用了一種新穎的快速注意通過(guò)正交隨機(jī)特征方法（FAVOR+），并可以用于高效地建?？珊嘶淖⒁饬C(jī)制。

3.Linformer: Self-Attention with Linear Complexity

具有線性復(fù)雜度的自注意力機(jī)制

方法簡(jiǎn)述：大型Transformer模型在自然語(yǔ)言處理應(yīng)用中表現(xiàn)出色，但長(zhǎng)序列的訓(xùn)練和部署成本很高。本文提出一種新自注意力機(jī)制，將復(fù)雜度從O(n^2)降低到O(n)，同時(shí)保持性能不變。由此產(chǎn)生的Linformer比標(biāo)準(zhǔn)的Transformer更節(jié)省時(shí)間和內(nèi)存。

卷積Attention

1.Conformer: Convolution-augmented Transformer for Speech Recognition

用于語(yǔ)音識(shí)別的卷積增強(qiáng)Transformer

方法簡(jiǎn)述：Conformer是一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和Transformer的模型，用于語(yǔ)音識(shí)別。它能夠同時(shí)捕捉音頻序列的局部和全局依賴關(guān)系，并實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確率。在LibriSpeech基準(zhǔn)測(cè)試中，Conformer在不使用語(yǔ)言模型的情況下實(shí)現(xiàn)了2.1％/4.3％的WER，在使用外部語(yǔ)言模型的情況下實(shí)現(xiàn)了1.9％/3.9％的WER。此外，它還具有競(jìng)爭(zhēng)力的小模型，只有10M參數(shù)。

2.LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

具有長(zhǎng)短范圍注意力的輕量級(jí)Transformer

方法簡(jiǎn)述：本文提出了一種高效的移動(dòng)自然語(yǔ)言處理架構(gòu)Lite Transformer，它使用長(zhǎng)短范圍注意力（LSRA）來(lái)提高性能。LSRA將一組頭專門(mén)用于局部上下文建模（通過(guò)卷積），另一組頭則專門(mén)用于長(zhǎng)距離關(guān)系建模（通過(guò)注意力）。在三個(gè)語(yǔ)言任務(wù)上，Lite Transformer始終優(yōu)于普通的Transformer。在受限資源下，Lite Transformer比Transformer在WMT’14英法翻譯任務(wù)上高出1.2/1.7 BLEU分?jǐn)?shù)。

掃碼添加小享，回復(fù)“魔改”

免費(fèi)領(lǐng)取全部提效方案原文及源碼

標(biāo)簽：