最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Transformer各魔改版本分享!這9種模型效率優(yōu)化方案必看!

2023-11-14 16:00 作者:深度之眼官方賬號(hào)  | 我要投稿

Transformer目前已經(jīng)成為人工智能領(lǐng)域的主流模型,應(yīng)用非常廣泛。然而Transformer中注意力機(jī)制計(jì)算代價(jià)較高,隨著序列長(zhǎng)度的增加,這個(gè)計(jì)算量還會(huì)持續(xù)上升。

為了解決這個(gè)問(wèn)題,業(yè)內(nèi)出現(xiàn)了許多Transformer的魔改工作,以優(yōu)化Transformer的運(yùn)行效率。學(xué)姐這次就給大家分享9篇對(duì)Transformer模型進(jìn)行效率優(yōu)化的改進(jìn)文章,以方便大家更高效地使用模型,尋找論文創(chuàng)新點(diǎn)。

文章主要涉及4個(gè)方向:稀疏注意力機(jī)制、Transformer處理長(zhǎng)文本、Transformer運(yùn)行提效以及卷積Attention,原文及源碼都已整理,需要的同學(xué)看下面↓

掃碼添加小享,回復(fù)“魔改

免費(fèi)領(lǐng)取全部提效方案原文及源碼

稀疏注意力機(jī)制

1.Longformer: The Long-Document Transformer

長(zhǎng)文檔Transformer

方法簡(jiǎn)述:Transformer-based models處理長(zhǎng)序列時(shí)存在困難,因?yàn)樗鼈兊淖宰⒁饬Σ僮髋c序列長(zhǎng)度呈二次方關(guān)系。Longformer通過(guò)引入一個(gè)與序列長(zhǎng)度呈線性關(guān)系的注意力機(jī)制解決了這個(gè)問(wèn)題,使其能夠輕松處理數(shù)千個(gè)標(biāo)記或更長(zhǎng)的文檔。Longformer在字符級(jí)語(yǔ)言建模方面表現(xiàn)優(yōu)秀,并在各種下游任務(wù)上取得了最先進(jìn)的結(jié)果。此外,Longformer還支持長(zhǎng)文檔生成序列到序列任務(wù),并在arXiv摘要生成數(shù)據(jù)集上展示了其有效性。

2.Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

增強(qiáng)局部性并打破Transformer在時(shí)間序列預(yù)測(cè)中的內(nèi)存瓶頸

方法簡(jiǎn)述:時(shí)間序列預(yù)測(cè)是許多領(lǐng)域中的重要問(wèn)題,包括太陽(yáng)能發(fā)電廠能源輸出、電力消耗和交通擁堵情況的預(yù)測(cè)。本文提出了使用Transformer來(lái)解決這種預(yù)測(cè)問(wèn)題的方法。雖然初步研究表明其性能令人印象深刻,但作者發(fā)現(xiàn)它有兩個(gè)主要缺點(diǎn):局部性不敏感和內(nèi)存瓶頸。為了解決這兩個(gè)問(wèn)題,作者提出了卷積自注意力和LogSparse Transformer,它們能夠更好地處理局部上下文并降低內(nèi)存成本。實(shí)驗(yàn)表明,這些方法在時(shí)間序列預(yù)測(cè)方面具有優(yōu)勢(shì)。

3.Adaptive Attention Span in Transformers

Transformers中的自適應(yīng)注意力跨度

方法簡(jiǎn)述:論文提出了一種新的自注意力機(jī)制,可以學(xué)習(xí)其最優(yōu)的注意力跨度。這使得我們可以顯著擴(kuò)展Transformer中使用的最大上下文大小,同時(shí)保持對(duì)內(nèi)存占用和計(jì)算時(shí)間的掌控。作者在字符級(jí)語(yǔ)言建模任務(wù)上展示了該方法的有效性,在該任務(wù)中,作者使用最大8k個(gè)字符的上下文實(shí)現(xiàn)了在text8和enwiki8上最先進(jìn)的性能。

Transformer處理長(zhǎng)文本

1.Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

超越固定長(zhǎng)度上下文的注意語(yǔ)言模型

方法簡(jiǎn)述:Transformers在語(yǔ)言建模中受到固定長(zhǎng)度上下文的限制,作者提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer-XL,可以學(xué)習(xí)超過(guò)固定長(zhǎng)度的依賴關(guān)系。它由一個(gè)段級(jí)別循環(huán)機(jī)制和一個(gè)新的位置編碼方案組成,能夠捕捉更長(zhǎng)的依賴關(guān)系并解決上下文碎片化問(wèn)題。該方法不僅在短序列和長(zhǎng)序列上都取得了更好的性能,而且在評(píng)估期間比普通的Transformers快1,800+倍。

Transformer運(yùn)行提效

1.REFORMER: THE EFFICIENT TRANSFORMER

高效的Transformer

方法簡(jiǎn)述:大型Transformer模型訓(xùn)練成本高,尤其是在長(zhǎng)序列上。論文提出了兩種技術(shù)來(lái)提高效率:使用局部敏感哈希替換點(diǎn)積注意力,將復(fù)雜度從O(L^2)降低到O(L log L);使用可逆殘差層代替標(biāo)準(zhǔn)殘差,允許只存儲(chǔ)一次激活。由此產(chǎn)生的Reformer模型在長(zhǎng)序列上表現(xiàn)相當(dāng),但更內(nèi)存高效和更快。

掃碼添加小享,回復(fù)“魔改

免費(fèi)領(lǐng)取全部提效方案原文及源碼

2.RETHINKING ATTENTION WITH PERFORMERS

重新思考注意力機(jī)制:Performer模型

方法簡(jiǎn)述:論文介紹了Performers,一種Transformer架構(gòu),可以以可證明的準(zhǔn)確性估計(jì)常規(guī)(softmax)全秩注意力Transformers,但僅使用線性空間和時(shí)間復(fù)雜度。為了近似softmax注意力核,Performers使用了一種新穎的快速注意通過(guò)正交隨機(jī)特征方法(FAVOR+),并可以用于高效地建??珊嘶淖⒁饬C(jī)制。

3.Linformer: Self-Attention with Linear Complexity

具有線性復(fù)雜度的自注意力機(jī)制

方法簡(jiǎn)述:大型Transformer模型在自然語(yǔ)言處理應(yīng)用中表現(xiàn)出色,但長(zhǎng)序列的訓(xùn)練和部署成本很高。本文提出一種新自注意力機(jī)制,將復(fù)雜度從O(n^2)降低到O(n),同時(shí)保持性能不變。由此產(chǎn)生的Linformer比標(biāo)準(zhǔn)的Transformer更節(jié)省時(shí)間和內(nèi)存。

卷積Attention

1.Conformer: Convolution-augmented Transformer for Speech Recognition

用于語(yǔ)音識(shí)別的卷積增強(qiáng)Transformer

方法簡(jiǎn)述:Conformer是一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和Transformer的模型,用于語(yǔ)音識(shí)別。它能夠同時(shí)捕捉音頻序列的局部和全局依賴關(guān)系,并實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確率。在LibriSpeech基準(zhǔn)測(cè)試中,Conformer在不使用語(yǔ)言模型的情況下實(shí)現(xiàn)了2.1%/4.3%的WER,在使用外部語(yǔ)言模型的情況下實(shí)現(xiàn)了1.9%/3.9%的WER。此外,它還具有競(jìng)爭(zhēng)力的小模型,只有10M參數(shù)。

2.LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

具有長(zhǎng)短范圍注意力的輕量級(jí)Transformer

方法簡(jiǎn)述:本文提出了一種高效的移動(dòng)自然語(yǔ)言處理架構(gòu)Lite Transformer,它使用長(zhǎng)短范圍注意力(LSRA)來(lái)提高性能。LSRA將一組頭專門(mén)用于局部上下文建模(通過(guò)卷積),另一組頭則專門(mén)用于長(zhǎng)距離關(guān)系建模(通過(guò)注意力)。在三個(gè)語(yǔ)言任務(wù)上,Lite Transformer始終優(yōu)于普通的Transformer。在受限資源下,Lite Transformer比Transformer在WMT’14英法翻譯任務(wù)上高出1.2/1.7 BLEU分?jǐn)?shù)。

掃碼添加小享,回復(fù)“魔改

免費(fèi)領(lǐng)取全部提效方案原文及源碼


Transformer各魔改版本分享!這9種模型效率優(yōu)化方案必看!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
彭州市| 萨迦县| 利津县| 平安县| 靖州| 千阳县| 锡林浩特市| 沅江市| 教育| 兴隆县| 阜南县| 阿克苏市| 德庆县| 利川市| 鹤庆县| 夏河县| 连云港市| 铜川市| 武强县| 浪卡子县| 无为县| 中宁县| 南华县| 德保县| 大竹县| 潮安县| 枝江市| 望谟县| 鹤岗市| 宜城市| 彭水| 桐乡市| 建阳市| 资兴市| 临海市| 辽阳县| 文水县| 博野县| 乌苏市| 泊头市| 兴宁市|