最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

注意力機(jī)制PyTorch實(shí)現(xiàn)!30篇高分Attention論文一次看完!

2023-09-12 18:19 作者:深度之眼官方賬號(hào)  | 我要投稿

還記得鼎鼎大名的《Attention is All You Need》嗎?不過(guò)我們今天要聊的重點(diǎn)不是transformer,而是注意力機(jī)制。

注意力機(jī)制最早應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,后來(lái)也逐漸在NLP領(lǐng)域廣泛應(yīng)用,它克服了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的的一些局限,將有限的注意力集中在重點(diǎn)信息上,因而幫我們節(jié)省資源,快速獲得最有效的信息。

同樣作為熱門(mén)研究方向,注意力機(jī)制近幾年相關(guān)的論文數(shù)量自然是十分可觀,學(xué)姐這次就整理了一系列關(guān)于PyTorch 代碼實(shí)現(xiàn)注意力機(jī)制以及使用方法的論文。

本次分享Attention系列,共有30篇。有需要的同學(xué)看這里!??????

掃碼添加小享,回復(fù)“注意力機(jī)制

免費(fèi)獲取全部論文+開(kāi)源代碼合集

Attention

1、Axial Attention in Multidimensional Transformers

一句話(huà)概括:Axial Transformers是一種基于自注意力的自動(dòng)回歸模型,它利用軸向注意力機(jī)制,在對(duì)高維張量數(shù)據(jù)建模的編碼解碼過(guò)程中,既保持了完全的分布表示能力,又大大減少了計(jì)算和存儲(chǔ)需求,在多個(gè)生成建?;鶞?zhǔn)上都取得了state-of-the-art的結(jié)果。

2、CCNet: Criss-Cross Attention for Semantic Segmentation

一句話(huà)概括:Criss-Cross網(wǎng)絡(luò)利用criss-cross注意力和遞歸操作高效獲取全圖像依賴(lài),在多個(gè)圖像理解任務(wù)上達(dá)到state-of-the-art性能。

3、Aggregating Global Features into Local Vision Transformer

一句話(huà)概括:本文在局部窗口Transformer中引入了多分辨率重疊注意力模塊聚合全局信息,找到了一種優(yōu)化的架構(gòu)設(shè)計(jì),在多個(gè)圖像分類(lèi)數(shù)據(jù)集上優(yōu)于之前的視覺(jué)Transformer。

4、CROSSFORMER: A VERSATILE VISION TRANSFORMER HINGING ON CROSS-SCALE ATTENTION

一句話(huà)概括:本文提出了跨尺度嵌入層和長(zhǎng)短距離注意力機(jī)制,實(shí)現(xiàn)了在vision transformer中跨尺度特征的提取和互作用。這不僅減少了計(jì)算量,還在嵌入中保留了小尺度和大尺度的特征?;诖耍瑯?gòu)建了一個(gè)通用的計(jì)算機(jī)視覺(jué)架構(gòu)CrossFormer,可以處理不同尺寸的輸入。在多個(gè)視覺(jué)任務(wù)上優(yōu)于其他視覺(jué)transformer。

5、Vision Transformer with Deformable Attention

一句話(huà)概括:本文提出了可變形的自注意力模塊和基于其的可變形注意力Transformer,通過(guò)數(shù)據(jù)依賴(lài)方式選擇鍵值對(duì)位置,使注意力機(jī)制能夠關(guān)注相關(guān)區(qū)域,在圖像分類(lèi)和密集預(yù)測(cè)任務(wù)上優(yōu)于已有方法。

6、Separable Self-attention for Mobile Vision Transformers

一句話(huà)概括:本文提出了一個(gè)線性復(fù)雜度的可分離自注意力機(jī)制,使用逐元素操作計(jì)算自注意力,大大降低了移動(dòng)設(shè)備上vision transformer的延遲?;诖说哪P蚆obileViTv2在多個(gè)移動(dòng)視覺(jué)任務(wù)上達(dá)到state-of-the-art性能,計(jì)算速度比MobileViT提升3.2倍。

7、On the Integration of Self-Attention and Convolution

一句話(huà)概括:本文提出卷積和自注意力在計(jì)算上存在內(nèi)在聯(lián)系,都可分解為多個(gè)1x1卷積加上移位和求和操作?;诖?,提出了一種混合模塊ACmix,融合了卷積和自注意力的優(yōu)點(diǎn),計(jì)算量也較單獨(dú)使用兩者更低。在圖像識(shí)別和下游任務(wù)上取得了state-of-the-art的結(jié)果。

8、Non-deep Networks

一句話(huà)概括:本文通過(guò)采用并行子網(wǎng)絡(luò)結(jié)構(gòu)代替層層堆疊,構(gòu)建了深度僅為12層的“非深度”神經(jīng)網(wǎng)絡(luò),在多個(gè)視覺(jué)任務(wù)上都獲得了state-of-the-art的性能,為構(gòu)建低延遲的識(shí)別系統(tǒng)提供了新的思路。

9、UFO-ViT: High Performance Linear Vision Transformer without Softmax

一句話(huà)概括:本文提出了一個(gè)計(jì)算復(fù)雜度線性的自注意力機(jī)制Unit Force Operated Vision Transformer (UFO-ViT),通過(guò)消除原始自注意力中的非線性,將矩陣乘法分解為線性操作,僅修改了自注意力的少量代碼。該模型在圖像分類(lèi)和密集預(yù)測(cè)任務(wù)上,在大多數(shù)模型容量下都優(yōu)于基于transformer的模型。

10、Coordinate Attention for Efficient Mobile Network Design

一句話(huà)概括:本文提出了坐標(biāo)注意力機(jī)制,通過(guò)將位置信息融入通道注意力,生成方向感知和位置敏感的注意力圖,增強(qiáng)移動(dòng)網(wǎng)絡(luò)在圖像分類(lèi)和下游任務(wù)中的表現(xiàn),計(jì)算量幾乎沒(méi)有增加。

11、Rotate to Attend: Convolutional Triplet Attention Module

一句話(huà)概括:本文提出了三元組注意力機(jī)制,通過(guò)三分支結(jié)構(gòu)以很小的計(jì)算量編碼跨維信息,作為附加模塊植入骨干網(wǎng)絡(luò),在圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)上取得了效果。

12、Global Filter Networks for Image Classification

一句話(huà)概括:本文提出了全局濾波網(wǎng)絡(luò)GFNet,通過(guò)頻域全局濾波的方式以對(duì)數(shù)線性復(fù)雜度學(xué)習(xí)長(zhǎng)程空間依賴(lài),作為transformer和CNN的一種高效、泛化強(qiáng)且穩(wěn)健的替代方案。

13、S22-MLPv2: Improved Spatial-Shift MLP Architecture for Vision

一句話(huà)概括:本文提出了改進(jìn)的空間移位MLP網(wǎng)絡(luò)S2-MLPv2,采用通道擴(kuò)展和特征圖拆分,以及金字塔結(jié)構(gòu)和更小尺寸的patch,在ImageNet上取得83.6%的top-1準(zhǔn)確率。

14、Residual Attention: A Simple but Effective Method for Multi-Label Recognition

一句話(huà)概括:本文提出了一個(gè)極簡(jiǎn)的模塊類(lèi)特定殘差注意力(CSRA),用于多標(biāo)簽圖像識(shí)別。CSRA通過(guò)生成類(lèi)別特定的空間注意力分?jǐn)?shù),獲得每個(gè)類(lèi)別的特定特征表示,并與類(lèi)別不可知的平均池化特征組合。CSRA實(shí)現(xiàn)了多標(biāo)簽識(shí)別的state-of-the-art結(jié)果,且比現(xiàn)有方法簡(jiǎn)單許多。

15、Contextual Transformer Networks for Visual Recognition

一句話(huà)概括:本文提出了Contextual Transformer模塊,通過(guò)鄰近鍵的上下文編碼指導(dǎo)注意力矩陣學(xué)習(xí),增強(qiáng)了視覺(jué)表示能力,可直接替換ResNet中的3x3卷積,形成更強(qiáng)大的Transformer骨干網(wǎng)絡(luò)。

掃碼添加小享,回復(fù)“注意力機(jī)制

免費(fèi)獲取全部論文+開(kāi)源代碼合集

16、Polarized Self-Attention: Towards High-quality Pixel-wise Regression

一句話(huà)概括:本文提出了極化自注意力模塊,通過(guò)極化過(guò)濾和輸出分布增強(qiáng)設(shè)計(jì),實(shí)現(xiàn)了高質(zhì)量的像素級(jí)回歸,在多個(gè)基準(zhǔn)測(cè)試中顯著提升了姿態(tài)估計(jì)和語(yǔ)義分割的性能。

17、Scaling Local Self-Attention for Parameter Efficient Visual Backbones

一句話(huà)概括:本文通過(guò)自注意力的兩種擴(kuò)展和更高效實(shí)現(xiàn),提出了HaloNet模型系列,在參數(shù)受限的ImageNet分類(lèi)中達(dá)到state-of-the-art精度,并在目標(biāo)檢測(cè)和實(shí)例分割等任務(wù)上優(yōu)于傳統(tǒng)卷積模型。

18、CoAtNet: Marrying Convolution and Attention for All Data Sizes

一句話(huà)概括:本文提出了CoAtNet,一種混合卷積和自注意力的模型家族,通過(guò)兩點(diǎn)洞見(jiàn)有效結(jié)合了兩種架構(gòu)的優(yōu)勢(shì):(1)深度可分卷積和自注意力可通過(guò)相對(duì)注意力自然統(tǒng)一;(2)原則性地垂直堆疊卷積和注意力層可以驚人地改善推廣性、容量和效率。實(shí)驗(yàn)表明,在不同的數(shù)據(jù)集和資源約束下,CoAtNet都達(dá)到了state-of-the-art性能。

19、Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

一句話(huà)概括:本文提出了Vision Permutator,一個(gè)概念簡(jiǎn)單且數(shù)據(jù)效率高的類(lèi)MLP架構(gòu),用于視覺(jué)識(shí)別。它通過(guò)在高度和寬度維度上分別對(duì)特征編碼,捕獲一個(gè)空間維度的長(zhǎng)程依賴(lài),同時(shí)在另一個(gè)維度上保留精確的位置信息。這樣的位置敏感輸出以互補(bǔ)的方式聚合,形成對(duì)目標(biāo)的表達(dá)性表示。在不依賴(lài)空間卷積或注意力機(jī)制的情況下,Vision Permutator在ImageNet上達(dá)到81.5%的top-1準(zhǔn)確率,使用2500萬(wàn)參數(shù)明顯優(yōu)于大多數(shù)CNN和transformer。

20、VOLO: Vision Outlooker for Visual Recognition

一句話(huà)概括:本文提出了Vision Outlooker (VOLO),一個(gè)簡(jiǎn)單通用的基于注意力的模型架構(gòu),在ImageNet圖像分類(lèi)任務(wù)上首次無(wú)需額外訓(xùn)練數(shù)據(jù)即超過(guò)87%的top-1準(zhǔn)確率。VOLO中的outlook注意力機(jī)制高效地將細(xì)粒度的特征和上下文編碼到tokens中,這對(duì)識(shí)別性能至關(guān)重要但自注意力機(jī)制缺乏。

21、An Attention Free Transformer

一句話(huà)概括:本文提出了Attention Free Transformer (AFT),一種高效的Transformer變體,消除了點(diǎn)積自注意力的需要。在AFT層中,鍵和值先與一組學(xué)習(xí)到的位置偏置組合,結(jié)果與查詢(xún)按元素相乘。這種新操作的內(nèi)存復(fù)雜度對(duì)上下文大小和特征維度均是線性的,兼容大規(guī)模輸入和模型大小。文中還提出了AFT-local和AFT-conv兩種變體,利用局部性思想和空間權(quán)重共享的同時(shí)保持全局連接。在兩個(gè)自回歸建模任務(wù)(CIFAR10和Enwik8)和圖像識(shí)別任務(wù)(ImageNet分類(lèi))上的大量實(shí)驗(yàn)表明,AFT在保持高效率的同時(shí)達(dá)到了競(jìng)爭(zhēng)性能。

22、A2 -Nets: Double Attention Networks

一句話(huà)概括:本文提出“雙注意力模塊”,通過(guò)雙重注意力機(jī)制高效聚集和傳播整個(gè)輸入時(shí)空的全局信息,使卷積網(wǎng)絡(luò)能有效訪問(wèn)全部特征,從而增強(qiáng)圖像和視頻的長(zhǎng)程依賴(lài)建模能力。該模塊首先通過(guò)二階注意力池化將全部特征聚集到一個(gè)緊湊集,然后自適應(yīng)地分發(fā)特征到每個(gè)位置。

23、Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

一句話(huà)概括:CNN通過(guò)分層收集不同語(yǔ)義子特征來(lái)生成復(fù)雜對(duì)象的特征表達(dá),這些子特征通常以組的形式分布在各層特征向量中,表示不同語(yǔ)義實(shí)體。為校正背景噪聲對(duì)子特征激活的空間影響,文中提出了空間組別增強(qiáng)(SGE)模塊,通過(guò)每個(gè)語(yǔ)義組在各空間位置生成注意力因子來(lái)調(diào)節(jié)每個(gè)子特征的重要性,使各組可自主增強(qiáng)學(xué)習(xí)表達(dá)和抑制噪聲。

24、MUSE: Parallel Multi-Scale Attention for Sequence to Sequence Learning

一句話(huà)概括:本文探索了在序列數(shù)據(jù)上進(jìn)行并行多尺度表示學(xué)習(xí),旨在同時(shí)捕獲長(zhǎng)程和短程語(yǔ)言結(jié)構(gòu)。為此,提出了并行多尺度注意力(MUSE)和MUSE-simple。MUSE-simple包含了并行多尺度序列表示學(xué)習(xí)的基本思想,它使用自注意力和逐點(diǎn)變換并行地以不同尺度編碼序列。MUSE在MUSE-simple的基礎(chǔ)上,結(jié)合卷積和自注意力從更多不同尺度學(xué)習(xí)序列表示。

25、SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS

一句話(huà)概括:本文提出了高效的洗牌注意力(SA)模塊,采用洗牌單元有效結(jié)合了空間注意力和通道注意力機(jī)制。具體來(lái)說(shuō),SA先將通道維度分組成多個(gè)子特征進(jìn)行并行處理。然后,對(duì)每個(gè)子特征使用洗牌單元同時(shí)建模空間和通道維度之間的依賴(lài)關(guān)系。最后,聚合所有子特征并采用“通道洗牌”操作者促進(jìn)不同子特征之間的信息交流。

26、ResT: An Efficient Transformer for Visual Recognition

一句話(huà)概括:本文提出了一個(gè)高效的多尺度視覺(jué)Transformer,名為ResT,它可以作為通用的圖像識(shí)別骨干網(wǎng)絡(luò)。與現(xiàn)有的Transformer方法不同,ResT具有以下幾個(gè)優(yōu)點(diǎn):1. 構(gòu)建了高效的多頭自注意力,通過(guò)簡(jiǎn)單的逐點(diǎn)卷積來(lái)壓縮內(nèi)存,并在保持多頭注意力多樣性的同時(shí),實(shí)現(xiàn)頭維度間的交互。2. 將位置編碼構(gòu)建為空間注意力,更加靈活,可以處理任意大小的輸入圖像,無(wú)需插值或微調(diào)。3. 在每個(gè)階段開(kāi)始時(shí),沒(méi)有進(jìn)行直接的標(biāo)記化,而是將patch嵌入設(shè)計(jì)為具有步幅的重疊卷積操作的堆疊。

27、EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network

一句話(huà)概括:本文提出了一種稱(chēng)為金字塔壓縮注意力(PSA)的輕量級(jí)有效的注意力機(jī)制。通過(guò)在ResNet瓶頸塊中用PSA模塊替換3x3卷積,得到一種稱(chēng)為有效金字塔壓縮注意力(EPSA)的新表示塊。EPSA塊可以輕松地作為即插即用組件添加到成熟的backbone網(wǎng)絡(luò)中,并顯著提高模型性能。

28、Dual Attention Network for Scene Segmentation

一句話(huà)概括:本文通過(guò)自注意力機(jī)制捕獲豐富的上下文依賴(lài)關(guān)系來(lái)解決場(chǎng)景分割任務(wù)。與之前通過(guò)多尺度特征融合來(lái)捕獲上下文的工作不同,本文提出了雙注意力網(wǎng)絡(luò)DANet,可以自適應(yīng)地整合局部特征及其全局依賴(lài)關(guān)系。

29、ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

一句話(huà)概括:本文提出了一個(gè)高效的通道注意力(ECA)模塊,只涉及極少的參數(shù)量,但帶來(lái)了明顯的性能提升。通過(guò)剖析SENet中的通道注意力模塊,我們經(jīng)驗(yàn)證明避免降維對(duì)學(xué)習(xí)通道注意力非常重要,適當(dāng)?shù)目缤ǖ澜换タ梢栽陲@著降低模型復(fù)雜度的同時(shí)保持性能。因此,我們提出了一個(gè)沒(méi)有降維的局部跨通道交互策略,可以通過(guò)1D卷積高效實(shí)現(xiàn)。此外,我們開(kāi)發(fā)了一種自適應(yīng)選擇1D卷積核大小的方法,確定局部跨通道交互的范圍。

30、BAM: Bottleneck Attention Module

一句話(huà)概括:本文提出了一個(gè)簡(jiǎn)單有效的注意力模塊,稱(chēng)為瓶頸注意力模塊(BAM),可以與任何前饋卷積神經(jīng)網(wǎng)絡(luò)集成。該模塊沿著通道和空間兩個(gè)獨(dú)立路徑推斷注意力圖。我們?cè)谀P偷母鱾€(gè)瓶頸放置該模塊,即特征圖下采樣的位置。該模塊在瓶頸構(gòu)建了層次化的注意力,參數(shù)量少,可以與任何前饋模型端到端訓(xùn)練。

掃碼添加小享,回復(fù)“注意力機(jī)制

免費(fèi)獲取全部論文+開(kāi)源代碼合集


注意力機(jī)制PyTorch實(shí)現(xiàn)!30篇高分Attention論文一次看完!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
凤山县| 松潘县| 苍溪县| 策勒县| 黑水县| 庄河市| 天气| 文登市| 布拖县| 甘泉县| 淮南市| 曲周县| 汝阳县| 霸州市| 梅州市| 临武县| 延安市| 曲松县| 马关县| 甘泉县| 柘荣县| 新泰市| 砀山县| 奎屯市| 广元市| 漠河县| 龙川县| 山阳县| 自贡市| 繁昌县| 天津市| 婺源县| 山东省| 普兰店市| 吉林市| 寿阳县| 花莲县| 和田县| 连山| 专栏| 南郑县|