Transformer漲點(diǎn)神器!通過Group-Mix 注意力改進(jìn)視覺Transformer
替換傳統(tǒng)自注意力!本文提出Group-Mix?注意力,并提出一個(gè)強(qiáng)大的主干:GroupMixFormer,在圖像分類、目標(biāo)檢測(cè)和語義分割上實(shí)現(xiàn)了最先進(jìn)的性能,并且參數(shù)比現(xiàn)有模型更少,代碼即將開源!
Transformer(ViT) 已被證明可以通過使用多頭自注意力 (MHSA) 建模遠(yuǎn)程依賴性來增強(qiáng)視覺識(shí)別,這通常被表述為查詢-鍵-值計(jì)算。 然而,從查詢和密鑰生成的注意力圖僅捕獲單一粒度的token到token的相關(guān)性。 在本文中,我們認(rèn)為自注意力應(yīng)該有一個(gè)更全面的機(jī)制來捕獲標(biāo)記和組(即多個(gè)相鄰標(biāo)記)之間的相關(guān)性,以獲得更高的表示能力。因此,本文提出 Group-Mix Attention (GMA) 作為傳統(tǒng) self-attention 的高級(jí)替代品,它可以同時(shí)捕獲不同組大小的 token 到 token、token 到組以及組到組的相關(guān)性。 為此,GMA將Query、Key和Value統(tǒng)一分割成段,并進(jìn)行不同的組聚合以生成組代理。 注意力圖是基于令牌和組代理的混合計(jì)算的,并用于重新組合值中的token和組。 基于 GMA,本文引入了一個(gè)強(qiáng)大的主干,即 GroupMixFormer,它在圖像分類、對(duì)象檢測(cè)和語義分割方面實(shí)現(xiàn)了最先進(jìn)的性能,并且參數(shù)比現(xiàn)有模型更少。 例如,GroupMixFormer-L(具有 70.3M 參數(shù)和 384^2 輸入)在沒有外部數(shù)據(jù)的 ImageNet-1K 上獲得 86.2% Top-1 準(zhǔn)確率,而 GroupMixFormer-B(具有 45.8M 參數(shù))在 ADE20K 上獲得 51.2% mIoU。








論文地址:https://openreview.net/forum?id=QSrtzF0qzn
更多論文創(chuàng)新點(diǎn)加微信群:Lh1141755859
公眾號(hào):CV算法小屋?