散文網(wǎng) » 科技 »學(xué)習(xí) » Transformer漲點(diǎn)神器！通過Group-Mix 注意力改進(jìn)視覺Transformer

Transformer漲點(diǎn)神器！通過Group-Mix 注意力改進(jìn)視覺Transformer

2023-10-24 10:54 作者:聽取蛙蛙聲一片 0人讀過 | 我要投稿

替換傳統(tǒng)自注意力！本文提出Group-Mix?注意力，并提出一個(gè)強(qiáng)大的主干：GroupMixFormer，在圖像分類、目標(biāo)檢測(cè)和語義分割上實(shí)現(xiàn)了最先進(jìn)的性能，并且參數(shù)比現(xiàn)有模型更少，代碼即將開源！

Transformer(ViT) 已被證明可以通過使用多頭自注意力 (MHSA) 建模遠(yuǎn)程依賴性來增強(qiáng)視覺識(shí)別，這通常被表述為查詢-鍵-值計(jì)算。然而，從查詢和密鑰生成的注意力圖僅捕獲單一粒度的token到token的相關(guān)性。在本文中，我們認(rèn)為自注意力應(yīng)該有一個(gè)更全面的機(jī)制來捕獲標(biāo)記和組（即多個(gè)相鄰標(biāo)記）之間的相關(guān)性，以獲得更高的表示能力。因此，本文提出 Group-Mix Attention (GMA) 作為傳統(tǒng) self-attention 的高級(jí)替代品，它可以同時(shí)捕獲不同組大小的 token 到 token、token 到組以及組到組的相關(guān)性。為此，GMA將Query、Key和Value統(tǒng)一分割成段，并進(jìn)行不同的組聚合以生成組代理。注意力圖是基于令牌和組代理的混合計(jì)算的，并用于重新組合值中的token和組。基于 GMA，本文引入了一個(gè)強(qiáng)大的主干，即 GroupMixFormer，它在圖像分類、對(duì)象檢測(cè)和語義分割方面實(shí)現(xiàn)了最先進(jìn)的性能，并且參數(shù)比現(xiàn)有模型更少。例如，GroupMixFormer-L（具有 70.3M 參數(shù)和 384^2 輸入）在沒有外部數(shù)據(jù)的 ImageNet-1K 上獲得 86.2% Top-1 準(zhǔn)確率，而 GroupMixFormer-B（具有 45.8M 參數(shù)）在 ADE20K 上獲得 51.2% mIoU。