手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 筆記 »全部筆記 » Swin Transformer論文精讀【論文精讀】

Swin Transformer論文精讀【論文精讀】

2022-10-12 17:48 作者:不敗阿豪 0人讀過(guò) | 我要投稿

?

00:22

?

swin transformer代碼庫(kù)

一系列更新，swin transformer 3月份上傳論文，4月份代碼庫(kù)出來(lái)

緊接著5月12號(hào)又放出來(lái)了自監(jiān)督版本的Swin Transformer--moby，其實(shí)就是把MoCo的前兩個(gè)字母和 BYOL 的前兩個(gè)字母合在了一起，從方法上和性能上其實(shí)和MoCo v3和DINO都差不多，只是換了個(gè)骨干網(wǎng)絡(luò)

接下來(lái)過(guò)了一個(gè)月，Swin Transformer就被用到了視頻領(lǐng)域，推出了Video-Swin-Transformer，在一系列數(shù)據(jù)集上都取得了非常好的效果

比如說(shuō)在 k-400這個(gè)數(shù)據(jù)集上就已經(jīng)達(dá)到了84.9的準(zhǔn)確度

7月初的時(shí)候，因?yàn)榭吹搅擞?MLP Mixer 這篇論文，把 Swin 的思想用到了 MLP 里，推出了 Swin MLP

8月初的時(shí)候，把 Swin Transformer 用到了半監(jiān)督的目標(biāo)檢測(cè)里，然后取得了非常好的效果

10月份的時(shí)候獲得了ICCV 的最佳論文獎(jiǎng)

12月份受到了 BEiT 和 MAE 的推動(dòng)，用 Swin Transformer 基于掩碼自監(jiān)督學(xué)習(xí)的方式做了一個(gè)叫 SimMIM 的論文

?

01:54

?

效果炸裂

Swin Transformer 的提出主要是用來(lái)做視覺(jué)的下游任務(wù)，所以主要看一下 COCO 和 ADE20K這兩個(gè)數(shù)據(jù)集上的表現(xiàn)

下圖 COCO 數(shù)據(jù)集上的表現(xiàn)

ADE20K數(shù)據(jù)集

?

09:45

?

研究動(dòng)機(jī)：證明transformer是一個(gè)通用骨干網(wǎng)絡(luò)，可以用于所有視覺(jué)任務(wù)

vit缺陷：雖然可以通過(guò)全局自注意力操作達(dá)到全局建模能力，但是對(duì)多尺寸特征的把握會(huì)弱一些，不適合處理密集預(yù)測(cè)任務(wù)，全局自注意力對(duì)于視覺(jué)任務(wù)有點(diǎn)浪費(fèi)資源

?

10:49

?

檢測(cè)和分割任務(wù)處理多尺寸特征的方法

?

13:04

?

降低復(fù)雜度：小窗口之內(nèi)算自注意力

?

14:12

?

如何生成多尺寸特征？

CNN有pooling操作，可以增大卷積核的感受野，從而使得每次池化的特征抓住不同物體的特征

swin transformer提出類(lèi)似于池化的patch merging，這樣合并的大patch內(nèi)容可以看到之前4個(gè)小patch看到的內(nèi)容

?

15:40

?

swin的一個(gè)關(guān)鍵因素：滑動(dòng)窗口

?

21:04

?

模型前向過(guò)程

linear embedding：把向量維度變成一個(gè)預(yù)先設(shè)置好的值（Transformer能夠接收），論文里把超參數(shù)設(shè)置為C（網(wǎng)絡(luò)總覽圖C=96）

56 x 56=3136 拉直成序列長(zhǎng)度，96是每一個(gè)token的向量維度

vit的patch size=16 x 16，序列長(zhǎng)度=196，3136太長(zhǎng)了，不是TRM可以接受的

所以swin transformer引入基于窗口的自注意力，每個(gè)窗口按照默認(rèn)來(lái)說(shuō)有7 x 7=49個(gè)patch，序列長(zhǎng)度=49非常小，解決了計(jì)算復(fù)雜度的問(wèn)題，暫時(shí)把transformer block當(dāng)做一個(gè)黑盒，我們只關(guān)注輸入和輸出的維度

?

23:48

?

想要構(gòu)建多尺寸信息，需要層級(jí)式的transformer block，也就是CNN中的池化操作

patch merging操作

顧名思義，把鄰近的小patch合并成一個(gè)大patch，就可以起到下采樣特征圖的效果

這里我們要下采樣2倍，所以我們選點(diǎn)時(shí)每隔一個(gè)點(diǎn)選一個(gè)

假如說(shuō)原來(lái)的張量是HxWxC，那么經(jīng)過(guò)這次采樣之后得到4個(gè)張量，每個(gè)張量大小(H/2)x(W/2)，尺寸縮小1倍，將張量在C的維度上拼接起來(lái)，相當(dāng)于用空間上的維度換了更多通道數(shù)

為了和CNN保持一致（resnet和vggnet一般在池化操作之后，通道數(shù)翻2倍），用1 x 1卷積把通道數(shù)4C變成2C，空間大小減半，通道數(shù)x2，就和CNN完全對(duì)等起來(lái)

?

29:08

?

基于窗口（移動(dòng)窗口）的自注意力

全局自注意力：會(huì)導(dǎo)致平方倍的復(fù)雜度，（對(duì)于視覺(jué)的下游任務(wù)，尤其是密集型的任務(wù)，或者遇到非常大尺寸的圖片，全局計(jì)算自注意力的復(fù)雜度就非常貴）

窗口自注意力：

每一個(gè)橘黃色的方格是一個(gè)窗口（不是最小計(jì)算單元），最小計(jì)算單元是patch，每一個(gè)窗口里有M x M個(gè)patch（論文里M=7），所有的自注意力計(jì)算都是在小窗口里完成的（序列長(zhǎng)度永遠(yuǎn)=7x7=49），原來(lái)大的整體特征圖會(huì)有多少窗口？8 x 8=64

我們會(huì)在64個(gè)窗口里分別計(jì)算自注意力

基于窗口自注意力的計(jì)算復(fù)雜度如何？