簡單聊聊開啟CV研究新時代的Transformer
來源:投稿 作者:魔崢
編輯:學(xué)姐
起源回顧
有關(guān)Attention的論文早在上世紀九十年代就提出了。
在2012年后的深度學(xué)習(xí)時代,Attention再次被翻了出來,被用在自然語言處理任務(wù),提高RNN模型的訓(xùn)練速度。但是由于結(jié)果Attention效果太好。谷歌的科學(xué)家們在2017年提出了拋棄RNN全用Attention的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[2],并把這種結(jié)構(gòu)取名為Transformer。
Transformer的基礎(chǔ)元件是一種名叫Self-Attention的計算方式。假設(shè)現(xiàn)在一個有隱式邏輯的序列a=(a1, a2, a3, ..., ai, ...),例如文章的文字序列,語音的聲譜序列,甚至可以是心電圖信號序列。我們的目標是:為每個token(元素)找到與其他token的關(guān)系權(quán)重(圖1),找到這樣的權(quán)重信息組合就是Transformer需要做的。

大殺四方
我們可以發(fā)現(xiàn),Transformer在NLP語音識別這樣的序列任務(wù)上有天生的結(jié)構(gòu)優(yōu)勢。 但是在圖片識別任務(wù)中,因為序列信息不明顯而很難簡單使用。
事情的發(fā)展也是這樣,在Transformer在NLP任務(wù)中火了3年后,VIT網(wǎng)絡(luò)[4]提出才令Transformer正式闖入CV界,成為新一代骨干網(wǎng)絡(luò)。
VIT的思想很簡單:
沒有序列就創(chuàng)造序列,把一個圖片按序切成一個個小片(Patch)不就是有序列與token了嗎(圖2)?這樣的想法很簡單很粗暴,但效果就是好。一種全新思路設(shè)計的網(wǎng)絡(luò),結(jié)果直接逼近甚至超過研究多年的ResNet CNN結(jié)果【表1】。
但這種簡單粗暴的切片結(jié)果是有明顯的缺點。(包括但不限于以下幾點)如:
新網(wǎng)絡(luò)訓(xùn)練難度大,論文中幾乎沒告訴調(diào)參方法?
因為VIT的直筒式結(jié)構(gòu),對接下游任務(wù)時表現(xiàn)很難?
使用圖片切開的方法,導(dǎo)致切口處的關(guān)聯(lián)性一些影響


后來衍生
所謂”缺陷趨生進化,完美亦是終結(jié)”。
VIT的優(yōu)異表現(xiàn)讓驅(qū)使繼者進行深入持續(xù)研究。直接導(dǎo)致了如今Transformer在CV界大火的局面。在DeiT論文[6]中,作者提出了VIT網(wǎng)絡(luò)的訓(xùn)練方案【表2】。以表2的參數(shù)為基準進行數(shù)據(jù)微調(diào)即可以得到很好的結(jié)果。

在ICCV2021上提出的PVT(Pyramid Vision Transformer)論文【5】中,將類FPN的結(jié)構(gòu)(圖3)因為FPN。該方案大大方便了Transformer網(wǎng)絡(luò)接入CV下游任務(wù),同時減少了大目標的內(nèi)存計算的消耗。

在同時期ICCV2021的Swim Transformer論文[7]中,提出了W-MSA。SW-MSA交替使用(圖4)的切片方案(Swim Transformer論文中還有很多重要的開創(chuàng)性貢獻)。該方案防止了被切片處一直分開關(guān)聯(lián)性差的情況。

引文:
[1] Jay Alammar:The Illustrated Transformer https://jalammar.github.io/illustrated-transformer/
[2] Attention Is All You Need https://arxiv.org/abs/1706.03762
[3] 臺灣大學(xué)李宏毅教授Attention課程ppt
[4] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929
[5] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions https://arxiv.org/abs/2102.12122
[6] Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877
[7] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030
transformer相關(guān)論文學(xué)姐努力整理中...
關(guān)注【學(xué)姐帶你玩AI】公眾號
回復(fù)“500”獲取200+經(jīng)典論文PDF資源!
后續(xù)整理好了學(xué)姐會添加進去噠~