最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

簡單聊聊開啟CV研究新時代的Transformer

2023-04-13 14:10 作者:深度之眼官方賬號  | 我要投稿

來源:投稿 作者:魔崢
編輯:學(xué)姐

起源回顧

有關(guān)Attention的論文早在上世紀九十年代就提出了。

在2012年后的深度學(xué)習(xí)時代,Attention再次被翻了出來,被用在自然語言處理任務(wù),提高RNN模型的訓(xùn)練速度。但是由于結(jié)果Attention效果太好。谷歌的科學(xué)家們在2017年提出了拋棄RNN全用Attention的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[2],并把這種結(jié)構(gòu)取名為Transformer。

Transformer的基礎(chǔ)元件是一種名叫Self-Attention的計算方式。假設(shè)現(xiàn)在一個有隱式邏輯的序列a=(a1, a2, a3, ..., ai, ...),例如文章的文字序列,語音的聲譜序列,甚至可以是心電圖信號序列。我們的目標是:為每個token(元素)找到與其他token的關(guān)系權(quán)重(圖1),找到這樣的權(quán)重信息組合就是Transformer需要做的。

大殺四方

我們可以發(fā)現(xiàn),Transformer在NLP語音識別這樣的序列任務(wù)上有天生的結(jié)構(gòu)優(yōu)勢。 但是在圖片識別任務(wù)中,因為序列信息不明顯而很難簡單使用。

事情的發(fā)展也是這樣,在Transformer在NLP任務(wù)中火了3年后,VIT網(wǎng)絡(luò)[4]提出才令Transformer正式闖入CV界,成為新一代骨干網(wǎng)絡(luò)。

VIT的思想很簡單:

沒有序列就創(chuàng)造序列,把一個圖片按序切成一個個小片(Patch)不就是有序列與token了嗎(圖2)?這樣的想法很簡單很粗暴,但效果就是好。一種全新思路設(shè)計的網(wǎng)絡(luò),結(jié)果直接逼近甚至超過研究多年的ResNet CNN結(jié)果【表1】。

但這種簡單粗暴的切片結(jié)果是有明顯的缺點。(包括但不限于以下幾點)如:

  1. 新網(wǎng)絡(luò)訓(xùn)練難度大,論文中幾乎沒告訴調(diào)參方法?

  2. 因為VIT的直筒式結(jié)構(gòu),對接下游任務(wù)時表現(xiàn)很難?

  3. 使用圖片切開的方法,導(dǎo)致切口處的關(guān)聯(lián)性一些影響

后來衍生

所謂”缺陷趨生進化,完美亦是終結(jié)”。

VIT的優(yōu)異表現(xiàn)讓驅(qū)使繼者進行深入持續(xù)研究。直接導(dǎo)致了如今Transformer在CV界大火的局面。在DeiT論文[6]中,作者提出了VIT網(wǎng)絡(luò)的訓(xùn)練方案【表2】。以表2的參數(shù)為基準進行數(shù)據(jù)微調(diào)即可以得到很好的結(jié)果。

在ICCV2021上提出的PVT(Pyramid Vision Transformer)論文【5】中,將類FPN的結(jié)構(gòu)(圖3)因為FPN。該方案大大方便了Transformer網(wǎng)絡(luò)接入CV下游任務(wù),同時減少了大目標的內(nèi)存計算的消耗。

在同時期ICCV2021的Swim Transformer論文[7]中,提出了W-MSA。SW-MSA交替使用(圖4)的切片方案(Swim Transformer論文中還有很多重要的開創(chuàng)性貢獻)。該方案防止了被切片處一直分開關(guān)聯(lián)性差的情況。

引文:

[1] Jay Alammar:The Illustrated Transformer https://jalammar.github.io/illustrated-transformer/

[2] Attention Is All You Need https://arxiv.org/abs/1706.03762

[3] 臺灣大學(xué)李宏毅教授Attention課程ppt

[4] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929

[5] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions https://arxiv.org/abs/2102.12122

[6] Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877

[7] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030

transformer相關(guān)論文學(xué)姐努力整理中...

關(guān)注【學(xué)姐帶你玩AI】公眾號

回復(fù)“500”獲取200+經(jīng)典論文PDF資源!

后續(xù)整理好了學(xué)姐會添加進去噠~

簡單聊聊開啟CV研究新時代的Transformer的評論 (共 條)

分享到微博請遵守國家法律
天镇县| 秀山| 嘉鱼县| 孝昌县| 新沂市| 明溪县| 余庆县| 太原市| 荆州市| 碌曲县| 图木舒克市| 九龙县| 松桃| 广宁县| 丹寨县| 沐川县| 西昌市| 崇信县| 红安县| 封开县| 六枝特区| 陆川县| 射阳县| 镇沅| 台安县| 禄劝| 鹤壁市| 安平县| 紫金县| 佛冈县| 兰州市| 绥滨县| 松潘县| 白玉县| 黄梅县| 抚州市| 城口县| 彭州市| 江川县| 庆云县| 滨州市|