一文掌握ViT最新研究進(jìn)展?。ǜ秸撐?代碼)
相較于CNN(卷積神經(jīng)網(wǎng)絡(luò)),視覺transformer(ViT)具有更出色的建模能力,在imagenet等基準(zhǔn)上也取得了更優(yōu)秀的性能,這可能也是近年來ViT越發(fā)熱門的原因。
而且最近ViT的新進(jìn)展真的不少,對(duì)于想發(fā)論文的同學(xué)來說,正是個(gè)好時(shí)機(jī)!
所以,我挑選了7篇vit最新高分論文和6篇vit經(jīng)典必讀論文來和大家分享,幫助大家迅速了解VIT最新研究動(dòng)態(tài),掌握vit的歷史發(fā)展方向,為發(fā)論文提供新的思路。
論文我已經(jīng)下載好了,部分代碼也一并打包在內(nèi)。
掃碼添加小享,回復(fù)“vit”
免費(fèi)領(lǐng)取全部論文+代碼


7篇ViT最新高分論文
01
CF-ViT:一種通用的粗糙到精細(xì)的Vision Transformer方法(AAAI?2023)

論文貢獻(xiàn):作者提出了一種粗細(xì)粒度視覺Transformer(CF-ViT)來減輕計(jì)算負(fù)擔(dān)而保持性能。通過粗細(xì)粒度的patch分割和多階段推理,CF-ViT實(shí)現(xiàn)了視覺Transformer的輕量化,在不影響Top-1 準(zhǔn)確率的情況下,CF-ViT在ImageNet上將LV-ViT-S的FLOPs降低53%, GPU上實(shí)測(cè)推理速度也加快了2倍,這為其在更大規(guī)模數(shù)據(jù)集和模型上應(yīng)用提供了可能。
02
將Vision Transformers擴(kuò)展到220億參數(shù)

論文貢獻(xiàn):作者提出了一種能夠高效且穩(wěn)定訓(xùn)練大規(guī)模Vision Transformers(ViT)模型的方法,異步并行線性操作,成功將ViT的參數(shù)量提升到220億。
03
FQ-ViT:Vision Transformer的訓(xùn)練后量化方法

論文貢獻(xiàn):作者提出了Power-of-Two Factor(PTF),一種簡(jiǎn)單而有效的后訓(xùn)練方法,可以在只有一個(gè)分層量化尺度的情況下對(duì)LayerNorm輸入實(shí)現(xiàn)精確量化,減少全量化視覺Transformer的性能下降和推理復(fù)雜性。另外,作者也提出了Log-Int-Softmax(LIS)來維持注意力圖中的極端非均勻分布,并通過使用4位量化和BitShift運(yùn)算符簡(jiǎn)化推理。
04
從分析合成出發(fā)的自上而下的視覺注意機(jī)制

論文貢獻(xiàn):作者提出了一個(gè)擁有top-down attention能力的AbSViT,這是一種通過自上而下的調(diào)制調(diào)整ViT模型的變分近似AbS,可以實(shí)現(xiàn)可控的自上而下注意力,可以用作一般的骨干,改進(jìn)分類、語義分割和模型魯棒性的性能。AbSViT不僅在視覺語言理解等任務(wù)中表現(xiàn)出色,也是一般的強(qiáng)大工具。
05
保留視覺骨干網(wǎng)絡(luò)的效果但去除令牌混合器(CVPR 2023)

論文貢獻(xiàn):作者基于重參數(shù)機(jī)制提出了RepIdentityFormer方案以研究無Token Mixer的架構(gòu)體系。然后作者探索改進(jìn)的學(xué)習(xí)范式來突破簡(jiǎn)單令牌混合器免費(fèi)骨干的限制,并總結(jié)了5個(gè)經(jīng)驗(yàn)實(shí)踐指南。該工作可以作為網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化驅(qū)動(dòng)型高效率的探索起點(diǎn),為后續(xù)優(yōu)化驅(qū)動(dòng)的高效網(wǎng)絡(luò)設(shè)計(jì)提供了新的思路。
06
對(duì)自監(jiān)督輕量級(jí)視覺變壓器的深入研究(ICML 2023)

論文貢獻(xiàn):對(duì)于輕量級(jí) ViT來說,當(dāng)下游任務(wù)的數(shù)據(jù)比較充足時(shí),基于 Masked-Image-Modeling(MIM)的自監(jiān)督預(yù)訓(xùn)練方法表現(xiàn)最好,當(dāng)下游任務(wù)的數(shù)據(jù)規(guī)模比較小時(shí),基于 MAE 的預(yù)訓(xùn)練輕量級(jí) ViT的遷移效果就很差?;谏鲜龇治觯髡唛_發(fā)了預(yù)訓(xùn)練期間的蒸餾策略,進(jìn)一步提高了基于MAE的預(yù)訓(xùn)練的下游性能。
07
Efficientvit:具有級(jí)聯(lián)注意力的高效記憶視覺轉(zhuǎn)換器(CVPR 2023)

論文貢獻(xiàn):作者從三個(gè)維度分析了ViT的速度瓶頸,包括多頭自注意力(MHSA)導(dǎo)致的大量訪存時(shí)間,注意力頭之間的計(jì)算冗余,以及低效的模型參數(shù)分配,進(jìn)而提出了一個(gè)高效ViT模型EfficientViT。
---
這6篇ViT經(jīng)典必讀論文,其創(chuàng)新點(diǎn)以及突破點(diǎn)都極大地推動(dòng)了vit領(lǐng)域的發(fā)展,非常有學(xué)術(shù)價(jià)值,建議想發(fā)論文的同學(xué)仔細(xì)研讀。
掃碼添加小享,回復(fù)“vit”
免費(fèi)領(lǐng)取全部論文+代碼


6篇ViT經(jīng)典必讀論文
01
Attention is All You Need(NeurIPS 2017)

論文貢獻(xiàn):作者提出一種網(wǎng)絡(luò)架構(gòu)Transformer,引入了自注意力機(jī)制,目前Transformer已成為機(jī)器翻譯和其他序列學(xué)習(xí)任務(wù)的主流框架之一。
02
一張圖片值得16x16個(gè)詞:用于大規(guī)模圖像識(shí)別的Transformers(ICLR 2020)

論文貢獻(xiàn):作者提出一個(gè)直接對(duì)圖像塊序列應(yīng)用Transformer的方法Vision Transformer(ViT),并證明當(dāng)用于大規(guī)模預(yù)訓(xùn)練和多個(gè)下游任務(wù)時(shí),ViT可以獲得與最先進(jìn)的卷積網(wǎng)絡(luò)相當(dāng)?shù)慕Y(jié)果,但訓(xùn)練成本更低。這為純Transformer在視覺領(lǐng)域的應(yīng)用提供了一個(gè)成功范例。
03
Swin Transformer:使用移動(dòng)窗口的層次視覺變壓器?(ICCV 2021)

論文貢獻(xiàn):作者提出一種新的視覺Transformer,稱為Swin Transformer,用于廣泛的計(jì)算機(jī)視覺任務(wù)。作者指出將Transformer從NLP轉(zhuǎn)用于CV面臨的挑戰(zhàn),并提出一種分層設(shè)計(jì)和移位窗口方法來解決這些挑戰(zhàn)。實(shí)驗(yàn)結(jié)果顯示Swin Transformer在多個(gè)視覺任務(wù)上表現(xiàn)優(yōu)異,并且性能超過之前最先進(jìn)的方法一個(gè)很大的幅度。
04
使用Transformers的端到端目標(biāo)檢測(cè)(ECCV 2020)

論文貢獻(xiàn):作者提出一種新的目標(biāo)檢測(cè)方法-DETR,將目標(biāo)檢測(cè)視為直接集合預(yù)測(cè)問題。DETR采用一種基于集合的全局損失和Transformer encoder-decoder架構(gòu)。實(shí)驗(yàn)結(jié)果顯示,DETR在COCO數(shù)據(jù)集上與優(yōu)化的Faster RCNN基準(zhǔn)相當(dāng),并且可以擴(kuò)展到全景分割。DETR簡(jiǎn)單易用,不需要復(fù)雜的庫(kù)。
05
令牌合并:您的ViT但更快(ICLR 2023)

論文貢獻(xiàn):作者提出一種簡(jiǎn)單的方法Token Merging (ToMe),可以在不需要重新訓(xùn)練的情況下提高Vision Transformer(ViT)模型的吞吐量。ToMe使用輕量級(jí)的匹配算法合并相似的令牌。實(shí)驗(yàn)結(jié)果顯示,ToMe可以將ViT在圖像、視頻和音頻上的吞吐量提高一倍以上,精度損失很小。
06
Transformer的快速訓(xùn)練后剪枝框架(NeurlPS 2022)

論文貢獻(xiàn):作者提出了一種快速的訓(xùn)練后剪枝框架,用于不需要任何重新訓(xùn)練的Transformer。另外,作者還提出三種新技術(shù):mask搜索算法、mask重排和mask調(diào)優(yōu),以在不重新訓(xùn)練的情況下保持高精度。
在GLUE和SQuAD基準(zhǔn)測(cè)試中,該方法的有效性得到了證實(shí),相比現(xiàn)有重新訓(xùn)練的剪枝方法速度快兩個(gè)數(shù)量級(jí)。這為Transformer模型的部署和使用提供了更簡(jiǎn)單高效的剪枝方法。
掃碼添加小享,回復(fù)“vit”
免費(fèi)領(lǐng)取全部論文+代碼

