最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

2000字解讀這篇比較ResNet和ViT差異的論文

2021-09-27 18:41 作者:深度之眼官方賬號(hào)  | 我要投稿

學(xué)姐上周推薦了幾篇深度學(xué)習(xí)的論文,就看到有大佬解讀了其中《Do Vision Transformers See Like Convolutional Neural Networks?》這篇論文。嘻嘻嘻!請(qǐng)各位配套上周學(xué)姐整理的文章中本篇論文的拼貼圖和今天的這篇論文解讀一起食用,效果更佳!


本篇文章是學(xué)姐轉(zhuǎn)載【夕小瑤的賣萌屋】公眾號(hào)的文章!不是學(xué)姐寫的!作者是白鹡鸰!



前言


計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí),這兩個(gè)詞會(huì)讓你想到什么?

相信絕大多數(shù)人第一反應(yīng)都是CNN,而持續(xù)關(guān)注這些領(lǐng)域發(fā)展的人,則會(huì)進(jìn)一步聯(lián)想到近幾年大火的Transformer,它不僅在自然語(yǔ)言相關(guān)任務(wù)上表現(xiàn)優(yōu)秀,在圖像領(lǐng)域同樣取得了相當(dāng)不錯(cuò)的效果。


去年10月份Google推出的Vision Transformer (ViT),就在圖像識(shí)別任務(wù)上用更高的學(xué)習(xí)效率,達(dá)到了不亞于ResNet的精度。當(dāng)一個(gè)模型性能達(dá)到SOTA之后,很自然地,人們就會(huì)想去探究它的原理,并和先前的模型進(jìn)行比較。今年上半年,普林斯頓大學(xué)就從錯(cuò)誤一致性的角度比較了ViT與ResNet,最終發(fā)現(xiàn)ViT更容易錯(cuò)判形狀相似的物體,而ResNet的識(shí)別更依賴紋理信息 [1]。


最近,Google則對(duì)網(wǎng)絡(luò)本身進(jìn)行了進(jìn)一步的探索,試圖通過(guò)追蹤模型學(xué)習(xí)表征的過(guò)程,確認(rèn)ViT和ResNet在處理圖像的原理上是否一致。


論文題目:
Do Vision Transformers See Like Convolutional Neural Networks?

論文鏈接:
http://arxiv.org/abs/2108.08810


方法

ResNet與ViT回顧


在開(kāi)始研究區(qū)別之前,我們先快速回顧一下ResNet和ViT分別是誰(shuí),長(zhǎng)什么樣。


首先是?ResNet,深度殘差網(wǎng)絡(luò),2015年ImageNet挑戰(zhàn)賽冠軍。通過(guò)如下圖所示的殘差塊實(shí)現(xiàn)網(wǎng)絡(luò)層上的跳躍,從而將模型的優(yōu)化目標(biāo)從尋找函數(shù)的等價(jià)映射改為了逼近零,弱化了網(wǎng)絡(luò)變深對(duì)模型性能的負(fù)面影響。目前為止,基于ImageNet數(shù)據(jù)集訓(xùn)練的ResNet50仍然是圖像處理任務(wù)中使用頻率最高的預(yù)訓(xùn)練模型之一

▲ResNet核心部件——?dú)埐顗K
▲ResNet結(jié)構(gòu)


而?ViT?則是從NLP領(lǐng)域紅的發(fā)紫的Transformer改編而來(lái)。編碼-解碼的結(jié)構(gòu),中間加一個(gè)多頭注意力機(jī)制。ViT主要的改變就是在輸入端,將圖像進(jìn)行了分塊和降維,從而將圖像變成一種類似于詞語(yǔ)編碼的表達(dá)方式,方便了后續(xù)處理。經(jīng)過(guò)了這一小步的改動(dòng),ViT在JFT-300M(ImageNet的300倍放大版,3億張圖像)上預(yù)訓(xùn)練的模型成功超越了ResNet152 [2]。


▲ViT結(jié)構(gòu)


超越ResNet雖然有難度,但也算不上大新聞。ViT能引起討論熱度的主要原因是它跨界了,不僅制霸NLP,如今還可能給CV翻篇。這樣的可能性自然是讓人坐不住了,如果存在一個(gè)方法能作為不同模態(tài)不同類型任務(wù)的通解,那AI大一統(tǒng)時(shí)代說(shuō)不定也就不遠(yuǎn)了。

那么,在這一美好愿望成真之前,更需要謹(jǐn)慎地檢驗(yàn):?Transformer 處理圖像時(shí)獲取的特征是否和之前主流的 CNN 有所區(qū)別?

  • 如果它們雖然處理數(shù)據(jù)方法有所差異,但決定輸出的特征是高度相似的,則意味著目前CV的模型已經(jīng)接近了人類判斷圖像時(shí)所基于的依據(jù)

  • 而如果模型中決定性的特征有所不同,則可以進(jìn)一步研究哪一種特征對(duì)信息的表征效果更好,或者兩類模型還能相互借鑒,從而獲得新一輪的性能提升。

比較方法——CKA


基于這樣的動(dòng)機(jī),Google用Centered Kernel Alignment (CKA)對(duì)ResNet和ViT的一些關(guān)鍵層進(jìn)行了檢驗(yàn)。首先了解一下CKA這種方法。CKA是Google在2019年提出的,用于衡量神經(jīng)網(wǎng)絡(luò)中層與層之間相似度的指標(biāo)?[3]。


假設(shè)想要檢測(cè)的兩層網(wǎng)絡(luò)分別有和個(gè)神經(jīng)元,取個(gè)樣本通過(guò)模型,則分別可以獲取和的表征矩陣。基于點(diǎn)積的相似性,首先可以獲得



此處下標(biāo)F代表Frobenius范數(shù)。根據(jù)上式,可以推導(dǎo)出



然后根據(jù)Hilbert-Schmidt Independence Criterion (HSIC)[3]的表達(dá)式,將中的列通過(guò)核函數(shù)對(duì)應(yīng)到上,使得,,可以得到HISC的經(jīng)驗(yàn)估計(jì)值



此處是中心矩陣,即。歸一化之后即為CKA指標(biāo)



這個(gè)指標(biāo)的優(yōu)勢(shì)在于,它能夠確定基于不同隨機(jī)初始化和不同寬度訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱藏層之間的對(duì)應(yīng)關(guān)系。因此,適合用于尋找ResNet和ViT中是否存在有對(duì)應(yīng)的網(wǎng)絡(luò)層。


關(guān)鍵結(jié)論


利用CKA,研究者發(fā)現(xiàn)ResNet和ViT在最接近輸入的網(wǎng)絡(luò)底層(lower layer)時(shí),表征的內(nèi)容持有較大的相似度;然而,由于兩個(gè)網(wǎng)絡(luò)處理表征的方式有很大區(qū)別,在層層傳遞之后,在接近輸出的網(wǎng)絡(luò)上層(higher layer)兩者的表征最終區(qū)別很大。

▲在網(wǎng)絡(luò)的底層,ViT和ResNet還有較大的相似度


兩個(gè)在底層表征上有相似之處的網(wǎng)絡(luò),居然長(zhǎng)著長(zhǎng)著發(fā)展到了兩個(gè)方向。因?yàn)镽esNet在處理輸入時(shí),需要經(jīng)過(guò)更多層才能獲得類似于ViT底層的表征,由此引發(fā)了一個(gè)合理的猜想:兩個(gè)網(wǎng)絡(luò)在整合全局信息的能力上存在差異。


為了驗(yàn)證這個(gè)想法,研究者先是對(duì)ViT的不同層中,注意力集中區(qū)域的距離進(jìn)行的計(jì)算,他們發(fā)現(xiàn),ViT無(wú)論是低層還是高層,都是局部和全局信息混雜的,相比之下,ResNet更為嚴(yán)格地遵守從局部特征提煉全局特征的處理過(guò)程。這是導(dǎo)致兩個(gè)網(wǎng)絡(luò)中表征的差異逐層增加的一大關(guān)鍵因素。


▲ResNet的有效感受域有一個(gè)明確地從局部“生長(zhǎng)”到全局的過(guò)程,而ViT只是在感知局部和全局信息的權(quán)重上發(fā)生調(diào)整


另一方面,這種差異的原因還可能來(lái)自ViT從底層到高層的相似度比ResNet高的這一現(xiàn)象。研究者認(rèn)為,是ViT中的跳躍連接結(jié)構(gòu) (skip connection)保護(hù)了底層到高層的表征傳遞,如下圖所示,如果撤掉特定塊區(qū)上的這種連接結(jié)構(gòu),對(duì)應(yīng)的表征信息就會(huì)立刻“失傳”。



由于上述在處理信息過(guò)程上的差異,最終,ViT的高層表征能夠更精細(xì)地保留局部空間信息。尤其是到了最后分類的關(guān)鍵時(shí)刻,ResNet還進(jìn)行了一次全局的平均池化,進(jìn)一步顯著地減少了高層中局部信息的精細(xì)度。


▲ViT的高層保留的局部空間信息更多


通過(guò)全方位的比較,包括將隱藏層揪出來(lái)細(xì)細(xì)觀察。最終,研究者下定結(jié)論:雖然它們?cè)谛阅苌喜幌嗌舷?,?strong>以ResNet為代表的CNN與ViT在處理信息的工藝原理上大相徑庭。

最后的話


其實(shí)文章的結(jié)論沒(méi)有特別出人意料的地方,畢竟ResNet和ViT的模型結(jié)構(gòu)擺在那里,前期對(duì)兩個(gè)網(wǎng)絡(luò)分別的原理分析論文也不少了,Google這次的工作其實(shí)是把大家直覺(jué)性經(jīng)驗(yàn)性的結(jié)論用可復(fù)現(xiàn)的實(shí)驗(yàn)規(guī)范地落在了紙上,并且努力夸夸ViT,好吸引更多研究者采用


引起白鹡鸰注意的是,在整個(gè)驗(yàn)證過(guò)程中,ViT模型是Google的,JFT-300M數(shù)據(jù)集是Google的,CKA度量指標(biāo)也是Google的,這一整套完整的測(cè)評(píng)走下來(lái),再一次讓人不得不感嘆Google的科研實(shí)力果然引領(lǐng)潮流。


不僅如此,論文的寫作也確實(shí)又一次展現(xiàn)了業(yè)內(nèi)標(biāo)桿的風(fēng)度,作為一篇原理解釋型的文章,它沒(méi)有將一大坨公式懟到讀者臉上,而是通過(guò)一系列的自問(wèn)自答,合理引導(dǎo)讀者思路歷程,清晰地說(shuō)明了實(shí)驗(yàn)的動(dòng)機(jī)和每個(gè)步驟的意義,并用圖像佐證觀點(diǎn)。


這簡(jiǎn)直是泥石流中的一股清流,讓近期飽受各類奇葩論文的白鹡鸰流下了感動(dòng)的淚水,并覺(jué)得很有寫作上的借鑒價(jià)值。


本篇文章就到這里啦!學(xué)姐會(huì)持續(xù)找到大佬們的好想法好文章,來(lái)給大家的!大家可以關(guān)注學(xué)姐!不要錯(cuò)過(guò)干貨好文!



2000字解讀這篇比較ResNet和ViT差異的論文的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
邻水| 沂源县| 清水县| 英吉沙县| 和林格尔县| 石阡县| 昌图县| 拜城县| 封开县| 曲水县| 大同县| 陈巴尔虎旗| 永安市| 浮山县| 龙川县| 秦皇岛市| 哈尔滨市| 卫辉市| 铜梁县| 兴文县| 东至县| 中宁县| 正宁县| 龙里县| 通城县| 汝城县| 洛宁县| 巴林右旗| 湛江市| 卓资县| 得荣县| 扎囊县| 建阳市| 中牟县| 永新县| 泊头市| 灵武市| 信宜市| 喜德县| 大名县| 安图县|