高效改進(jìn)CNN!11種即插即用的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化方法分享!【核心代碼下載】
卷積作為神經(jīng)網(wǎng)絡(luò)的核心計(jì)算之一,在CV領(lǐng)域有著諸多突破性進(jìn)展,因而近年來(lái)關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的研究不斷。由于卷積的計(jì)算十分復(fù)雜,而且神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)很大一部分時(shí)間都會(huì)耗費(fèi)在計(jì)算卷積上,因此優(yōu)化卷積計(jì)算就顯得尤為重要。
那么如何在不改變網(wǎng)絡(luò)主體結(jié)構(gòu)的情況下, 提高卷積神經(jīng)網(wǎng)絡(luò)的性能?
今天學(xué)姐就來(lái)和大家分享11種CNN經(jīng)典優(yōu)化方法,這些方法旨在提升CNN的各項(xiàng)能力,比如平移、旋轉(zhuǎn)、scale、多尺度特征提取、感受野、感知空間位置能力等。
每種方法的核心代碼以及論文原文學(xué)姐都已經(jīng)整理好了??????
掃碼添加小享,回復(fù)“CNN11”
免費(fèi)獲取全部論文+核心代碼合集

1、STN
論文:Spatial Transformer Networks
標(biāo)題:空間變換器網(wǎng)絡(luò)
方法介紹:卷積神經(jīng)網(wǎng)絡(luò)定義了一個(gè)非常強(qiáng)大的模型類(lèi),但仍受限于以計(jì)算和參數(shù)高效的方式對(duì)輸入數(shù)據(jù)空間不變性的缺乏。在這項(xiàng)工作中,作者引入了一個(gè)新的可學(xué)習(xí)模塊,即空間轉(zhuǎn)換器,它明確允許網(wǎng)絡(luò)內(nèi)數(shù)據(jù)的空間操作。這個(gè)可微分模塊可以插入現(xiàn)有的卷積架構(gòu)中,使神經(jīng)網(wǎng)絡(luò)能夠主動(dòng)根據(jù)特征映射本身在空間上轉(zhuǎn)換特征映射,而不需要任何額外的訓(xùn)練監(jiān)督或修改優(yōu)化過(guò)程。作者發(fā)現(xiàn)使用空間轉(zhuǎn)換器可以使模型學(xué)習(xí)對(duì)平移、縮放、旋轉(zhuǎn)和更泛化變形的不變性,在幾個(gè)基準(zhǔn)測(cè)試中取得了最先進(jìn)的性能,對(duì)一些變換類(lèi)型也取得了最好的結(jié)果。

2、ASPP(atrous spatial pyramid pooling)
論文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Conv
標(biāo)題:DeepLab:使用擴(kuò)張卷積的語(yǔ)義圖像分割
方法介紹:作者利用深度學(xué)習(xí)來(lái)解決語(yǔ)義圖像分割任務(wù),并做出了三個(gè)主要貢獻(xiàn),這些貢獻(xiàn)在實(shí)驗(yàn)中被證明具有實(shí)質(zhì)性的實(shí)用價(jià)值。首先,作者強(qiáng)調(diào)了上采樣濾波器的卷積,或“空洞卷積”,作為稠密預(yù)測(cè)任務(wù)中的一種強(qiáng)大工具??斩淳矸e允許我們?cè)谏疃染矸e神經(jīng)網(wǎng)絡(luò)中明確控制特征響應(yīng)的計(jì)算分辨率。它還允許我們有效擴(kuò)大濾波器的視野,以包含更大的上下文而不增加參數(shù)數(shù)量或計(jì)算量。其次,作者提出了空洞空間金字塔池化(ASPP)來(lái)穩(wěn)健地在多尺度上分割對(duì)象。ASPP用多個(gè)采樣率和有效視野的濾波器探測(cè)進(jìn)入的卷積特征層,從而在多個(gè)尺度上捕獲對(duì)象和圖像上下文。第三,作者通過(guò)結(jié)合DCNN和概率圖模型的方法來(lái)改進(jìn)對(duì)象邊界的定位。DCNN中普遍采用的最大池化和下采樣實(shí)現(xiàn)了不變性,但代價(jià)是 LOCALIZATION accuracy。作者通過(guò)將最終DCNN層的響應(yīng)與全連接條件隨機(jī)場(chǎng)(CRF)相結(jié)合來(lái)克服這個(gè)問(wèn)題,這在定性和定量上都被證明可以改進(jìn)LOCALIZATION性能。

3、Non-local
論文:Non-local Neural Networks
標(biāo)題:非局部神經(jīng)網(wǎng)絡(luò)
方法介紹:作者將非局部運(yùn)算作為捕捉長(zhǎng)程依賴(lài)關(guān)系的通用基本模塊族提出。受計(jì)算機(jī)視覺(jué)中經(jīng)典的非局部均值方法的啟發(fā),非局部運(yùn)算將一個(gè)位置的響應(yīng)計(jì)算為所有位置的特征的加權(quán)和。這個(gè)基本模塊可以插入到許多計(jì)算機(jī)視覺(jué)架構(gòu)中。在視頻分類(lèi)任務(wù)上,即使沒(méi)有任何裝飾,非局部模型也可以與目前的競(jìng)賽獲勝者在Kinetics和Charades數(shù)據(jù)集上匹敵或優(yōu)于其。在靜態(tài)圖像識(shí)別中,非局部模型改進(jìn)了在COCO任務(wù)集上的目標(biāo)檢測(cè)/分割和姿勢(shì)估計(jì)。

4、SE
論文:Squeeze-and-Excitation Networks
標(biāo)題:擠壓-激勵(lì)網(wǎng)絡(luò)
方法介紹:卷積神經(jīng)網(wǎng)絡(luò)(CNN)的核心構(gòu)建塊是卷積運(yùn)算符,它通過(guò)在每個(gè)層內(nèi)的局部感受野內(nèi)融合空間和通道方向的信息,使網(wǎng)絡(luò)能夠構(gòu)建信息量大的特征。大量的前期研究已經(jīng)調(diào)查了這種關(guān)系的空間組成部分,通過(guò)增強(qiáng)特征層次結(jié)構(gòu)中的空間編碼的質(zhì)量, seek to strengthen 了CNN的表征能力。在這項(xiàng)工作中,作者轉(zhuǎn)而關(guān)注通道關(guān)系,并提出了一個(gè)新穎的架構(gòu)單元,稱(chēng)之為“squeeze-and-excitation”(SE)塊,它通過(guò)明確建模通道之間的相互依賴(lài)關(guān)系,自適應(yīng)地重新校準(zhǔn)通道方向的特征響應(yīng)。作者展示了這些塊可以堆疊在一起形成SENet架構(gòu),可以非常有效地推廣到不同的數(shù)據(jù)集上。我們進(jìn)一步展示SE塊為現(xiàn)有的最先進(jìn)的CNN帶來(lái)明顯的性能改進(jìn),只帶來(lái)很小的額外計(jì)算成本。

5、CBAM
論文:CBAM: Convolutional Block Attention Module
標(biāo)題:CBAM:卷積塊注意力模塊
方法介紹:作者提出了卷積塊注意力模塊(CBAM),這是一個(gè)簡(jiǎn)單而有效的前饋卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊。給定一個(gè)中間特征圖,該模塊會(huì)順序地沿著兩個(gè)獨(dú)立的維度,通道和空間,推斷注意力圖,然后將注意力圖與輸入特征圖相乘以實(shí)現(xiàn)自適應(yīng)的特征提煉。因?yàn)镃BAM是一個(gè)輕量級(jí)和通用的模塊,它可以無(wú)縫地集成到任何CNN架構(gòu)中,帶來(lái)可忽略的開(kāi)銷(xiāo),并且可以與基礎(chǔ)CNN端到端訓(xùn)練。作者通過(guò)在ImageNet-1K、MS-COCO目標(biāo)檢測(cè)和VOC-2007目標(biāo)檢測(cè)數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)來(lái)驗(yàn)證CBAM。實(shí)驗(yàn)顯示,在各種模型上的分類(lèi)和檢測(cè)性能都有持續(xù)的改進(jìn),證明了CBAM的廣泛適用性。

6、DCN v1&v2(Deformable Convolutional)
論文V1:Deformable Convolutional Networks
標(biāo)題:可變形卷積網(wǎng)絡(luò)
方法介紹:卷積神經(jīng)網(wǎng)絡(luò)(CNN)固有地受其構(gòu)建模塊中的固定幾何結(jié)構(gòu)所限,難以對(duì)幾何變換進(jìn)行建模。在本工作中,作者引入了兩個(gè)新的模塊來(lái)增強(qiáng)CNN的變換建模能力,即可變形卷積和可變形RoI匯聚。兩者的思想都是在模塊中對(duì)空間采樣位置增加額外的偏移,并從目標(biāo)任務(wù)中學(xué)習(xí)這些偏移,無(wú)需額外的監(jiān)督。這些新模塊可以很容易地在現(xiàn)有的CNN中替換其普通對(duì)等模塊,并可以通過(guò)標(biāo)準(zhǔn)反向傳播進(jìn)行端到端訓(xùn)練,構(gòu)成可變形卷積網(wǎng)絡(luò)。大量實(shí)驗(yàn)驗(yàn)證了該方法的有效性,在深度CNN中學(xué)習(xí)稠密空間變換對(duì)復(fù)雜的視覺(jué)任務(wù)如目標(biāo)檢測(cè)和語(yǔ)義分割是有效的。
論文V2:Deformable ConvNets v2: More Deformable, Better Results
標(biāo)題:可變形卷積網(wǎng)絡(luò)v2: 更可變形,效果更佳
方法介紹:可變形卷積網(wǎng)絡(luò)的卓越性能來(lái)源于其適應(yīng)對(duì)象幾何變化的能力,雖然其神經(jīng)特征的空間支持比常規(guī)卷積網(wǎng)絡(luò)更貼近對(duì)象結(jié)構(gòu),但此支持可能仍然擴(kuò)展到興趣區(qū)域之外,導(dǎo)致特征被不相關(guān)的圖像內(nèi)容影響。為解決此問(wèn)題,作者提出了可變形卷積網(wǎng)絡(luò)的重構(gòu)方案,通過(guò)增加建模能力和更強(qiáng)的訓(xùn)練來(lái)提高其關(guān)注相關(guān)圖像區(qū)域的能力。通過(guò)在網(wǎng)絡(luò)中更全面地集成可變形卷積和引入調(diào)制機(jī)制擴(kuò)大變形建模范圍,增強(qiáng)了建模能力。為了有效利用這種豐富的建模能力,作者通過(guò)提出的特征模仿方案指導(dǎo)網(wǎng)絡(luò)訓(xùn)練,幫助網(wǎng)絡(luò)學(xué)習(xí)反映對(duì)象關(guān)注點(diǎn)和RCNN特征分類(lèi)能力的特征。

掃碼添加小享,回復(fù)“CNN11”
免費(fèi)獲取全部論文+核心代碼合集

7、CoordConv
論文:An intriguing failing of convolutional neural networks and the CoordConv solution
標(biāo)題:卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)令人 fascination 的失敗及CoordConv解決方案
方法介紹:對(duì)于任何涉及像素或空間表示的問(wèn)題,普遍的直覺(jué)都認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)可能是合適的。在這篇論文中,作者通過(guò)一個(gè)看似微不足道的坐標(biāo)變換問(wèn)題提供了對(duì)這一直覺(jué)的令人震驚的反例,這個(gè)問(wèn)題僅僅要求學(xué)習(xí)在(x,y)笛卡爾空間坐標(biāo)和onehot像素空間坐標(biāo)之間的映射。雖然卷積網(wǎng)絡(luò)看起來(lái)適合這個(gè)任務(wù),但我們表明它們會(huì)慘敗。首先作者在一個(gè)玩具問(wèn)題上展示并仔細(xì)分析了這個(gè)失敗,這時(shí)一個(gè)簡(jiǎn)單的修復(fù)方案變得顯而易見(jiàn)。作者稱(chēng)這個(gè)解決方案為CoordConv,其工作原理是通過(guò)使用額外的坐標(biāo)通道為卷積提供其自己的輸入坐標(biāo)。在保持普通卷積的計(jì)算和參數(shù)效率的同時(shí),CoordConv允許網(wǎng)絡(luò)學(xué)習(xí)完全的平移不變性或端任務(wù)所需的不同程度的平移依賴(lài)性。
CoordConv以完美的泛化能力和比卷積快150倍、參數(shù)少10-100倍來(lái)解決坐標(biāo)變換問(wèn)題。這種明顯的對(duì)比引出了一個(gè)問(wèn)題:這種卷積的無(wú)能在多大程度上已經(jīng)隱秘地潛伏在其他任務(wù)內(nèi)部,微妙地從內(nèi)部削弱了性能?對(duì)這個(gè)問(wèn)題的完整答案還需要進(jìn)一步的研究,但作者展示了使用CoordConv代替卷積可以改進(jìn)模型在各種任務(wù)上的初步證據(jù)。在GAN中使用CoordConv產(chǎn)生的模式坍塌更少,因?yàn)樵诟呒?jí)空間潛在變量和像素之間的變換更容易學(xué)習(xí)。

8、Ghost(Ghost module)
論文:GhostNet: More Features from Cheap Operations
標(biāo)題:GhostNet: 通過(guò)廉價(jià)操作獲得更多特征
方法介紹:在嵌入式設(shè)備上部署卷積神經(jīng)網(wǎng)絡(luò)(CNN)是困難的,因?yàn)閮?nèi)存和計(jì)算資源有限。特征圖中的冗余是那些成功的CNN的一個(gè)重要特點(diǎn),但在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中很少被研究。本文提出了一種新的Ghost模塊來(lái)通過(guò)廉價(jià)的操作生成更多特征圖?;谝唤M內(nèi)在特征圖,作者應(yīng)用一系列廉價(jià)的線性變換來(lái)生成許多ghost特征圖,這些特征圖可以充分揭示內(nèi)在特征隱含的信息。所提出的Ghost模塊可以作為即插即用的組件來(lái)升級(jí)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)。

9、BlurPool
論文:Making Convolutional Networks Shift-Invariant Again
標(biāo)題:使卷積網(wǎng)絡(luò)再次具有平移不變性
方法介紹:現(xiàn)代卷積網(wǎng)絡(luò)不具有移位不變性,因?yàn)樾〉妮斎胛灰苹蜣D(zhuǎn)換可能導(dǎo)致輸出的劇烈變化。常用的下采樣方法,如最大池化、步進(jìn)卷積和平均池化,忽略了采樣定理。眾所周知的信號(hào)處理方法是在下采樣之前通過(guò)低通濾波進(jìn)行抗混疊。然而,將這個(gè)模塊簡(jiǎn)單地插入深度網(wǎng)絡(luò)會(huì)降低性能。因此,它今天很少被使用。作者展示了當(dāng)以正確的方式集成時(shí),它與現(xiàn)有的架構(gòu)組件(如最大池化和步進(jìn)卷積)兼容。作者在ImageNet分類(lèi)中觀察到提高的準(zhǔn)確率,跨幾種常用的架構(gòu),如ResNet、DenseNet和MobileNet,這表明有效的正則化。此外,作者觀察到更好的泛化能力,在穩(wěn)定性和魯棒性方面對(duì)輸入損壞具有魯棒性。

10、RFB(Receptive Field Block)
論文:Receptive Field Block Net for Accurate and Fast Object Detection
標(biāo)題:對(duì)象檢測(cè)的精確快速感受野塊網(wǎng)
方法介紹:當(dāng)前表現(xiàn)頂尖的目標(biāo)檢測(cè)器依賴(lài)于深度CNN backbone,如ResNet-101和Inception,它們從強(qiáng)大的特征表達(dá)中獲益,但也承受高計(jì)算量的代價(jià)。相反,一些基于輕量模型的檢測(cè)器可以實(shí)現(xiàn)實(shí)時(shí)處理,但其準(zhǔn)確率通常受到批評(píng)。本文探索一種替代方法,通過(guò)使用手工設(shè)計(jì)的機(jī)制增強(qiáng)輕量級(jí)特征來(lái)構(gòu)建快速且準(zhǔn)確的檢測(cè)器。受人類(lèi)視覺(jué)系統(tǒng)中感受野(RF)結(jié)構(gòu)的啟發(fā),作者提出了一種新的RF塊(RFB)模塊,它考慮RF大小與離心率之間的關(guān)系,以增強(qiáng)特征的可區(qū)分性和穩(wěn)定性。作者進(jìn)一步將RFB組裝到SSD的頂部,構(gòu)建RFB Net檢測(cè)器。

11、ASFF(Adaptively Spatial Feature Fusion)
論文:Adaptively Spatial Feature Fusion Learning Spatial Fusion for Single-Shot Object Detection
標(biāo)題:適應(yīng)性空間特征融合學(xué)習(xí)用于單次目標(biāo)檢測(cè)的空間融合
方法介紹:針對(duì)單次檢測(cè)中的尺度變化問(wèn)題,金字塔特征表示是常見(jiàn)的解決方案。但是,基于特征金字塔的單次檢測(cè)器存在不同尺度特征不一致的問(wèn)題。本文提出了一種新穎的數(shù)據(jù)驅(qū)動(dòng)的金字塔特征融合策略,稱(chēng)為自適應(yīng)空間特征融合(ASFF)。它可以學(xué)習(xí)空間過(guò)濾沖突信息的方式來(lái)抑制不一致性,從而提高特征的尺度不變性,并幾乎不增加推理開(kāi)銷(xiāo)。結(jié)合ASFF策略和YOLOv3堅(jiān)實(shí)的基線,作者在MS COCO數(shù)據(jù)集上達(dá)到了最佳的速度和準(zhǔn)確率權(quán)衡,在60 FPS下達(dá)到38.1% AP,45 FPS下達(dá)到42.4% AP,29 FPS下達(dá)到43.9% AP。

掃碼添加小享,回復(fù)“CNN11”
免費(fèi)獲取全部論文+核心代碼合集
