散文網(wǎng) » 科技 »學(xué)習(xí) » 超越MobileNetV3，谷歌提出MobileDets：移動(dòng)端目標(biāo)檢測(cè)新標(biāo)桿

超越MobileNetV3，谷歌提出MobileDets：移動(dòng)端目標(biāo)檢測(cè)新標(biāo)桿

2020-06-12 14:11 作者:極市平臺(tái) 0人讀過 | 我要投稿

極市導(dǎo)讀：在移動(dòng)端上的目標(biāo)檢測(cè)架構(gòu)，目前比較流行的三大派系分別為：谷歌出品的MobileNet系列（v1-v3）、曠視科技產(chǎn)品的ShuffleNet系列（v1-v2）、Facebook出品的FBNet（v1-v3）系列。最近移動(dòng)端的目標(biāo)檢測(cè)通過結(jié)合神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索，又新出了三篇移動(dòng)端目標(biāo)檢測(cè)SOTA模型：一篇出自谷歌大牛Quoc V. Le的MixNet；另一篇出自Facebook 出品的FBNet 的升級(jí)版本 FBNetV2，就在6月3日，F(xiàn)acebook又推出了FBNetV3。

而今天，我們介紹的是來自谷歌和威斯康辛麥迪遜分校合作的一篇重量級(jí)論文—MobileDets，該論文可以說有著史上最強(qiáng)豪華作者陣營(yíng)，包括了DARTS的作者-HanXiao Liu、Tan Mingxing(MixNet、MobileNetV3、MnasNet、EfficientNet、EfficientDet都出自他之手)。不得不說，谷歌真的是大牛云集??！該論文一出，可以說是目前移動(dòng)端目標(biāo)檢測(cè)結(jié)合NAS的另一新標(biāo)桿。

MobileDets

論文地址：
https://arxiv.org/abs/2004.14525

論文摘要:

Inverted bottleneck layers, IBN已成為終端設(shè)備SOTA目標(biāo)檢測(cè)方法的主要模塊。而在這篇文章里，作者通過重新分析研究終端芯片加速下的常規(guī)卷積而對(duì)“IBN主導(dǎo)的網(wǎng)絡(luò)架構(gòu)是否最優(yōu)”提出了質(zhì)疑。作者通過將常規(guī)卷積納入搜索空間取得了延遲-精度均衡下的性能提升，得到了一類目標(biāo)檢測(cè)模型：MobileDets。在COCO目標(biāo)檢測(cè)任務(wù)上，基于同等終端CPU推理延遲，MobileDets以1.7mAP性能優(yōu)于MobileNetV3+SSDLite，以1.9mAP性能優(yōu)于MobileNetV2+SSDLite；在EdgeTPU平臺(tái)上，以3.7mAP性能優(yōu)于MobileNetV2+SSDLite且推理更快;在DSP平臺(tái)上，以3.4mAP性能優(yōu)于MobileNetV2+SSDLite且推理更快。與此同時(shí)，在不采用FPN的情況下，在終端CPU平臺(tái)，MobileDets取得了媲美MnasFPN的性能；在EdgeTPU與DSP平臺(tái)具有更優(yōu)的mAP指標(biāo)，同時(shí)推理速度快2倍。

Motivation與創(chuàng)新點(diǎn)

本文的Motivation 是關(guān)于?depthwise conv 在移動(dòng)端使用的必要性。由于NAS已成功了搜索到大量具有高性能且適合于特定硬件平臺(tái)的的模型，比如MobileNetV3、MixNet、EfficientNet、FALSR等等，其中分類模型往往以Inverted bottleneck作為核心關(guān)鍵模塊。又因?yàn)閕nverted bottlenecks (IBN) 廣泛采用了 depthwise conv + 1x1 pointwise conv 的結(jié)構(gòu)，所以IBN可以減少參數(shù)量與FLOPS，同時(shí)深度分離卷積極為適合于終端CPU。

盡管如此，深度分離卷積對(duì)于當(dāng)前終端芯片的適配性往往并非最優(yōu)，比如在EdgeTPU與高通DSP上,具有特定形狀的Tensor與核維度的常規(guī)卷積往往具有比深度分離卷積更快的速度(甚至高達(dá)3倍)，盡管具有更多的FLOPS(理論計(jì)算復(fù)雜度與實(shí)際推理速度不成正比)。

因此作者提出一個(gè)擴(kuò)大的搜索空間：包含IBN與受啟發(fā)于Tensor Decomposition的全卷積序列，稱之為Tensor Decomposition Based Search Space(TBD)，它可以跨不同終端芯片應(yīng)用。作者以CPU、EdgeTPU、DSP硬件平臺(tái)為藍(lán)本，在目標(biāo)檢測(cè)任務(wù)上采用NAS方式進(jìn)行網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。僅僅采用一種簡(jiǎn)單的SSDLite進(jìn)行目標(biāo)檢測(cè)架構(gòu)組成，所設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)稱之為MobileDets，在同等推理延遲約束下，它以1.9mAP@CPU、3.7mAP@EdgeTPU、3.4mAP@DSP優(yōu)于MobileNetV2，同時(shí)它以1.7mAP@CPU優(yōu)于MobileNetV3。與此同時(shí)，在未采用NAS-FPN的條件下，取得了媲美此前終端SOTA方法MnasFPN的性能且具有更快的推理速度（在EdgeTPU、DSP上快2倍）。

本文的貢獻(xiàn)主要包含以下幾點(diǎn)：

廣泛采用IBN-only的搜索空間對(duì)于EdgeTPU、DSP等終端加速芯片平臺(tái)是次優(yōu)的；
作者提出一種新穎的搜索空間--TBD，它通過研究了常規(guī)卷積的作用可以適用于不同的終端加速芯片；
通過學(xué)習(xí)利用網(wǎng)絡(luò)中選定位置的常規(guī)卷積，驗(yàn)證了采用NAS工具可以為不同的加速硬件平臺(tái)挖掘具有高性能的網(wǎng)絡(luò)架構(gòu)；
提出來一類可以在多個(gè)終端加速芯片平臺(tái)上達(dá)到SOTA性能的方法：MobileDets。

Revisiting Full Convs in Mobile Search Spaces

在這里，我們首先對(duì)IBN模塊進(jìn)行了介紹，并且解釋了為什么IBN層可能不足以適用于除終端CPU以外的其它終端加速平臺(tái)。盡管常規(guī)卷積可能會(huì)具有更多的FLOPS，但有時(shí)候，在某些終端加速平臺(tái)中（比如 EdgeTPU 和 DSPs），常規(guī)卷積會(huì)比深度分離卷積快3x。因此，我們基于常規(guī)卷積提出了兩種新的blocks，以豐富我們的搜索空間。最后，我們討論了這些構(gòu)件的布局與Tucker / CP分解的線性結(jié)構(gòu)之間的關(guān)系。

Inverted bottlenecks (IBN）。如下圖 Fig.2 所示，輸入的 shape 為 (N, C1, H1, W1)，先過一個(gè) 1 * 1 pointwise conv，和 input expansion ratio s，變成（N，s * C1, H1, W1）。隨后過一個(gè) K * K 的 depthwise conv 變成 (N, s * C1, H2, W2)；最后過 1 * 1 的 pointwise conv 變成 (N, C2, H2, W2)。IBN 里面用到了兩次 pointwise conv 和一次 depthwise conv。在上述的參數(shù)中，C1, s, K, C2 都是可以搜的參數(shù)。

IBN的優(yōu)缺點(diǎn)：

IBN模塊旨在降低參數(shù)量與減少FLOPS，雖然利用深度分離卷積可以實(shí)現(xiàn)在終端CPU平臺(tái)的推理加速。然而，在其他終端加速器（如EdgeTPU、DSP）上，盡管具有更多的FLOPS，常規(guī)卷積往往比深度分離卷積更快（3x）。這就意味著，對(duì)于現(xiàn)代移動(dòng)加速器而言，廣泛使用的IBN-only搜索空間可能不是最佳選擇。鑒于此，作者提出另外兩種用于通道擴(kuò)展和壓縮的靈活層。

第一種：Fused Inverted Bottleneck Layers (Expansion)

由于深度分離卷積是IBN的重要組成成分，其背后核心思想：采用深度卷積+1x1point卷積替換expensive的全卷積（即常規(guī)卷積）。但是這種expensive的定義大多源自于FLOPS或者參數(shù)量，而非實(shí)際硬件平臺(tái)的推理速度。因此在這里，我們直接通過一個(gè) K * K 的普通的卷積在 spatial 維度上計(jì)算，加上一個(gè) 1* 1 的 pointwise conv 改變 channel。這樣就可以直接不要 depthwise conv了。具體形式如下圖所示：

第二種：Tucker layer（Generalized Bottleneck Layers）

它是比 inverted bottlenecks 更泛化的形式，如下圖 Fig.3，Bottleneck首次是由ResNet引入并用于降低高維特征的計(jì)算量，它采用兩個(gè)1x1卷積進(jìn)行通道降維與升維。Bottleneck有助于在更細(xì)粒度層面控制通道大?。ㄍǖ来笮⒅苯佑绊懲评硌舆t），在此基礎(chǔ)上，作者引入兩個(gè)壓縮比例系數(shù)對(duì)其進(jìn)行了擴(kuò)展，整體架構(gòu)見下圖。作者將這種改進(jìn)后的模塊稱之為Tucker Convolution。

由于 depthwise conv 的輸入和輸出 channel 要求是一樣的，作者這里把它替換成了 K * K 的普通 conv，輸出 channel 變成了 e * S1。這樣就多了一個(gè)可以搜的參數(shù) e 。

Search Space?Definition

IBN：僅包含IBN的最小搜索空間。kernel size在（3,5）中選擇， expansion factors在（4,8）中選擇。
IBN + Fused：擴(kuò)大的搜索空間，不僅包含上述所有IBN變體，而且還包含融合卷積層以及可搜索的kernel size（3,5）和expansion factors（4,8）。
IBN + Fused + Tucker：進(jìn)一步擴(kuò)大的搜索空間，其中另外包含Tucker（壓縮）層。每個(gè)Tucker層都允許在（0.25,0.75）之內(nèi)搜索輸入和輸出壓縮比。

對(duì)于上述所有搜索空間變體，我們還將在（0.5,0.625,0.75,1.0,1.25,1.5,2.0）乘以基本通道大?。ㄍǔ?的倍數(shù)，這樣對(duì)硬件設(shè)備比較好）之間搜索每一層的輸出通道大小。同一block中的層共享相同的基本通道大小，盡管它們最終可能會(huì)得到不同的通道數(shù)。所有block的基本通道大小為32-16-32-48-96-96-160-192-192。乘法器和基本通道的大小的設(shè)計(jì)類似參考文獻(xiàn)中的幾種代表性架構(gòu)，例如MobileNetV2和MnasNet。

Search Space Ablation

針對(duì)三種不同的硬件平臺(tái)（CPU，EdgeTPU和DSP），我們利用上述三種不同的搜索空間進(jìn)行架構(gòu)搜索，并通過從頭開始訓(xùn)練得到的模型來評(píng)估搜索的模型。目的是在與NAS算法配對(duì)時(shí)驗(yàn)證每個(gè)搜索空間的有效性。使用完美的架構(gòu)搜索算法，可以確保最大的搜索空間勝過較小的搜索空間，因?yàn)樗撕笳叩慕鉀Q方案。但是，實(shí)際上并不一定是這種情況，因?yàn)樵撍惴赡軙?huì)獲得次優(yōu)的解決方案，尤其是在搜索空間較大的情況下。?因此，如果搜索空間使NAS方法能夠識(shí)別足夠好的架構(gòu)，即使它們不是最佳的，它也被認(rèn)為是有價(jià)值的。

最后在三個(gè)搜索空間上搜出來的結(jié)構(gòu)如下圖 Fig. 8。結(jié)果也驗(yàn)證了之前的 motivation，包含普通的卷積的 Tucker layer 和 Fused convolution layer 在 EdgeTPU 和 DSP 上被廣泛使用。

實(shí)驗(yàn)結(jié)果展示

作者在COCO數(shù)據(jù)集上將之前最先進(jìn)的移動(dòng)檢測(cè)模型和文章中通過搜索得到的網(wǎng)絡(luò)架構(gòu)在終端平臺(tái)進(jìn)行性能測(cè)試對(duì)比，見下表。

從上表中可以看到：

1. 終端CPU：

在同等推理延遲下，MobileDet以1.7mAP指標(biāo)優(yōu)于MobileNetV3+SSDLite；
在不采用NAS-FPN中的head情況下，取得了媲美MnasFPN的性能。因此哦我們可以得出：IBN確實(shí)是可以適用于終端CPU平臺(tái)的模塊。

2. EdgeTPU：

在同等推理延遲下，MobileDet以3.7mAP指標(biāo)優(yōu)于MobileNetV2+SSDLite。這種性能增益源自：域相關(guān)NAS、全卷積序列模塊（Fused、Tucker）。

3. DSP：

MobileDet取得28.5mAP@12.ms的性能，以3.2mAP指標(biāo)優(yōu)于MobileNetV2+SSDLite；
以2.4mAP指標(biāo)優(yōu)于MnasFPN，同時(shí)具有更快的推理速度。

最后，作者還進(jìn)行了跨硬件平臺(tái)網(wǎng)絡(luò)架構(gòu)可移植性的性能測(cè)試，?圖9比較了使用不同硬件平臺(tái)的MobileDets（通過針對(duì)不同的加速器獲得）。我們的結(jié)果表明，在EdgeTPU和DSP上搜索的體系結(jié)構(gòu)可以相互移植。實(shí)際上，這兩種搜索架構(gòu)都充分利用了常規(guī)卷積。另一方面，專用于EdgeTPU或DSP的體系結(jié)構(gòu)（往往是FLOP密集型）無法很好地傳輸?shù)浇K端CPU。

Conclusion

本文，作者對(duì)以“IBN主導(dǎo)的網(wǎng)絡(luò)架構(gòu)是否最優(yōu)”提出了質(zhì)疑，以目標(biāo)檢測(cè)任務(wù)作為基礎(chǔ)，重新分析研究了不同終端芯片加速下的常規(guī)卷積的有效性。這里主要列舉了三種終端加速平臺(tái)（CPU、EdgeTPU、DSP）。通過一系列的實(shí)驗(yàn)結(jié)果表明，在不同終端設(shè)備加速平臺(tái)，在網(wǎng)絡(luò)中合適的位置嵌入常規(guī)卷積可以取得精度-推理方面的性能提升。由此產(chǎn)生得到的新架構(gòu)MobileDets可以在不同硬件平臺(tái)下取得比以往更優(yōu)異的檢測(cè)結(jié)果。

◎作者檔案
Murufeng，一個(gè)緊跟前沿、樂于分享最新技術(shù)干貨的DLer！個(gè)人公眾號(hào)：深度學(xué)習(xí)技術(shù)前沿歡迎大家聯(lián)系極市小編（微信ID:fengcall19）加入極市原創(chuàng)作者行列

標(biāo)簽：計(jì)算機(jī)視覺深度學(xué)習(xí)目標(biāo)檢測(cè)