最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

超越MobileNetV3,谷歌提出MobileDets:移動(dòng)端目標(biāo)檢測(cè)新標(biāo)桿

2020-06-12 14:11 作者:極市平臺(tái)  | 我要投稿

極市導(dǎo)讀:在移動(dòng)端上的目標(biāo)檢測(cè)架構(gòu),目前比較流行的三大派系分別為:谷歌出品的MobileNet系列(v1-v3)、曠視科技產(chǎn)品的ShuffleNet系列(v1-v2)、Facebook出品的FBNet(v1-v3)系列。最近移動(dòng)端的目標(biāo)檢測(cè)通過結(jié)合神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,又新出了三篇移動(dòng)端目標(biāo)檢測(cè)SOTA模型:一篇出自谷歌大牛Quoc V. Le的MixNet;另一篇出自Facebook 出品的FBNet 的升級(jí)版本 FBNetV2,就在6月3日,F(xiàn)acebook又推出了FBNetV3

而今天,我們介紹的是來自谷歌和威斯康辛麥迪遜分校合作的一篇重量級(jí)論文—MobileDets,該論文可以說有著史上最強(qiáng)豪華作者陣營(yíng),包括了DARTS的作者-HanXiao Liu、Tan Mingxing(MixNet、MobileNetV3、MnasNet、EfficientNet、EfficientDet都出自他之手)。不得不說,谷歌真的是大牛云集??!該論文一出,可以說是目前移動(dòng)端目標(biāo)檢測(cè)結(jié)合NAS的另一新標(biāo)桿。

MobileDets

論文地址:
https://arxiv.org/abs/2004.14525

論文摘要:

Inverted bottleneck layers, IBN已成為終端設(shè)備SOTA目標(biāo)檢測(cè)方法的主要模塊。而在這篇文章里,作者通過重新分析研究終端芯片加速下的常規(guī)卷積而對(duì)“IBN主導(dǎo)的網(wǎng)絡(luò)架構(gòu)是否最優(yōu)”提出了質(zhì)疑。作者通過將常規(guī)卷積納入搜索空間取得了延遲-精度均衡下的性能提升,得到了一類目標(biāo)檢測(cè)模型:MobileDets。在COCO目標(biāo)檢測(cè)任務(wù)上,基于同等終端CPU推理延遲,MobileDets以1.7mAP性能優(yōu)于MobileNetV3+SSDLite,以1.9mAP性能優(yōu)于MobileNetV2+SSDLite;在EdgeTPU平臺(tái)上,以3.7mAP性能優(yōu)于MobileNetV2+SSDLite且推理更快;在DSP平臺(tái)上,以3.4mAP性能優(yōu)于MobileNetV2+SSDLite且推理更快。與此同時(shí),在不采用FPN的情況下,在終端CPU平臺(tái),MobileDets取得了媲美MnasFPN的性能;在EdgeTPU與DSP平臺(tái)具有更優(yōu)的mAP指標(biāo),同時(shí)推理速度快2倍。

Motivation與創(chuàng)新點(diǎn)

本文的Motivation 是關(guān)于?depthwise conv 在移動(dòng)端使用的必要性。由于NAS已成功了搜索到大量具有高性能且適合于特定硬件平臺(tái)的的模型,比如MobileNetV3、MixNet、EfficientNet、FALSR等等,其中分類模型往往以Inverted bottleneck作為核心關(guān)鍵模塊。又因?yàn)閕nverted bottlenecks (IBN) 廣泛采用了 depthwise conv + 1x1 pointwise conv 的結(jié)構(gòu),所以IBN可以減少參數(shù)量與FLOPS,同時(shí)深度分離卷積極為適合于終端CPU。

盡管如此,深度分離卷積對(duì)于當(dāng)前終端芯片的適配性往往并非最優(yōu),比如在EdgeTPU與高通DSP上,具有特定形狀的Tensor與核維度的常規(guī)卷積往往具有比深度分離卷積更快的速度(甚至高達(dá)3倍),盡管具有更多的FLOPS(理論計(jì)算復(fù)雜度與實(shí)際推理速度不成正比)。

因此作者提出一個(gè)擴(kuò)大的搜索空間:包含IBN與受啟發(fā)于Tensor Decomposition的全卷積序列,稱之為Tensor Decomposition Based Search Space(TBD),它可以跨不同終端芯片應(yīng)用。作者以CPU、EdgeTPU、DSP硬件平臺(tái)為藍(lán)本,在目標(biāo)檢測(cè)任務(wù)上采用NAS方式進(jìn)行網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。僅僅采用一種簡(jiǎn)單的SSDLite進(jìn)行目標(biāo)檢測(cè)架構(gòu)組成,所設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)稱之為MobileDets,在同等推理延遲約束下,它以1.9mAP@CPU、3.7mAP@EdgeTPU、3.4mAP@DSP優(yōu)于MobileNetV2,同時(shí)它以1.7mAP@CPU優(yōu)于MobileNetV3。與此同時(shí),在未采用NAS-FPN的條件下,取得了媲美此前終端SOTA方法MnasFPN的性能且具有更快的推理速度(在EdgeTPU、DSP上快2倍)。

本文的貢獻(xiàn)主要包含以下幾點(diǎn):

  • 廣泛采用IBN-only的搜索空間對(duì)于EdgeTPU、DSP等終端加速芯片平臺(tái)是次優(yōu)的;

  • 作者提出一種新穎的搜索空間--TBD,它通過研究了常規(guī)卷積的作用可以適用于不同的終端加速芯片;

  • 通過學(xué)習(xí)利用網(wǎng)絡(luò)中選定位置的常規(guī)卷積,驗(yàn)證了采用NAS工具可以為不同的加速硬件平臺(tái)挖掘具有高性能的網(wǎng)絡(luò)架構(gòu);

  • 提出來一類可以在多個(gè)終端加速芯片平臺(tái)上達(dá)到SOTA性能的方法:MobileDets。

Revisiting Full Convs in Mobile Search Spaces

在這里,我們首先對(duì)IBN模塊進(jìn)行了介紹,并且解釋了為什么IBN層可能不足以適用于除終端CPU以外的其它終端加速平臺(tái)。盡管常規(guī)卷積可能會(huì)具有更多的FLOPS,但有時(shí)候,在某些終端加速平臺(tái)中(比如 EdgeTPU 和 DSPs),常規(guī)卷積會(huì)比深度分離卷積快3x。因此,我們基于常規(guī)卷積提出了兩種新的blocks,以豐富我們的搜索空間。最后,我們討論了這些構(gòu)件的布局與Tucker / CP分解的線性結(jié)構(gòu)之間的關(guān)系。

Inverted bottlenecks (IBN)。如下圖 Fig.2 所示,輸入的 shape 為 (N, C1, H1, W1),先過一個(gè) 1 * 1 pointwise conv,和 input expansion ratio s, 變成 (N,s * C1, H1, W1)。隨后過一個(gè) K * K 的 depthwise conv 變成 (N, s * C1, H2, W2);最后過 1 * 1 的 pointwise conv 變成 (N, C2, H2, W2)。IBN 里面用到了兩次 pointwise conv 和一次 depthwise conv。在上述的參數(shù)中,C1, s, K, C2 都是可以搜的參數(shù)。

IBN的優(yōu)缺點(diǎn):

IBN模塊旨在降低參數(shù)量與減少FLOPS,雖然利用深度分離卷積可以實(shí)現(xiàn)在終端CPU平臺(tái)的推理加速。然而,在其他終端加速器(如EdgeTPU、DSP)上,盡管具有更多的FLOPS,常規(guī)卷積往往比深度分離卷積更快(3x)。這就意味著,對(duì)于現(xiàn)代移動(dòng)加速器而言,廣泛使用的IBN-only搜索空間可能不是最佳選擇。鑒于此,作者提出另外兩種用于通道擴(kuò)展和壓縮的靈活層

第一種:Fused Inverted Bottleneck Layers (Expansion)

由于深度分離卷積是IBN的重要組成成分,其背后核心思想:采用深度卷積+1x1point卷積替換expensive的全卷積(即常規(guī)卷積)。但是這種expensive的定義大多源自于FLOPS或者參數(shù)量,而非實(shí)際硬件平臺(tái)的推理速度。因此在這里,我們直接通過一個(gè) K * K 的普通的卷積在 spatial 維度上計(jì)算,加上一個(gè) 1* 1 的 pointwise conv 改變 channel。這樣就可以直接不要 depthwise conv了。具體形式如下圖所示:

第二種:Tucker layer(Generalized Bottleneck Layers)

它是比 inverted bottlenecks 更泛化的形式,如下圖 Fig.3,Bottleneck首次是由ResNet引入并用于降低高維特征的計(jì)算量,它采用兩個(gè)1x1卷積進(jìn)行通道降維與升維。Bottleneck有助于在更細(xì)粒度層面控制通道大?。ㄍǖ来笮⒅苯佑绊懲评硌舆t),在此基礎(chǔ)上,作者引入兩個(gè)壓縮比例系數(shù)對(duì)其進(jìn)行了擴(kuò)展,整體架構(gòu)見下圖。作者將這種改進(jìn)后的模塊稱之為Tucker Convolution。

由于 depthwise conv 的輸入和輸出 channel 要求是一樣的,作者這里把它替換成了 K * K 的普通 conv, 輸出 channel 變成了 e * S1。這樣就多了一個(gè)可以搜的參數(shù) e 。


Search Space?Definition

  • IBN:僅包含IBN的最小搜索空間。kernel size在(3,5)中選擇, expansion factors在(4,8)中選擇。

  • IBN + Fused:擴(kuò)大的搜索空間,不僅包含上述所有IBN變體,而且還包含融合卷積層以及可搜索的kernel size(3,5)和expansion factors(4,8)。

  • IBN + Fused + Tucker:進(jìn)一步擴(kuò)大的搜索空間,其中另外包含Tucker(壓縮)層。每個(gè)Tucker層都允許在(0.25,0.75)之內(nèi)搜索輸入和輸出壓縮比。

對(duì)于上述所有搜索空間變體,我們還將在(0.5,0.625,0.75,1.0,1.25,1.5,2.0)乘以基本通道大?。ㄍǔ?的倍數(shù),這樣對(duì)硬件設(shè)備比較好)之間搜索每一層的輸出通道大小。同一block中的層共享相同的基本通道大小,盡管它們最終可能會(huì)得到不同的通道數(shù)。所有block的基本通道大小為32-16-32-48-96-96-160-192-192。乘法器和基本通道的大小的設(shè)計(jì)類似參考文獻(xiàn)中的幾種代表性架構(gòu),例如MobileNetV2和MnasNet。

Search Space Ablation

針對(duì)三種不同的硬件平臺(tái)(CPU,EdgeTPU和DSP),我們利用上述三種不同的搜索空間進(jìn)行架構(gòu)搜索,并通過從頭開始訓(xùn)練得到的模型來評(píng)估搜索的模型。目的是在與NAS算法配對(duì)時(shí)驗(yàn)證每個(gè)搜索空間的有效性。使用完美的架構(gòu)搜索算法,可以確保最大的搜索空間勝過較小的搜索空間,因?yàn)樗撕笳叩慕鉀Q方案。但是,實(shí)際上并不一定是這種情況,因?yàn)樵撍惴赡軙?huì)獲得次優(yōu)的解決方案,尤其是在搜索空間較大的情況下。?因此,如果搜索空間使NAS方法能夠識(shí)別足夠好的架構(gòu),即使它們不是最佳的,它也被認(rèn)為是有價(jià)值的。

最后在三個(gè)搜索空間上搜出來的結(jié)構(gòu)如下圖 Fig. 8。結(jié)果也驗(yàn)證了之前的 motivation,包含普通的卷積的 Tucker layer 和 Fused convolution layer 在 EdgeTPU 和 DSP 上被廣泛使用。

實(shí)驗(yàn)結(jié)果展示

作者在COCO數(shù)據(jù)集上將之前最先進(jìn)的移動(dòng)檢測(cè)模型和文章中通過搜索得到的網(wǎng)絡(luò)架構(gòu)在終端平臺(tái)進(jìn)行性能測(cè)試對(duì)比,見下表。

從上表中可以看到:

1. 終端CPU:

  • 在同等推理延遲下,MobileDet以1.7mAP指標(biāo)優(yōu)于MobileNetV3+SSDLite;

  • 在不采用NAS-FPN中的head情況下,取得了媲美MnasFPN的性能。因此哦我們可以得出:IBN確實(shí)是可以適用于終端CPU平臺(tái)的模塊。

2. EdgeTPU:

  • 在同等推理延遲下,MobileDet以3.7mAP指標(biāo)優(yōu)于MobileNetV2+SSDLite。這種性能增益源自:域相關(guān)NAS、全卷積序列模塊(Fused、Tucker)。

3. DSP:

  • MobileDet取得28.5mAP@12.ms的性能,以3.2mAP指標(biāo)優(yōu)于MobileNetV2+SSDLite;

  • 以2.4mAP指標(biāo)優(yōu)于MnasFPN,同時(shí)具有更快的推理速度。

最后,作者還進(jìn)行了跨硬件平臺(tái)網(wǎng)絡(luò)架構(gòu)可移植性的性能測(cè)試,?圖9比較了使用不同硬件平臺(tái)的MobileDets(通過針對(duì)不同的加速器獲得)。我們的結(jié)果表明,在EdgeTPU和DSP上搜索的體系結(jié)構(gòu)可以相互移植。實(shí)際上,這兩種搜索架構(gòu)都充分利用了常規(guī)卷積。另一方面,專用于EdgeTPU或DSP的體系結(jié)構(gòu)(往往是FLOP密集型)無法很好地傳輸?shù)浇K端CPU。

Conclusion

本文,作者對(duì)以“IBN主導(dǎo)的網(wǎng)絡(luò)架構(gòu)是否最優(yōu)”提出了質(zhì)疑,以目標(biāo)檢測(cè)任務(wù)作為基礎(chǔ),重新分析研究了不同終端芯片加速下的常規(guī)卷積的有效性。這里主要列舉了三種終端加速平臺(tái)(CPU、EdgeTPU、DSP)。通過一系列的實(shí)驗(yàn)結(jié)果表明,在不同終端設(shè)備加速平臺(tái),在網(wǎng)絡(luò)中合適的位置嵌入常規(guī)卷積可以取得精度-推理方面的性能提升。由此產(chǎn)生得到的新架構(gòu)MobileDets可以在不同硬件平臺(tái)下取得比以往更優(yōu)異的檢測(cè)結(jié)果。


作者檔案
Murufeng,一個(gè)緊跟前沿、樂于分享最新技術(shù)干貨的DLer!個(gè)人公眾號(hào):深度學(xué)習(xí)技術(shù)前沿歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列


超越MobileNetV3,谷歌提出MobileDets:移動(dòng)端目標(biāo)檢測(cè)新標(biāo)桿的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
米林县| 余干县| 垦利县| 天祝| 佛坪县| 敦化市| 阳朔县| 海南省| 双城市| 郸城县| 金华市| 张北县| 永善县| 禹城市| 临城县| 哈密市| 上思县| 定日县| 凤阳县| 阳信县| 阿坝县| 澄江县| 安泽县| 临沂市| 神池县| 栾川县| 志丹县| 迁西县| 廉江市| 白玉县| 徐州市| 麟游县| 文水县| 富裕县| 镇坪县| 克拉玛依市| 临沂市| 高碑店市| 公主岭市| 卓尼县| 息烽县|