目前最快精度最高的目標檢測框架

計算機視覺研究院專欄
作者:Edison_G
疫情以來,各種大型國際會議有如火如荼的開展起來。目前,已經(jīng)被研究出很多高效高精度的框架,在深度學習領域,模型效率也是越來越重的一個研究課題。不僅僅停留在訓練的提速,現(xiàn)在推理應用的速度更加關鍵。因此,現(xiàn)在很多研究趨勢朝著更高效更小型化發(fā)展!
1.摘要模型效率在計算機視覺領域中越來越重要。作者研究了神經(jīng)網(wǎng)絡結構在目標檢測中的設計選擇,并提出了提高檢測效率的幾個關鍵優(yōu)化方案。首先提出了一種加權雙向特征金字塔網(wǎng)絡(BiFPN),該網(wǎng)絡能夠方便、快速的進行多尺度特征融合;其次,提出了一種混合縮放方法,可以同時對所有主干網(wǎng)絡、特征網(wǎng)絡以及最后的預測網(wǎng)絡(boxes/classes)的分辨率、深度和寬度進行均勻縮放。特別地,是在單模型和單比例尺的情況下,EfficientDet-D7在52M參數(shù)和325B FLOPs的情況下,實現(xiàn)了map在 COCO數(shù)據(jù)集的最高水平(52.2),比之前最好的檢測器更小,使用更少的FLOPs(325B),但仍然更準確(+0.2% mAP)。
2.背景
近年來,在更精確的目標檢測方面取得了巨大的進展;同時,最先進的物體探測器也變得越來越昂貴(消耗)。例如,最新的基于AmoebaNet-based NAS-FPN檢測器[Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin,?Jonathon Shlens, and Quoc V. Le. Learning data aug- mentation strategies for object detection.?arXiv preprint arXiv:1804.02767, 2019]需要167M參數(shù)和3045B FLOPs(比RetinaNet多30倍)才能達到最先進的精度。大型的模型尺寸和昂貴的計算成本阻止了他們在許多現(xiàn)實世界的應用,如機器人和自動駕駛,其中模型大小和延遲受到高度限制。鑒于這些現(xiàn)實世界的資源約束,模型效率對于目標檢測變得越來越重要。
一個自然的問題是:是否有可能在廣泛的資源約束(例如從3B到300B FLOP)中建立一個具有更高精度和更高效率的可伸縮檢測體系結構??作者旨在通過系統(tǒng)研究檢測器結構的各種設計選擇來解決這一問題?;趏ne- stage?detector paradigm,研究了主干網(wǎng)絡、特征融合和類/box網(wǎng)絡的設計選擇,并確定了兩個主要挑戰(zhàn):
挑戰(zhàn)1:高效的多尺度特征融合?? ?自[Tsung-Yi Lin, Piotr Dolla ?r, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection.?CVPR, 2017]引入以來,F(xiàn)PN已被廣泛應用于多尺度特征融合。最近,PANET、NAS-FPN和其他研究開發(fā)了更多的跨尺度特征融合網(wǎng)絡結構。在融合不同的輸入特征的同時,大多數(shù)以前的工作只是不加區(qū)分地總結它們;然而,由于這些不同的輸入特征具有不同的分辨率,我們觀察到它們通常對融合的輸出特征作出不平等的貢獻。為了解決這一問題,作者提出了一個簡單而高效的加權雙向特征金字塔網(wǎng)絡(BiFPN),它引入可學習的權重來學習不同輸入特征的重要性,同時反復應用自頂向下和自底向上的多尺度特征融合。
挑戰(zhàn)2:模型縮放 ??雖然以前的工作主要依靠更大的主干網(wǎng)絡[如:Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement.?arXiv preprint arXiv:1804.02767, 2018;Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks.?NIPS, 2015]或更大的輸入圖像大小[Kaiming He, Georgia Gkioxari, Piotr Dolla ?r, and Ross Girshick. Mask r-cnn.?ICCV, pages 2980–2988, 2017]來獲得更高的精度,但我們觀察到,在考慮精度和效率時,擴展特征網(wǎng)絡和框/類預測網(wǎng)絡也是至關重要的。?在最近的工作[Mingxing Tan and Quoc V. Le. Efficientnet: Rethinking model scaling for convolutional neural networks.?ICML, 2019]的啟發(fā)下,作者提出了一種目標檢測器的復合縮放方法,它聯(lián)合縮放所有主干網(wǎng)絡、特征網(wǎng)絡、框/類預測網(wǎng)絡的分辨率/深度/寬度。

3.BiFPN

CVPR 2017的FPN指出了不同層之間特征融合的重要性,并且以一種比較簡單,Heuristic的方法把底層的特征乘兩倍和淺層相加來融合。之后人們也試了各種別的融合方法,比如PANet先從底向上連,再自頂向下連回l去;NAS-FPN通過搜索找到一種不規(guī)則的連接結構??傊鲜龆际且恍┤斯じ鞣N連接的設計,包含Conv,Sum,Concatenate,Resize,Skip Connection等候選操作。很明顯使用哪些操作、操作之間的順序是可以用NAS搜的。進入Auto ML時代之后,NAS-FPN在前,搜到了一個更好的 neck部分的結構。
- PANet效果好于FPN和NAS-FPN,計算代價也更高;
- 如果一個結點本身沒有融合的特征,那么對以特征融合為目標的結構貢獻就不大,所以PANet中移除了P3,P7的中間結點;

- 同一尺度的輸入和輸出又加了一個連接,因為計算量不大,得到上圖(d);
- 上圖(d)中虛線框內(nèi)作為一層,會重復多次以得到high-level feature fusion。
加權融合
當融合具有不同分辨率的特征時,一種常見的方法是首先將它們調(diào)整到相同的分辨率,然后對它們進行融合。金字塔注意網(wǎng)絡[Hanchao Li, Pengfei Xiong, Jie An, and Lingxue Wang. Pyramid attention networks.?BMVC, 2018]引入全局自注意上采樣來恢復像素定位,在[Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, and Quoc V. Le. Nas-fpn: Learning scalable feature pyramid architecture for object detection.?CVPR, 2019]中進一步研究。以前的所有方法都一視同仁地對待所有輸入特性。?然而,我們觀察到,由于不同的輸入特征具有不同的分辨率,它們通常對輸出特征的貢獻是不平等的。?為了解決這個問題,作者建議為每個輸入增加一個額外的權重,并讓網(wǎng)絡學習每個輸入特性的重要性。?基于這一思想,考慮了三種加權融合方法。

同樣,每個歸一化權重的值也在0到1之間,但由于這里沒有Softmax操作,所以效率要高得多。ablation研究表明,這種快速融合方法與基于Softmax的融合具有非常相似的學習行為和準確性,但在GPU上運行速度高達30%(如下表6)。



