目標檢測方向的經(jīng)典論文
論文推薦還在持續(xù)進行中...
大家需要什么論文
就在公眾號后臺告訴學姐
上次有小可愛問學姐
時間序列的論文
學姐馬上就去找了并搜集過來了!
所以學姐很多想不到的
需要大家?guī)椭叮?/p>
今天的論文是學姐整理的目標檢測方向的經(jīng)典論文,大家需要請自取哦~
YOLO v3快速通用檢測方法
期刊日期
2018 REPORT(年度報告,非發(fā)表論文)
論文名稱
YOLOv3: An Incremental Improvement
描述
我們給YOLO提供一些更新!我們做了一些小的設(shè)計更改以使其更好。
我們也訓練了這個非常好的新網(wǎng)絡(luò)。它比上次(YOLOv2)稍大一些,但更準確。它仍然很快,所以不用擔心。
在320×320 YOLOv3運行22.2ms,28.2 mAP,像SSD一樣準確,但速度快三倍。
當我們看看以老的0.5 IOU mAP檢測指標時,YOLOv3是相當不錯的。
在Titan X上,它在51 ms內(nèi)實現(xiàn)了57.9的AP50,與RetinaNet在198 ms內(nèi)的57.5 AP50相當,性能相似但速度快3.8倍。
論文鏈接
https://pjreddie.com/media/files/papers/YOLOv3.pdf
代碼:
https://pjreddie.com/darknet/yolo/
SSD早期單階網(wǎng)絡(luò)
期刊日期
ECCV2016
論文名稱
SSD: Single Shot MultiBox Detector
描述
SSD(Single Shot MultiBox Detector)是ECCV2016的一篇文章,屬于one - stage套路。在保證了精度的同時,又提高了檢測速度,相比當時的Yolo和Faster R-CNN是最好的目標檢測算法了,可以達到實時檢測的要求。
論文鏈接
https://arxiv.org/pdf/1512.02325.pdf
代碼:
https://github.com/weiliu89/caffe
Faster R-CNN第一個端到端網(wǎng)絡(luò)(深度之眼訓練營第一篇)
期刊日期
NIPS 2015
論文名稱
Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks
描述
目前最好的目標檢測網(wǎng)絡(luò)都依賴region proposals算法來假設(shè)目標位置。比較好的例子,例如SPP-net、Fast R-CNN已經(jīng)極大地減少了這些檢測網(wǎng)絡(luò)的運行時間,Region proposal的計算便成了整個檢測網(wǎng)絡(luò)的一個瓶頸。這篇論文提出了一種RegionProposal Network(RPN),它能夠和檢測網(wǎng)絡(luò)共享整張圖像的卷及特征,從而使得region proposal的計算幾乎cost-free。RPN是一種全卷積的網(wǎng)絡(luò),能夠同時預測目標的邊界以及對objectness得分。
RPN是端到端訓練,產(chǎn)生高質(zhì)量的regionproposals用于Fast R-CNN的檢測。作者通過共享卷及特征進一步將RPN和Fast R-CNN合并成一個網(wǎng)絡(luò),使用最近神經(jīng)網(wǎng)絡(luò)流行的術(shù)語——“attention”機制,RPN組件能夠告訴網(wǎng)絡(luò)看向哪里。對于VGG-16模型,檢測系統(tǒng)在GPU上的幀率為5幀(包含所有步驟),同時僅用每張圖300個proposals取得了PASCAL VOC2007,2012以及MS COCO數(shù)據(jù)集的最好檢測精度。
論文鏈接
https://arxiv.org/pdf/1506.01497.pdf
代碼:
https://github.com/ShaoqingRen/faster_rcnn
https://github.com/rbgirshick/py-faster-rcnn
FPN第一個特征融合網(wǎng)絡(luò)
期刊日期
CVPR 2017
論文名稱
Feature Pyramid Networks for Object Detection
描述
CVPR2017的文章,已經(jīng)是非常經(jīng)典的文章了,在很多論文里基本都屬于baseline一類的存在,CVPR2018里也有一些論文基于FPN做出了很不錯的效果。其實對于做目標檢測來說,F(xiàn)PN屬于必讀的文章,之前也已經(jīng)了解了算法,但是感覺不自己過一下總是不踏實。
本文主要研究的是針對目標檢測中的尺度問題,尤其是小目標檢測中存在的卷積神經(jīng)網(wǎng)絡(luò)分辨率和語義化程度之間的矛盾問題,并提出了一種特征金字塔網(wǎng)絡(luò)的解決思路。
論文鏈接
https://arxiv.org/pdf/1612.03144.pdf
RetinaNet解決類別不均衡問題
期刊日期
ICCV2017
論文名稱
RetinaNet: Focal Loss for Dense Object Detection
描述
RetinaNet是2018年Facebook AI團隊在目標檢測領(lǐng)域新的貢獻。
RetinaNet只是原來FPN網(wǎng)絡(luò)與FCN網(wǎng)絡(luò)的組合應用,因此在目標網(wǎng)絡(luò)檢測框架上它并無特別亮眼創(chuàng)新。文章中最大的創(chuàng)新來自于Focal loss的提出及在單階段目標檢測網(wǎng)絡(luò)RetinaNet(實質(zhì)為Resnet + FPN + FCN)的成功應用。
Focal loss是一種改進了的交叉熵(cross-entropy, CE)loss,它通過在原有的CE loss上乘了個使易檢測目標對模型訓練貢獻削弱的指數(shù)式,從而使得Focal loss成功地解決了在目標檢測時,正負樣本區(qū)域極不平衡而目標檢測loss易被大批量負樣本所左右的問題。
此問題是單階段目標檢測框架(如SSD/Yolo系列)與雙階段目標檢測框架(如Faster-RCNN/R-FCN等)accuracy gap的最大原因。
在Focal loss提出之前,已有的目標檢測網(wǎng)絡(luò)都是通過像Boot strapping/Hard example mining等方法來解決此問題的。
作者通過后續(xù)實驗成功表明Focal loss可在單階段目標檢測網(wǎng)絡(luò)中成功使用,并最終能以更快的速率實現(xiàn)與雙階段目標檢測網(wǎng)絡(luò)近似或更優(yōu)的效果。
論文鏈接
https://arxiv.org/pdf/1708.02002.pdf
代碼鏈接:
https://github.com/facebookresearch/detectron
Mask R-CNNFaster RCNN的進一步改進
期刊日期
CVPR2017
論文名稱
Mask R-CNN
描述
一個概念上簡單、靈活和通用的對象實例分割框架。在Faster R-CNN的基礎(chǔ)上添加了一個預測分割mask的分支。通過添加一個分支來與現(xiàn)有的邊界框識別分支并行預測對象掩碼,從而擴展了 Faster R-CNN。
論文鏈接
https://arxiv.org/pdf/1703.06870.pdf
代碼鏈接:
https://github.com/facebookresearch/detectron2
FCOS解決尺度變化太大難以訓練的問題
期刊日期
CVPR2019
論文名稱
FCOS: Fully Convolutional One-Stage Object Detection
描述
FCOS是典型的one-stage和anchor free結(jié)合,并且思路和cornerNet系列的尋找corner不同,借鑒了FCN的思想,通過單個feature上的點來做檢測。
論文鏈接
https://arxiv.org/pdf/1904.01355.pdf
論文代碼:
https://github.com/tianzhi0549/FCOS
EfficeintDet將多尺度特征融合和模型縮放結(jié)合的高效目標檢測網(wǎng)絡(luò)
期刊日期
CVPR 2020
論文名稱
EfficeintDet:Scalable and Efficient Object Detection
描述
本文提出的BIFPN和EfficientDet,通過改進FPN中多尺度特征融合的結(jié)構(gòu)和借鑒 EfficientNet模型縮放方法,提出了一種模型可縮放且高效的目標檢測算法EfficientDet。
其高精度版本EfficientDet-D7僅有52M的參數(shù)量和326B FLOPS ,在COCO數(shù)據(jù)集上實現(xiàn)了目前已公布論文中的最高精度51.0mAP!相比于之前的最好算法,它的參數(shù)量小4倍,F(xiàn)LOPS小9.3倍,而精度卻更高(+ 0.3%mAP)!
論文鏈接
https://arxiv.org/pdf/1911.09070.pdf
代碼:
https://github.com/google/automl
Cascade R-CNN多任務(wù)網(wǎng)絡(luò)模型代表
期刊日期
CVPR2018
論文名稱
Delving into High Quality Object Detection
描述
作者從detector的overfitting at training/quality mismatch at inference問題入手,提出了基于multi-stage的Cascade R-CNN,該網(wǎng)絡(luò)結(jié)構(gòu)清晰,效果顯著,并且能簡單移植到其它detector中,帶來2-4%的性能提升。
論文鏈接
https://arxiv.org/pdf/1712.00726.pdf
代碼:
https://github.com/zhaoweicai/cascade-rcnn
CenterNetone-stage目標檢測方法中性能(精度)最好的方法
期刊日期
CVPR2019
論文名稱
CenterNet: Objects as Points
描述
本文中,我們采用不同的方法,構(gòu)建模型時將目標作為一個點——即目標BBox的中心點。我們的檢測器采用關(guān)鍵點估計來找到中心點,并回歸到其他目標屬性,例如尺寸,3D位置,方向,甚至姿態(tài)。
我們基于中心點的方法,稱為:CenterNet,相比較于基于BBox的檢測器,我們的模型是端到端可微的,更簡單,更快,更精確。我們的模型實現(xiàn)了速度和精確的最好權(quán)衡,以下是其性能:
MS COCO dataset, with 28:1% AP at 142 FPS, 37:4% AP at 52 FPS, and 45:1% AP with multi-scale testing at 1.4 FPS.
用同個模型在KITTI benchmark 做3D bbox,在COCO keypoint dataset做人體姿態(tài)檢測。同復雜的多階段方法比較,我們的取得了有競爭力的結(jié)果,而且做到了實時的。
論文鏈接
https://arxiv.org/pdf/1904.07850.pdf
代碼:
https://github.com/zhaoweicai/cascade-rcnn
前段時間整理了
2d目標檢測的論文
需要來公眾號搜索自取
