多目標(biāo)跟蹤(MOT)最新綜述,一文快速入門
0 寫在前面
去年暑期實習(xí)的時候,誤打誤撞進(jìn)了一家自動駕駛公司,做了多目標(biāo)跟蹤的工作,工作也是秋招時靠著相關(guān)工作拿到了幾個算法崗offer,后來畢業(yè)課題也換成了多目標(biāo)跟蹤。
前段時間畢業(yè)整體資料,在B站上傳了一個由自己改進(jìn)算法制作的行人多目標(biāo)跟蹤demo——《大規(guī)模密集行人檢測跟蹤,行人多目標(biāo)跟蹤,MOT20效果可以,可用于視頻智能監(jiān)控、自動駕駛等》
鏈接:https://www.bilibili.com/video/BV1zv411p7N2
https://www.bilibili.com/video/BV1zv411p7N2
沒想到被很多朋友看到,其中不少朋友私信或者評論留言說對多目標(biāo)跟蹤感興趣,但資料比較少,希望分享一份多目標(biāo)跟蹤的綜述。
于是便有了這篇文章,也在朋友的建議下建了一個自動駕駛交流群,感興趣的朋友可以文末掃碼進(jìn)群一起學(xué)習(xí)、一起玩。
PS:雖然最后的畢業(yè)論文查重是0.7%,但為了日后抽查安全,部分內(nèi)容只能是語焉不詳,還望理解。
1 MOT簡介
多目標(biāo)跟蹤,一般簡稱為MOT(Multiple Object Tracking),也有一些文獻(xiàn)稱作MTT(Multiple Target Tracking)。在事先不知道目標(biāo)數(shù)量的情況下,對視頻中的行人、汽車、動物等多個目標(biāo)進(jìn)行檢測并賦予ID進(jìn)行軌跡跟蹤。不同的目標(biāo)擁有不同的ID,以便實現(xiàn)后續(xù)的軌跡預(yù)測、精準(zhǔn)查找等工作。
MOT是計算機視覺領(lǐng)域的一項關(guān)鍵技術(shù),在自動駕駛、智能監(jiān)控、行為識別等方向應(yīng)用廣泛。如下圖所示,對于輸入視頻,輸出目標(biāo)的跟蹤結(jié)果,包括目標(biāo)包圍框和對應(yīng)的ID編號。理論上,同一個目標(biāo)的ID編號保持不變。

多目標(biāo)跟蹤中即要面對在單目標(biāo)跟蹤中存在的遮擋、變形、運動模糊、擁擠場景、快速運動、光照變化、尺度變化等挑戰(zhàn),還要面對如軌跡的初始化與終止、相似目標(biāo)間的相互干擾等復(fù)雜問題。因此,多目標(biāo)跟蹤當(dāng)前仍然是圖像處理中的一個極具挑戰(zhàn)性的方向,吸引了不少研究人員的長期投入。
2 研究難點
目標(biāo)跟蹤是一個早已存在的方向,但之前的研究主要集中于單目標(biāo)跟蹤,直到近幾年,多目標(biāo)跟蹤才得到研究者的密切關(guān)注。與其它計算機視覺任務(wù)相比,多目標(biāo)跟蹤任務(wù)主要存在以下研究難點:
1) 數(shù)據(jù)集缺乏且標(biāo)注困難;
2)目標(biāo)檢測不夠準(zhǔn)確;
3)頻繁的目標(biāo)遮擋;
4)目標(biāo)數(shù)量不確定;
5)速度較慢,實時性不夠;
3 數(shù)據(jù)集
近年,隨著自動駕駛、智能監(jiān)控等應(yīng)用的發(fā)展需要,陸續(xù)形成了一些MOT基準(zhǔn)數(shù)據(jù)集,包括MOTChallenge數(shù)據(jù)集、KITTI和其它幾個已不太常用的數(shù)據(jù)集。
3.1 MOTChallenge數(shù)據(jù)集
MOTChallenge是目前MOT領(lǐng)域使用最多的數(shù)據(jù)集,主要是針對行人多目標(biāo)跟蹤任務(wù),包括MOT15、MOT16、MOT17和MOT20等數(shù)據(jù)集。

3.2 KITTI數(shù)據(jù)集
KITTI數(shù)據(jù)集是目前全球最大的自動駕駛場景數(shù)據(jù)集,支持雙目、光流、視覺測距、3D目標(biāo)檢測和3D跟蹤等任務(wù)。通過一輛裝有彩色/灰色立體攝像頭、Velodyne HDL-64E旋轉(zhuǎn)式3D激光掃描儀和GPS/IMU導(dǎo)航系統(tǒng)等多傳感器的汽車在城市中環(huán)、郊區(qū)和高速公路等多個場景的多個路段收集而成。
對于MOT任務(wù),KITTI提供了激光雷達(dá)點云和3D包圍框軌跡。

3.3 其它數(shù)據(jù)集
除了MOTChallenge和KITTI數(shù)據(jù)集之外,還有幾個較老的數(shù)據(jù)集,目前已經(jīng)很少使用。主要有UA-DETRAC[60]數(shù)據(jù)集、TUD[61]數(shù)據(jù)集和PETS2009[62]數(shù)據(jù)集。感興趣的朋友可以去網(wǎng)上搜一下。
PS: 由于KITTI官網(wǎng)數(shù)據(jù)集下載很慢很慢,所以我之前就特意寫了一篇分享文章,分享了KITTI的全套百度網(wǎng)盤下載鏈接,幫助到了一些國內(nèi)的朋友,也收獲了一些好評。有需要的朋友可點擊下文獲取,免費分享:
StrongerTang:kitti數(shù)據(jù)集百度網(wǎng)盤分享 kitti-object、kitti-tracking 自動駕駛
MOT16數(shù)據(jù)集的百度網(wǎng)盤也一起免費分享了出來。
StrongerTang:多目標(biāo)跟蹤數(shù)據(jù)集MOT16簡介與百度網(wǎng)盤分享 MOT16百度云
4 評價指標(biāo)
經(jīng)過不斷完善,目前形成了一組多目標(biāo)跟蹤專用評估指標(biāo)[63-64]。具體定義及計算公式如下:
1)FP:False Positive,即真實情況中沒有,但跟蹤算法誤檢出有目標(biāo)存在。
2)FN:False Negative,即真實情況中有,但跟蹤算法漏檢了。
3)IDS:ID Switch,目標(biāo)ID切換的次數(shù)。
4)MOTA: Multiple Object Tracking Accuracy,多目標(biāo)跟蹤準(zhǔn)確度。

MOTA可以較好地反映跟蹤準(zhǔn)確度,是當(dāng)前MOT的主要評估指標(biāo)。但MOTA不能反映MOT算法對同一個目標(biāo)軌跡長時間跟蹤性能表現(xiàn)。
5)IDF1: ID F1得分,正確身份標(biāo)簽賦予的檢測框與平均ground truth和計算的檢測數(shù)量的比值。

6)MT:Mostly Tracked,大多數(shù)目標(biāo)被跟蹤的軌跡數(shù)量。目標(biāo)被成功跟蹤到的軌跡長度與軌跡總長度的比值大于等于80%的軌跡數(shù)量。
7)ML:Mostly Lost,大多數(shù)目標(biāo)被跟丟的軌跡數(shù)量。目標(biāo)被成功跟蹤到的軌跡長度與軌跡總長度的比值小于等于20%的軌跡數(shù)量。
8)MOTP:Multiple Object Tracking Precision,多目標(biāo)跟蹤精度。表示得到的檢測框和真實標(biāo)注框之間的重合程度。

9)FPS:Frames Per Second,每秒處理的幀數(shù)。
5 研究方案
視覺目標(biāo)跟蹤的發(fā)展相對較短,主要集中在近十余年。早期比較經(jīng)典的方法有Meanshift[19]和粒子濾波[20]等方法,但整體精度較低,且主要為單目標(biāo)跟蹤。
近五六年來,隨著目標(biāo)檢測的性能得到了飛躍式進(jìn)步,也誕生了基于檢測進(jìn)行跟蹤的方案,并迅速成為當(dāng)前多目標(biāo)跟蹤的主流框架,極大地推動了MOT任務(wù)的前進(jìn)。同時,近期也出現(xiàn)了基于檢測和跟蹤聯(lián)合框架以及基于注意力機制的框架,開始引起研究者們的注意力。
5.1 MOT三種框架——基于Tracking-by-detection的MOT

基于Tracking-by-detaction框架的MOT算法是先對視頻序列的每一幀進(jìn)行目標(biāo)檢測,根據(jù)包圍框?qū)δ繕?biāo)進(jìn)行裁剪,得到圖像中的所有目標(biāo)。然后,轉(zhuǎn)化為前后兩幀之間的目標(biāo)關(guān)聯(lián)問題,通過IoU、外觀等構(gòu)建相似度矩陣,并通過匈牙利算法、貪婪算法等方法進(jìn)行求解。
代表方法:SORT、DeepSORT
5.2 MOT三種框架——基于檢測和跟蹤聯(lián)合的MOT
JDE采用FPN結(jié)構(gòu),分別從原圖的 1/8,1/16 和 1/32 三個尺度進(jìn)行預(yù)測。在這三個不同尺度的輸出特征圖上分別加入預(yù)測頭(prediction head),每個預(yù)測頭由幾層卷積層構(gòu)成,并輸出大小為 (6A+D)×H×W 的特征向量。其中 A 為對應(yīng)尺度下設(shè)置的錨框的數(shù)量,D 是外觀特征的維度。

JDE在MOT16測試集上MOTA=64.4%,GPU環(huán)境下,高分辨率輸入圖像下FPS達(dá)到22.2,低分辨率輸入圖像下FPS達(dá)到30.3,是第一個接近實時的多目標(biāo)跟蹤算法。
代表方法:JDE、FairMOT、CenterTrack、ChainedTracker等
5.3 MOT三種框架——基于注意力機制的MOT
隨著Transformer[42]等注意力機制在計算機視覺中的應(yīng)用火熱,近期開始有研究者提出了基于注意力機制的多目標(biāo)跟蹤框架,目前主要有TransTrack[43]和TrackFormer[44],這兩項工作都是將Transformer應(yīng)用到MOT中。
TransTrack將當(dāng)前幀的特征圖作為Key,將前一幀的目標(biāo)特征Query和一組從當(dāng)前幀學(xué)習(xí)到的目標(biāo)特征Query一起作為整個網(wǎng)絡(luò)的輸入Query。

代表方法:TransTrack、TrackFormer等
6 效果展示
6.1 圖片


6.2 視頻
鏈接:https://www.bilibili.com/video/BV1zv411p7N2
行人:https://www.bilibili.com/video/BV1zv411p7N2
汽車:https://www.bilibili.com/video/BV1tf4y1874q
7 參考文獻(xiàn)
在課題研究中,參考了大量相關(guān)文獻(xiàn),表示感謝。限于篇幅原因,這里就不再羅列了。最后,再次表示感謝。