最新綜述!自動駕駛中Camera/Lidar/Radar如何識別異常目標和場景(CVPRW2022)

作者:汽車人
出處:公眾號【自動駕駛之心】
底部有技術(shù)交流群加入方式哦~
論文鏈接:https://arxiv.org/pdf/2204.07974.pdf
1摘要
現(xiàn)如今,自動駕駛汽車的感知在封閉路況下表現(xiàn)良好,但是仍然難以應(yīng)對意外情況。本文對基于Camera、LiDAR、Radar、多模態(tài)和抽象目標級數(shù)據(jù)的異常檢測技術(shù)展開全面調(diào)研。本文系統(tǒng)化地分析了包括檢測方法、極端案例(corner case)的級別、在線應(yīng)用程序的能力以及其他屬性等方面。
本文從五個角度展開調(diào)研,即:重建、預(yù)測、生成式、置信度和特征提取。置信度方法一般由后處理得到,并不會影響模型的訓練,可以進一步細分為貝葉斯方法、可學習得分和通過后處理獲得的得分。重建方法嘗試重建常態(tài)并將任何形式的偏離視為異常。生成式方法和重建方法類似,但也考慮了判別器的決策或與訓練數(shù)據(jù)分布的差距。特征提取可以基于手工或者學習得到的特征來確定類標簽或比較各種特征級別的模態(tài)?;陬A(yù)測的方法預(yù)測正常情況下的下一幀實現(xiàn)異常檢測,概覽如下圖所示。

2Anomaly Detection on Camera Data
自動駕駛汽車通常配備不同的攝像頭系統(tǒng),如雙目、單目和魚眼攝像頭,以確保對環(huán)境充分的感知。因此,基于相機的異常檢測對于更高層次的視覺感知有巨大潛力。在本節(jié)中,本文在Fishyscapes (FS) 基準 [31]上引入另外兩個標準:輔助數(shù)據(jù)和再訓練。前者表示算法在訓練期間是否需要異常數(shù)據(jù)。再訓練特指算法是否不能使用預(yù)訓練模型,但需要特殊的損失函數(shù)或者再訓練,因為這可能會降低性能[31]。所有基于相機的方法都在下圖中。

置信度:基于置信度分數(shù)的方法構(gòu)成了基于CNN中不確定性估計的異常檢測的基線。早期的工作Bayesian SegNet [51]通過Monte Carlo dropout采樣推導(dǎo)出語義分割網(wǎng)絡(luò)SegNet的不確定性,其中越高的類間方差表示越高的不確定性。不確定性可以理解為像素級的異常分數(shù),用來檢測道路上的障礙物[69,89]。Jung 等人提出了一種類似的方法來檢測道路上的未知障礙物[48]。其獲得了分割網(wǎng)絡(luò)中類條件下的標準化max logits。動機是[48]發(fā)現(xiàn)max logits對于不同的預(yù)測類別有各自的范圍。這意味著可以從訓練樣本中確定平均值和標準偏差。因此,標準化可以歸類為可學習的置信度分數(shù)方法。[28] 提出了通用學習框架虛擬異常值合成(Virtual Outlier Synthesis,VOS),其通過合成虛擬異常值來對比地塑造神經(jīng)網(wǎng)絡(luò)的決策邊界。
重建:重建和生成式的方法主要用于對目標級的異常檢測,即模型在沒有任何異常目標輔助數(shù)據(jù)的情況下學習重現(xiàn)訓練數(shù)據(jù)的正態(tài)性。[89]提出重建模塊JSR-Net,以基于像素分數(shù)檢測道路異常。其通過將已知類別的信息整合到異常分數(shù)中來增強語義分割網(wǎng)絡(luò)。Ohgushi [69]嘗試了類似的方法,在有真實和合成道路障礙物的高速公路數(shù)據(jù)集上進行實驗。其將語義分割的entropy loss同真實圖像和重建圖像之間的感知損失相結(jié)合,生成異常圖。隨后進行一系列后處理操作,最終的障礙物預(yù)測結(jié)果由語義信息、異常圖和用于細化局部區(qū)域的超像素共同得到。
生成式:根據(jù)FS、LaF和Segment Me If You Can (SMIYC) 障礙物跟蹤基準,基于密集異常檢測的算法NFlowJS [35]大幅超越了前人工作,代表了當前基于相機的異常檢測的最新技術(shù)。NFlowJS使用聯(lián)合訓練以在常規(guī)圖像上生成具有歸一化流(NF)的合成異常圖像,同時基于這些合成的混合圖像訓練密集預(yù)測網(wǎng)絡(luò)。合成的異常圖像被定義為異常Mask,在訓練期間,判別模型用于區(qū)分合成異常圖像和常規(guī)圖像。[68]采用并增強了Lee等人的生成式方法[54]用于異常物體檢測。[68]提出了一種輔助生成式對抗網(wǎng)絡(luò)(GAN),其鼓勵目標分類器區(qū)分訓練分布之外的樣本。[60]提出了一種檢測域偏移的方法。自編碼器以自監(jiān)督的方式學習訓練集特定的域,該方法通過自編碼器的峰值信噪比(PSNR)的分布來表征訓練數(shù)據(jù)域。在推理過程中,域失配 (domain mismatch,DM) 通過比較學習得到的PSNR和輸入的PSNR分布來判斷是否異常。
特征提取:Bolte[10]等人提出了另一種域偏移檢測,其通過比較特征圖的均方誤差(MSE)實驗異常檢測。類似,[101]提出了DeepRoad框架,其使用VGG特征的分布距離來驗證輸入圖像是否正常。
總結(jié)來說,先前的許多工作沒有使用額外數(shù)據(jù),但需要對提出的擴展模塊或整個檢測框架重新訓練才能實現(xiàn)異常檢測。
3Anomaly Detection on Lidar Data
大多數(shù)情況下,自動駕駛并非僅依賴攝像頭,盡管相機的分辨率最高,但卻缺少深度信息。因此,LiDAR也是常用的傳感器。雖然有很多關(guān)于像素級LiDAR局部去噪的研究[3,74],但本文聚焦于目標級和域級的異常檢測,其中整個點云簇或外觀的大且恒定的變化被認為是異常。尤其是雨、雪、靄等天氣條件嚴重影響數(shù)據(jù)質(zhì)量。所有基于LiDAR的方法見下圖。

置信度:張[100]等人的研究表明降雨會影響LiDAR的測量質(zhì)量,因為由此產(chǎn)生的點云更稀疏、更嘈雜,且平均強度更低。因此,[100]的目標是使用深度半監(jiān)督異常檢測(DeepSAD)算法[77]來量化激光雷達的退化程度。其首先將3D LiDAR數(shù)據(jù)投影到2D強度圖像中,然后DeepSAD提取圖像特征,其中所有正常圖像(沒有下雨)落入超球體中,所有異常圖像(下雨圖像)都映射到遠離超球體中心的位置。即通過超球面學習來區(qū)分正常和異常的數(shù)據(jù)。盡管該方法是針對雨天和正常天氣的,但原理上也可以擴展至其他天氣。
過去,已經(jīng)有如VoxelNet [102]、PointRCNN [82]和PointNet++ [73]等點云檢測算法。但是這些算法都是基于閉集訓練的。相比之下,開集檢測算法能夠檢測閉集之外的目標,將其作為未知目標輸出。Wong 等人[94]最先提出了用于3D點云的開集檢測算法,其提出一個開集實例分割網(wǎng)絡(luò)(OSIS),該網(wǎng)絡(luò)學習一個與類別無關(guān)的嵌入,以將點聚類到實例中,并不考慮類別。推理基于鳥瞰 (BEV) 激光雷達框架,包括兩個階段:閉集和開集感知。閉集感知就是常規(guī)的檢測階段,開集感知是OSIS 的核心,學習與類別無關(guān)的嵌入空間。通過開集感知就可以進行異常檢測。
重建:Masuda等[65]提出了一種檢測目標點云是否異常的方法。與前面的方法相比,該技術(shù)針對單個封閉目標的點云。由于車載激光雷達提供整個環(huán)境的點云信息,因此需要首先通過檢測或聚類方法獲取單個目標的RoI。所提出的VAE基于FoldingNet 解碼器[98],并學習重建被認為是正常的一組已知目標。然后基于重建信息和Chamfer距離得到異常分數(shù),進而得到點云異常的目標。
總結(jié)來說,在研究了各種閉集檢測結(jié)構(gòu)的基礎(chǔ)上,LiDAR中目標級別的異常檢測方興未艾。
4Anomaly Detection on Radar Data
Radar是自動駕駛中常用的第三種傳感器。與LiDAR相比,它以較低的分辨率和稀疏的空間信息為代價獲取較高的感知范圍。與前兩種傳感器相比,Radar對不斷變化的天氣和白天條件適應(yīng)性更強[90]。在下文中,本文專注于介紹為車載雷達系統(tǒng)設(shè)置的異常檢測算法,如環(huán)繞、遠程和短程雷達,并排除基于超寬帶和穿墻雷達的算法。所有基于Radar的方法見下表。

Radar通過測量電磁多徑波的飛行時間及其反射來估計物體的位置。由于多徑傳播,Radar甚至可以檢測到被遮擋的物體[86],同時也會導(dǎo)致噪聲、反射和偽影。特別是如高速公路上的欄桿或者光滑的墻壁這種反射表面,會產(chǎn)生不存在的偽影,通常被稱為“幽靈目標”(ghost target)[18,79,90]。這些是影響車載Radar的長期挑戰(zhàn)[58],出于這個原因,由于本文關(guān)注像素級以上的異常感知,因此特別關(guān)注檢測幽靈目標的方法。
特征提取:Liu 等[58] 提出了一種多路徑傳播模型,基于欄桿的反射,并根據(jù)目標的距離差來識別和去除鬼影。雖然這種數(shù)學方法在模擬中簡單有效,但必須考慮其約束條件,因為它僅限于具有三個固定大小車道的類似高速公路的駕駛場景。并且,目標與欄桿間的距離僅取三個值,并不能模擬真實車輛的變道。此外,還有一些類似的工作[43, 49, 88, ?76]。
最新的機器學習算法用于檢測更多駕駛場景中的雷達異常,而不受上述數(shù)學模型的限制。這種算法將幽靈目標都定義為一個單獨的類。例如,Griebel 等[36] 利用 PointNet++ 實現(xiàn)了一種深度學習算法,首先使用多尺度分組層(multi-scale grouping,MSG)來提取點云中不同尺度的特征。此外,該算法不僅關(guān)注多路徑異常檢測,還關(guān)注由多普勒速度模糊或朝向估計錯誤引起的其他單目標異常。
重建:Garcia等[32]使用占用網(wǎng)格和移動檢測圖組成的雙通道圖像作為全卷積網(wǎng)絡(luò)的(FCN)的輸入。所提出的算法包含編碼器和解碼器兩個部分。前者將語義信息提取為較低分辨率的表示,而后者則重建空間信息并將提取的特征表示映射回原圖大小。預(yù)測結(jié)果中,移動的目標被認為是幽靈目標。該方法在50張圖像的測試機上準確率達到92%。
總結(jié)來說,許多方法假設(shè)幽靈目標和真實目標可以通過它們的特征區(qū)別來區(qū)分,而不是傳統(tǒng)的,即重建或基于置信度的方法。盡管如此,未來的工作可以考慮時間信息來進一步優(yōu)化。
5Anomaly Detection on Multimodal Data
既然汽車配備了多種傳感器,多模態(tài)的方法自然也是其中之一,下表列出了所有異常檢測中的所有多模態(tài)方法。

特征提取:繼之前在雷達數(shù)據(jù)中檢測幽靈目標后,Wang等[90]提出一種多模態(tài)算法,Transformer非常適合 3D 點云,因其注意力機制是置換不變的,這對傳統(tǒng)CNN來說很困難。此外,與前面提到的PointNet++等架構(gòu)相比,Transformer顯式地對點的交互進行建模。作者采用多模態(tài)Transformer網(wǎng)絡(luò)通過參考LiDAR來檢測Radar幽靈目標。Radar點云相比于LiDAR稀疏的多,這阻礙了兩種數(shù)據(jù)的匹配。因此,單個Radar點通過KNN查詢周圍的LiDAR點并提供局部特征信息,就像放大鏡一樣。進一步對非結(jié)構(gòu)化的雷達數(shù)據(jù)本身使用self-attentation來識別幽靈目標。值得一提的是,幽靈目標的GT是通過比較Radar和LiDAR數(shù)據(jù)生成的。
Sun等[85]提出一種基于RGB-D數(shù)據(jù)的語義分割實時融合網(wǎng)絡(luò)。多模態(tài)的方式是通過結(jié)合深度信息來改進圖像分割。此外,他們認為多源分割框架還能夠檢測道路障礙,提供統(tǒng)一的像素級場景理解。另一種基于RGB-D的道路障礙物檢測算法是MergeNet[37]。
Ji等[46]提出一種有監(jiān)督的VAE來合并不同維度的多模態(tài)數(shù)據(jù)。這對于融合密集的激光雷達數(shù)據(jù)和較低分辨率的雷達數(shù)據(jù)特別有用。[46]在訓練后放棄解碼器,并使用學習到的編碼器作為特征提取器。然后,模態(tài)的潛在表示與其他編碼模態(tài)一起輸入到全連接層中,以識別車輛的異常操作模式。雖然這個方法是為機器人設(shè)計的,但原理上可以擴展到自動駕駛中。
總之,所有多模態(tài)異常檢測技術(shù)都是基于多個模態(tài)提取特征的比較。本文認為多模態(tài)檢測可以互相促進,因為多模態(tài)擴大了潛在異常的搜索空間,同時降低了誤報的風險。
6Anomaly Detection on Abstract Object Data
前面概述了適用于特定傳感器的異常檢測方法。下面?zhèn)戎赜诟橄蠹墑e的模式分析,即檢測場景中的異常行為,并非與傳感器綁定。因此,這些方法旨在檢測場景級別的異常[13]并處理自車外的危險和異常駕駛行為。所有基于抽象目標的方法見下表。

預(yù)測結(jié)果:Yang[97]基于隱馬爾科夫模型(HMM)評估駕駛車輛的行為以檢測異常情況。馬爾科夫模型的觀察狀態(tài)由Conditional Monte Carlo Dense Occupancy Tracker (CMCDOT)算法[78]提供,包括速度以及車輛位置。該框架基于點云和里程計數(shù)據(jù)得出這些觀察結(jié)果。因此,這種范式可以可靠的推斷出模擬多車道高速公路場景中的危險和異常駕駛行為,其中包含了兩輛自車之外的車輛。
Bolte等[9]提出了場景級別的異常檢測,其在一系列傳感器數(shù)據(jù)(即相機圖像)上觀察到的模式。他們考慮了下述場景:異常、新穎和有風險的場景[13]。由于場景異常的性質(zhì),它們量化了移動物體(如行人/車輛)的異常行為。真實幀和預(yù)測幀間的誤差當做異常評分。預(yù)測幀基于先前輸入幀序列由對抗自編碼器生成。因此,異常評分也可以解釋為模型的不可預(yù)測性。該模型使用MSE、PSNR和結(jié)構(gòu)相似性指數(shù)測量(SSIM)指標進行評估,異常場景由閾值確定。
重建:Stocco等[84]提出SelfOracle用于檢測關(guān)乎安全的不當行為,如碰撞和越界。該框架使用VAE重建當前場景的一組由先前輸入圖像并計算對應(yīng)的重建誤差。在對正常數(shù)據(jù)進行訓練期間,該模型通過最大似然估計將概率分布擬合到觀察到的重建誤差上。然后可以只用估計的分布來確定閾值以區(qū)分異常行為和正常行為。
最后,目標級別的異常檢測在很大程度上取決于人為的駕駛行為。因此,隨著道路上的自動駕駛汽車的興起,自動駕駛在行為預(yù)測上可能會出現(xiàn)較大的概念漂移。
7總結(jié)
本文對自動駕駛領(lǐng)域的異常檢測方法進行了廣泛的調(diào)查。最近大多數(shù)方法都與基于圖像的異常檢測有關(guān),而基于LiDAR和Radar的方法受到的關(guān)注較少。原因之一是缺少基準數(shù)據(jù)集,到目前為止,公開數(shù)據(jù)集都只有相機數(shù)據(jù)。公開的異常行為檢測數(shù)據(jù)集還比較少,這使得檢測技術(shù)的統(tǒng)一比較變得困難。由前文可知,每種模式可能只適合檢測一種或幾種corner case,例如LiDAR更關(guān)注單點異常??偠灾?,異常檢測還有很長的路要走。
8?參考
[1] Anomaly Detection in Autonomous Driving: A Survey

后臺回復(fù)【ECCV2022】獲取ECCV2022所有自動駕駛方向論文!
后臺回復(fù)【領(lǐng)域綜述】獲取自動駕駛?cè)珬=?0篇綜述論文!
后臺回復(fù)【數(shù)據(jù)集下載】獲取計算機視覺近30種數(shù)據(jù)集!
【自動駕駛之心】全棧技術(shù)交流群
自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關(guān)鍵點檢測、車道線、目標跟蹤、3D感知、多傳感器融合、SLAM、高精地圖、規(guī)劃控制、AI模型部署落地等方向;
加入我們:自動駕駛之心技術(shù)交流群匯總!
自動駕駛之心【知識星球】
想要了解更多自動駕駛感知(分類、檢測、分割、關(guān)鍵點、車道線、3D感知、多傳感器融合、目標跟蹤)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規(guī)劃控制、領(lǐng)域技術(shù)方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球(三天內(nèi)無條件退款),日常分享論文+代碼,這里匯聚行業(yè)和學術(shù)界大佬,前沿技術(shù)方向盡在掌握中,期待交流!
