史上最全綜述 | 3D目標(biāo)檢測(cè)算法匯總?。▎文?雙目/LiDAR/多模態(tài)/時(shí)序/半弱自監(jiān)督）

2022-08-23 22:33 作者:自動(dòng)駕駛之心 0人讀過(guò) | 我要投稿

作者：汽車人

原文鏈接：公眾號(hào)【自動(dòng)駕駛之心】

1?摘要

近年來(lái)，自動(dòng)駕駛因其減輕駕駛員負(fù)擔(dān)、提高行車安全的潛力而受到越來(lái)越多的關(guān)注。在現(xiàn)代自動(dòng)駕駛系統(tǒng)中，感知系統(tǒng)是不可或缺的組成部分，旨在準(zhǔn)確估計(jì)周圍環(huán)境的狀態(tài)，并為預(yù)測(cè)和規(guī)劃提供可靠的觀察結(jié)果。3D目標(biāo)檢測(cè)可以智能地預(yù)測(cè)自動(dòng)駕駛車輛附近關(guān)鍵3D目標(biāo)的位置、大小和類別，是感知系統(tǒng)的重要組成部分。本文回顧了應(yīng)用于自動(dòng)駕駛領(lǐng)域的3D目標(biāo)檢測(cè)的進(jìn)展。首先，我們介紹了3D目標(biāo)檢測(cè)的背景并討論了該任務(wù)中的一些挑戰(zhàn)。其次，我們從模型和傳感器輸入方面對(duì)3D目標(biāo)檢測(cè)的進(jìn)展進(jìn)行了全面調(diào)查，包括基于LiDAR、基于相機(jī)和多模態(tài)檢測(cè)方法。我們還對(duì)每一類方法的潛力和挑戰(zhàn)進(jìn)行了深入分析。此外，我們系統(tǒng)地研究了3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。最后，我們對(duì)3D目標(biāo)檢測(cè)方法進(jìn)行了性能分析，并進(jìn)一步總結(jié)了多年來(lái)的研究趨勢(shì)，展望了該領(lǐng)域的未來(lái)方向。

2?簡(jiǎn)述

自動(dòng)駕駛，旨在使車輛智能地感知周圍環(huán)境，并在很少或無(wú)需人力的情況下安全行駛，近年來(lái)取得了快速發(fā)展。自動(dòng)駕駛技術(shù)已廣泛應(yīng)用于自動(dòng)駕駛卡車、無(wú)人駕駛出租車、送貨機(jī)器人等多種場(chǎng)景，能夠減少人為錯(cuò)誤，提高道路安全。作為自動(dòng)駕駛系統(tǒng)的核心組成部分，車輛感知通過(guò)各種傳感器輸入幫助自動(dòng)駕駛汽車了解周圍環(huán)境。感知系統(tǒng)的輸入一般是多模態(tài)數(shù)據(jù)(來(lái)自攝像頭的圖像數(shù)據(jù)、來(lái)自LiDAR的點(diǎn)云、高精地圖等），并且會(huì)預(yù)測(cè)道路上關(guān)鍵要素的幾何和語(yǔ)義信息。高質(zhì)量的感知結(jié)果可作為軌跡預(yù)測(cè)和路徑規(guī)劃等后續(xù)步驟的可靠依據(jù)。

為了全面了解駕駛環(huán)境，感知系統(tǒng)涉及到許多視覺(jué)任務(wù)，例如目標(biāo)檢測(cè)和跟蹤、車道線檢測(cè)、語(yǔ)義和實(shí)例分割等。在這些感知任務(wù)中，3D目標(biāo)檢測(cè)是車輛感知系統(tǒng)中最不可或缺的任務(wù)之一。3D目標(biāo)檢測(cè)旨在預(yù)測(cè)3D空間中關(guān)鍵目標(biāo)的位置、大小和類別，例如機(jī)動(dòng)車、行人、騎自行車的人等。與僅在圖像上生成2D邊界框并忽略目標(biāo)與本車的實(shí)際距離信息的2D目標(biāo)檢測(cè)相比，3D目標(biāo)檢測(cè)側(cè)重于對(duì)真實(shí)世界3D坐標(biāo)系中目標(biāo)的定位和識(shí)別。3D目標(biāo)檢測(cè)在現(xiàn)實(shí)世界坐標(biāo)中預(yù)測(cè)的幾何信息可以直接用于測(cè)量本車與關(guān)鍵目標(biāo)之間的距離，并進(jìn)一步幫助規(guī)劃行駛路線和避免碰撞。

3D目標(biāo)檢測(cè)方法隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)和機(jī)器人領(lǐng)域的發(fā)展而迅猛發(fā)展?，F(xiàn)有的3D目標(biāo)檢測(cè)方法都試圖從特定方面解決3D目標(biāo)檢測(cè)問(wèn)題，例如從特定傳感器類型，數(shù)據(jù)表示等，與其他類別的方法缺乏系統(tǒng)的比較。因此綜合分析各種類型的3D目標(biāo)檢測(cè)方法的優(yōu)缺點(diǎn)，可以為相關(guān)研究人員提供一些參考?；诖四康?，本文全面回顧了自動(dòng)駕駛應(yīng)用中的3D目標(biāo)檢測(cè)方法，并對(duì)不同方法進(jìn)行深入分析和系統(tǒng)比較。與現(xiàn)有的綜述文章[5, 139, 215]相比，本文廣泛涵蓋了該領(lǐng)域的最新進(jìn)展，例如基于深度圖像的3D目標(biāo)檢測(cè)、自/半/弱監(jiān)督3D目標(biāo)檢測(cè)、端到端自動(dòng)駕駛系統(tǒng)中的3D目標(biāo)檢測(cè)等。與之前僅關(guān)注點(diǎn)云[88、73、338]、單目圖像[297、165]和多模態(tài)輸入[ 284]相比，我們的論文系統(tǒng)地研究了來(lái)自所有傳感器類型和大多數(shù)應(yīng)用場(chǎng)景的3D目標(biāo)檢測(cè)方法。

這項(xiàng)工作的主要貢獻(xiàn)可以總結(jié)如下：

我們從不同的角度全面回顧了3D目標(biāo)檢測(cè)方法，包括來(lái)自不同傳感器輸入的檢測(cè)（基于LiDAR、基于攝像頭和多模態(tài)）、時(shí)間序列檢測(cè)、標(biāo)簽高效檢測(cè)、以及3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。
我們從結(jié)構(gòu)和層次上總結(jié)了3D目標(biāo)檢測(cè)方法，對(duì)這些方法進(jìn)行了系統(tǒng)分析，并為不同類別方法的潛力和挑戰(zhàn)提供了有價(jià)值的見(jiàn)解。
對(duì)3D目標(biāo)檢測(cè)方法的綜合性能和速度進(jìn)行分析，確定多年來(lái)的研究趨勢(shì)，并為3D目標(biāo)檢測(cè)的未來(lái)方向提供深刻的見(jiàn)解。

本文的結(jié)構(gòu)安排如下：首先，第2節(jié)中介紹了3D目標(biāo)檢測(cè)問(wèn)題的定義、數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。然后，我們回顧和分析了基于LiDAR傳感器（第3節(jié)）、相機(jī)（第4節(jié)）和多模態(tài)數(shù)據(jù)輸入（第5節(jié)）。接下來(lái)，我們?cè)诘?節(jié)中介紹利用時(shí)空數(shù)據(jù)的檢測(cè)方法，并在第7節(jié)中使用較少有標(biāo)簽數(shù)據(jù)的方法。我們隨后在第8節(jié)中討論3D目標(biāo)檢測(cè)在駕駛系統(tǒng)中的應(yīng)用。最后，我們進(jìn)行速度和性能分析，對(duì)研究趨勢(shì)進(jìn)行了探討，并在第9節(jié)中展望3D目標(biāo)檢測(cè)的未來(lái)方向。分層結(jié)構(gòu)的分類如下圖所示。

3?背景

3D目標(biāo)檢測(cè)是什么？

1、定義

3D目標(biāo)檢測(cè)是通過(guò)輸入傳感器數(shù)據(jù)，預(yù)測(cè)3D目標(biāo)的屬性信息的任務(wù)。如何表示3D目標(biāo)的屬性信息是關(guān)鍵，因?yàn)楹罄m(xù)的預(yù)測(cè)和規(guī)劃需要這些信息。大部分情況下，3D目標(biāo)被定義為一個(gè)立方體，(x,y,z)是立方體的中心坐標(biāo)，l,w,h是長(zhǎng)寬高信息，delta是航向角，比如立方體在地平面的偏航角，class是3D目標(biāo)的類別。vx、vy描述3D目標(biāo)在地面上沿x軸和y軸方向的速度。在工業(yè)應(yīng)用中，一個(gè)3D目標(biāo)的參數(shù)可以進(jìn)一步簡(jiǎn)化為鳥(niǎo)瞰圖上一個(gè)長(zhǎng)方體的4個(gè)角位置。

2、傳感器輸入

許多類型的傳感器都可以為3D目標(biāo)檢測(cè)提供原始數(shù)據(jù)，相機(jī)和LiDAR（激光雷達(dá)）傳感器是兩種最常采用的傳感器類型。相機(jī)價(jià)格便宜且易于使用，并且可以從某個(gè)角度捕捉場(chǎng)景信息。相機(jī)產(chǎn)生圖像W×H×3用于3D目標(biāo)檢測(cè)，其中W和H是一幅圖像的寬高，每個(gè)像素有3個(gè)RGB通道。盡管價(jià)格便宜，但相機(jī)在用于3D目標(biāo)檢測(cè)方面存在內(nèi)在限制。首先，相機(jī)只捕捉外觀信息，不能直接獲取場(chǎng)景的3D結(jié)構(gòu)信息。另一方面，3D目標(biāo)檢測(cè)通常需要在3D空間中進(jìn)行準(zhǔn)確定位，而從圖像估計(jì)的3D信息（例如深度）通常具有較大的誤差。此外，基于圖像的檢測(cè)很容易受到極端天氣和時(shí)間條件的影響。在夜間或霧天從圖像中檢測(cè)目標(biāo)比在晴天檢測(cè)要困難得多，這樣的自動(dòng)駕駛系統(tǒng)無(wú)法保證魯棒性。

作為替代解決方案，LiDAR傳感器可以通過(guò)發(fā)射一束激光束，然后測(cè)量其反射信息來(lái)獲得場(chǎng)景的細(xì)粒度3D結(jié)構(gòu)信息。一個(gè)LiDAR傳感器在一個(gè)掃描周期內(nèi)發(fā)射光束并進(jìn)行多次測(cè)量可以產(chǎn)生一個(gè)深度圖像，每個(gè)深度圖的像素有3個(gè)通道，分別為球坐標(biāo)系中的深度r、方位角α和傾角φ。深度圖像是激光雷達(dá)傳感器獲取的原始數(shù)據(jù)格式，可以通過(guò)將球坐標(biāo)轉(zhuǎn)換為笛卡爾坐標(biāo)進(jìn)一步轉(zhuǎn)換為點(diǎn)云。一個(gè)點(diǎn)云可以表示為N×3，其中N表示一個(gè)場(chǎng)景中的點(diǎn)數(shù)，每個(gè)點(diǎn)有3個(gè)xyz坐標(biāo)通道。附加功能，例如反射強(qiáng)度，可以附加到每個(gè)點(diǎn)或深度圖像素。深度圖像和點(diǎn)云都包含由LiDAR傳感器直接獲取的準(zhǔn)確3D信息。因此，與相機(jī)相比，LiDAR傳感器更適合檢測(cè)3D空間中的目標(biāo)，并且LiDAR傳感器也更不易受時(shí)間和天氣變化的影響。然而，LiDAR傳感器比攝像頭貴得多，這限制了在駕駛場(chǎng)景中的大規(guī)模應(yīng)用。3D目標(biāo)檢測(cè)圖解，見(jiàn)下圖：

3、與2D目標(biāo)檢測(cè)的比較

旨在在圖像上生成2D邊界框的2D目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的一個(gè)基本問(wèn)題。3D目標(biāo)檢測(cè)方法借鑒了2D目標(biāo)檢測(cè)方法的許多設(shè)計(jì)范式：proposal generation and refinement、anchors、NMS 等。然而，從多方面來(lái)看，3D目標(biāo)檢測(cè)方法并不是2D目標(biāo)檢測(cè)方法對(duì)3D空間的簡(jiǎn)單適配。

3D目標(biāo)檢測(cè)方法必須處理多樣化的數(shù)據(jù)。點(diǎn)云檢測(cè)需要新的算子和網(wǎng)絡(luò)來(lái)處理不規(guī)則的點(diǎn)數(shù)據(jù)，而點(diǎn)云和圖像的檢測(cè)需要特殊的融合機(jī)制。
3D目標(biāo)檢測(cè)方法通常利用不同的投影視圖來(lái)生成目標(biāo)預(yù)測(cè)結(jié)果。與從透視圖檢測(cè)目標(biāo)的2D目標(biāo)檢測(cè)方法相反，3D方法必須考慮不同的視圖來(lái)檢測(cè)3D目標(biāo)，例如鳥(niǎo)瞰圖、點(diǎn)視圖、柱面視圖等。
3D目標(biāo)檢測(cè)對(duì)目標(biāo)在3D空間的準(zhǔn)確定位有很高的要求。分米級(jí)的定位誤差可能導(dǎo)致對(duì)行人和騎自行車的人等小目標(biāo)的檢測(cè)失敗，而在2D目標(biāo)檢測(cè)中，幾個(gè)像素的定位誤差可能仍然保持較高的IoU指標(biāo)（預(yù)測(cè)值和真值的IoU）。因此，不論是利用點(diǎn)云還是圖像進(jìn)行3D目標(biāo)檢測(cè)，準(zhǔn)確的3D幾何信息都是必不可少的。

4、與室內(nèi)3D目標(biāo)檢測(cè)對(duì)比

室內(nèi)3D目標(biāo)檢測(cè)也是3D目標(biāo)檢測(cè)的一個(gè)分支，室內(nèi)數(shù)據(jù)集比如SUN RGB-D [247]，利用RGB-D和3D標(biāo)注信息重建房間結(jié)構(gòu)，包括門、窗、床、椅子等。室內(nèi)場(chǎng)景中的3D目標(biāo)檢測(cè)也是基于點(diǎn)云或圖像。然而，與室內(nèi)3D目標(biāo)檢測(cè)相比，駕駛場(chǎng)景中存在獨(dú)特的挑戰(zhàn)。

自動(dòng)駕駛場(chǎng)景的檢測(cè)范圍遠(yuǎn)大于室內(nèi)場(chǎng)景。駕駛場(chǎng)景中的3D目標(biāo)檢測(cè)通常需要預(yù)測(cè)很大范圍內(nèi)的3D目標(biāo)，例如Waymo[250]中為150m×150m×6m，而室內(nèi)3D目標(biāo)檢測(cè)通常以房間為單位，而其中[54]大多數(shù)單人房間小于10m×10m×3m。那些在室內(nèi)場(chǎng)景中工作的時(shí)間復(fù)雜度高的方法在駕駛場(chǎng)景中可能無(wú)法表現(xiàn)出好的適應(yīng)能力。
LiDAR和RGB-D傳感器的點(diǎn)云分布不同。在室內(nèi)場(chǎng)景中，點(diǎn)在掃描表面上分布相對(duì)均勻，大多數(shù)3D目標(biāo)在其表面上可以接收到足夠數(shù)量的點(diǎn)。而在駕駛場(chǎng)景中，大多數(shù)點(diǎn)落在LiDAR傳感器附近，而那些遠(yuǎn)離傳感器的3D目標(biāo)僅接收到少量點(diǎn)。因此，駕駛場(chǎng)景中的方法特別需要處理3D目標(biāo)的各種點(diǎn)云密度，并準(zhǔn)確檢測(cè)那些遙遠(yuǎn)和稀疏的目標(biāo)。
駕駛場(chǎng)景中的檢測(cè)對(duì)推理延遲有特殊要求。駕駛場(chǎng)景中的感知必須是實(shí)時(shí)的，以避免事故。因此，這些方法需要及時(shí)高效，否則它們將無(wú)法落地。

數(shù)據(jù)集

自動(dòng)駕駛3D目標(biāo)檢測(cè)相關(guān)數(shù)據(jù)集較多，具體見(jiàn)下表。主要的數(shù)據(jù)集建立需要繼續(xù)干以下四件事：

增大數(shù)據(jù)規(guī)模。
增加數(shù)據(jù)多樣性，不只有白天夜晚，還要包括陰天、雨天、雪天、霧天等。
增加標(biāo)注類別，除了常用的機(jī)動(dòng)車、行人、非機(jī)動(dòng)車等，還應(yīng)包括動(dòng)物，路上的障礙物等。
增加多模態(tài)數(shù)據(jù)，不只有點(diǎn)云和圖像數(shù)據(jù)，還有高精地圖、雷達(dá)數(shù)據(jù)、遠(yuǎn)程激光雷達(dá)、熱成像數(shù)據(jù)等。

未來(lái)的數(shù)據(jù)集應(yīng)該包括感知、預(yù)測(cè)、規(guī)劃、建圖等一整套數(shù)據(jù)，這樣可以為端到端的自動(dòng)駕駛系統(tǒng)服務(wù)，而不僅僅是考慮一個(gè)3D目標(biāo)檢測(cè)任務(wù)。

評(píng)價(jià)標(biāo)準(zhǔn)

針對(duì)3D目標(biāo)檢測(cè)的評(píng)價(jià)，一種是將2D任務(wù)的AP指標(biāo)擴(kuò)展到3D，比如KITTI就包括 AP-3D、AP-BEV指標(biāo)，分別用到預(yù)測(cè)值與真值的3D-IoU、BEV-IoU來(lái)衡量。其它比如基于中心距離的匹配，或者匈牙利匹配等。另一種則通過(guò)下游任務(wù)來(lái)衡量，只有對(duì)下游任務(wù)（運(yùn)動(dòng)規(guī)劃）有幫助的檢測(cè)方法，才能在實(shí)際應(yīng)用中確保駕駛安全。包括PKL[230]和SDE[56]等工作。

不同評(píng)價(jià)指標(biāo)的利弊?；贏P的評(píng)價(jià)指標(biāo)[80,15,250]自然繼承了2D檢測(cè)的優(yōu)勢(shì)。然而，這些指標(biāo)忽略了檢測(cè)對(duì)駕駛安全的影響，而這在現(xiàn)實(shí)應(yīng)用中至關(guān)重要。例如，在AP計(jì)算中，本車附近的目標(biāo)漏檢和本車遠(yuǎn)一點(diǎn)的目標(biāo)漏檢可能都只是一個(gè)漏檢，但在實(shí)際應(yīng)用中，近處的目標(biāo)漏檢實(shí)質(zhì)上比遠(yuǎn)處的目標(biāo)漏檢更危險(xiǎn)。

因此，從安全駕駛的角度來(lái)看，基于AP的指標(biāo)可能不是最優(yōu)選擇。PKL[203]和SDE[56]通過(guò)考慮下游任務(wù)中檢測(cè)的影響，部分解決了這個(gè)問(wèn)題，但在對(duì)這些影響建模時(shí)將引入額外的挑戰(zhàn)。PKL[203]需要一個(gè)預(yù)先訓(xùn)練的運(yùn)動(dòng)規(guī)劃器來(lái)評(píng)估檢測(cè)性能，但預(yù)先訓(xùn)練的規(guī)劃器也有固有誤差，可能會(huì)使評(píng)估過(guò)程不準(zhǔn)確。SDE[56]需要重構(gòu)目標(biāo)邊界，這通常是復(fù)雜和具有挑戰(zhàn)性的。

4?基于LiDAR的3D目標(biāo)檢測(cè)

激光雷達(dá)數(shù)據(jù)主要包括點(diǎn)云、深度圖數(shù)據(jù)等，以下時(shí)間軸將較為經(jīng)典的算法做了個(gè)列舉。

3D目標(biāo)檢測(cè)的數(shù)據(jù)表示

點(diǎn)云數(shù)據(jù)和深度圖數(shù)據(jù)與一般的圖像不同。點(diǎn)云是稀疏、不規(guī)則的，需要設(shè)計(jì)特殊模型提取特征。而深度圖是密集緊湊，深度像素存的是3D信息，而不是RGB值。這些都是需要打破原先的常規(guī)卷積網(wǎng)絡(luò)的固有思維，而且自動(dòng)駕駛需要檢測(cè)目標(biāo)的實(shí)時(shí)性，推理要快，如何設(shè)計(jì)一個(gè)在點(diǎn)云和深度圖上推理更快的模型也是一個(gè)挑戰(zhàn)。

1、基于點(diǎn)的3D目標(biāo)檢測(cè)

基于點(diǎn)的目標(biāo)檢測(cè)成功在點(diǎn)云上應(yīng)用深度學(xué)習(xí)方法，提出了一系列框架，可以直接從原始點(diǎn)數(shù)據(jù)來(lái)預(yù)測(cè)3D目標(biāo)。將點(diǎn)云通過(guò)基于點(diǎn)的主干網(wǎng)絡(luò)，通過(guò)點(diǎn)云算子來(lái)提取點(diǎn)云特征，基于下采樣的點(diǎn)和特征預(yù)測(cè)3D框?；邳c(diǎn)的3D目標(biāo)檢測(cè)器主要組成部分為：點(diǎn)云采樣和特征學(xué)習(xí)。整體流程示意圖和代表性工作見(jiàn)下圖和表。

點(diǎn)云采樣。PointNet++[208]的FPS在基于點(diǎn)的檢測(cè)器中被廣泛采用，這種檢測(cè)器從原始點(diǎn)集中依次選擇最遠(yuǎn)處的點(diǎn)。PointRCNN[234]是一項(xiàng)開(kāi)創(chuàng)性的工作，它采用FPS逐步下采樣輸入的點(diǎn)云，并從下采樣點(diǎn)中生成3D候選。類似的設(shè)計(jì)范式在隨后的許多工作中也被采用，并進(jìn)行了分割引導(dǎo)濾波[318]、特征空間抽樣[321]、隨機(jī)抽樣[189]等改進(jìn)。

特征學(xué)習(xí)。上下文點(diǎn)首先用一個(gè)預(yù)定義的查詢球半徑進(jìn)行選擇，然后上下文點(diǎn)和特征經(jīng)過(guò)多層感知機(jī)和max-pooling，得到新的特征。其它點(diǎn)云操作，包括圖操作、注意力操作、Transformer等。

基于點(diǎn)的3D目標(biāo)檢測(cè)器受制于特征學(xué)習(xí)中采用的上下文點(diǎn)數(shù)量和上下文半徑。增加上下文點(diǎn)數(shù)量可以獲得更強(qiáng)的表達(dá)能力，但會(huì)增加內(nèi)存，在球查詢中，上下文半徑太小，會(huì)造成上下文信息不足，半徑太大，造成3D細(xì)粒度信息丟失。

對(duì)于大部分的基于點(diǎn)的3D目標(biāo)檢測(cè)器，推理時(shí)間上的瓶頸是點(diǎn)云采樣。隨機(jī)均勻采樣因?yàn)榭梢圆⑿?，效率最高，但激光雷達(dá)掃描點(diǎn)分布不均勻，隨機(jī)均勻采樣會(huì)對(duì)點(diǎn)云密度高的地方過(guò)采樣，而稀疏的地方欠采樣。最遠(yuǎn)點(diǎn)采樣及其變體通過(guò)從已有的點(diǎn)集中依次選擇最遠(yuǎn)點(diǎn)獲得更加均勻的采樣結(jié)果，但其不能并行，耗時(shí)較大，較難做到實(shí)時(shí)。

2、基于網(wǎng)格的3D目標(biāo)檢測(cè)

基于網(wǎng)格的3D目標(biāo)檢測(cè)器首先將點(diǎn)云柵格化為離散的網(wǎng)格表示，即體素、柱體和鳥(niǎo)瞰視圖(BEV)特征圖。然后應(yīng)用傳統(tǒng)的2D卷積神經(jīng)網(wǎng)絡(luò)或3D稀疏神經(jīng)網(wǎng)絡(luò)提取特征。最后，可以從BEV網(wǎng)格中檢測(cè)出3D目標(biāo)。下圖展示了基于網(wǎng)格的3D目標(biāo)檢測(cè)的示例，下表給出了基于網(wǎng)格的檢測(cè)器的分類。網(wǎng)格檢測(cè)有兩個(gè)基本組成部分:基于網(wǎng)格的表示和基于網(wǎng)格的神經(jīng)網(wǎng)絡(luò)。

基于網(wǎng)格的表示。目前有3種主要的網(wǎng)格表示類型:體素、柱體和BEV特征圖。

體素。體素是3D立方體，體素細(xì)胞內(nèi)包含點(diǎn)。點(diǎn)云可以很容易地通過(guò)體素化轉(zhuǎn)化為體素。由于點(diǎn)云分布稀疏，3D空間中的大部分體素細(xì)胞都是空的，不包含點(diǎn)。在實(shí)際應(yīng)用中，只有那些非空體素被存儲(chǔ)并用于特征提取。VoxelNet[359]是一項(xiàng)利用稀疏體素網(wǎng)格的開(kāi)創(chuàng)性工作，提出了一種新的體素特征編碼(VFE)層，從體素細(xì)胞內(nèi)的點(diǎn)提取特征。此外，還有兩類方法試圖改進(jìn)用于3D目標(biāo)檢測(cè)的體素表示:

多視圖體素。一些方法從不同的視角提出了一種動(dòng)態(tài)體素化和融合方案，例如從鳥(niǎo)瞰圖和透視圖[360]，從圓柱形和球形視圖[34]，從深度視圖[59]等。
多尺度體素。一些論文生成不同尺度的體素[323]或使用可重構(gòu)體素。

柱體。柱體可以被視為特殊的體素，其中體素的大小在垂直方向上是無(wú)限的。通過(guò)PointNet將點(diǎn)聚集成柱狀特征[207]，再將其分散回去，構(gòu)建二維BEV圖像進(jìn)行特征提取。PointPillars[117]是一個(gè)開(kāi)創(chuàng)性的工作，介紹了柱體表示，隨后的是[283,68]。

BEV特征圖。鳥(niǎo)瞰特征圖是一種密集的二維表示，其中每個(gè)像素對(duì)應(yīng)一個(gè)特定的區(qū)域，并對(duì)該區(qū)域內(nèi)的點(diǎn)信息進(jìn)行編碼。BEV特征圖可以由體素和柱體投影到鳥(niǎo)瞰圖中獲得，也可以通過(guò)匯總像素區(qū)域內(nèi)的點(diǎn)統(tǒng)計(jì)數(shù)據(jù)，直接從原始點(diǎn)云中獲得。常用的統(tǒng)計(jì)數(shù)據(jù)包括二進(jìn)制占用率[314,313,2]和局部點(diǎn)云高度和密度[40,10,342,3,245,346,8,119]。

基于網(wǎng)格的神經(jīng)網(wǎng)絡(luò)。目前主要有兩種基于網(wǎng)格的網(wǎng)絡(luò)：用于BEV特征圖和柱體的2D卷積神經(jīng)網(wǎng)絡(luò)，以及用于體素的3D稀疏神經(jīng)網(wǎng)絡(luò)。

與BEV特征圖和柱體2D表示相比，體素包含更多結(jié)構(gòu)化的3D信息。此外，可以通過(guò)3D稀疏網(wǎng)絡(luò)學(xué)習(xí)深度體素特征。但是，3D神經(jīng)網(wǎng)絡(luò)會(huì)帶來(lái)額外的時(shí)間和內(nèi)存成本。BEV特征圖是最有效的網(wǎng)格表示，它直接將點(diǎn)云投影到2D偽圖像中，而無(wú)需專門的3D算子，如稀疏卷積或柱體編碼。2D檢測(cè)方法也可以在BEV特征圖上無(wú)縫應(yīng)用，無(wú)需太多修改。

基于BEV的檢測(cè)方法通?？梢垣@得高效率和實(shí)時(shí)推理速度。然而，簡(jiǎn)單地匯總像素區(qū)域內(nèi)的點(diǎn)統(tǒng)計(jì)信息會(huì)丟失太多的3D信息，與基于體素的檢測(cè)相比，這會(huì)導(dǎo)致檢測(cè)結(jié)果不太準(zhǔn)確。

基于柱體的檢測(cè)方法利用PointNet對(duì)柱體單元內(nèi)的3D點(diǎn)信息進(jìn)行編碼，然后將特征分散回2D偽圖像中進(jìn)行有效檢測(cè)，從而平衡3D目標(biāo)檢測(cè)的效果和效率。

選擇合適大小的網(wǎng)格單元是所有基于網(wǎng)格的方法都必須面對(duì)的關(guān)鍵問(wèn)題。通過(guò)將連續(xù)點(diǎn)坐標(biāo)轉(zhuǎn)換為離散網(wǎng)格索引，網(wǎng)格表示本質(zhì)上是點(diǎn)云的離散形式。在轉(zhuǎn)換過(guò)程中不可避免地會(huì)丟失一些3D信息，其效果很大程度上取決于網(wǎng)格單元的大?。壕W(wǎng)格小，分辨率高，可以保持更細(xì)粒度的細(xì)節(jié)，對(duì)于準(zhǔn)確檢測(cè)3D目標(biāo)至關(guān)重要。然而，減小網(wǎng)格單元又會(huì)導(dǎo)致2D網(wǎng)格表示（如BEV特征圖或柱體）的內(nèi)存消耗呈二次方增長(zhǎng)。至于像體素這樣的3D網(wǎng)格表示，問(wèn)題可能會(huì)變得更加嚴(yán)重。因此，如何平衡更小網(wǎng)格尺寸帶來(lái)的效果和內(nèi)存增加影響效率，仍然是所有基于網(wǎng)格的3D目標(biāo)檢測(cè)方法的一個(gè)挑戰(zhàn)。

3、基于Point-Voxel的3D目標(biāo)檢測(cè)方法

基于點(diǎn)-體素的方法采用了一種混合架構(gòu)，利用點(diǎn)和體素進(jìn)行3D目標(biāo)檢測(cè)。主要分為兩類:單階段檢測(cè)框架和兩階段檢測(cè)框架。下圖顯示了這兩個(gè)類別的示例及分類：

單階段基于點(diǎn)-體素的3D目標(biāo)檢測(cè)器通過(guò)骨干網(wǎng)絡(luò)中的點(diǎn)-體素和體素-點(diǎn)的變換來(lái)連接點(diǎn)和體素的特征。點(diǎn)包含細(xì)粒度的幾何信息，體素計(jì)算效率高，在特征提取階段將它們結(jié)合在一起更加有利。代表性工作包括：PVCNN、SPVNAS、SA-SSD、PVGNet等。

兩階段的基于點(diǎn)-體素的3D目標(biāo)檢測(cè)器，在第一階段，使用基于體素的檢測(cè)器來(lái)生成一組3D候選目標(biāo)。在第二階段，首先從輸入點(diǎn)云中采樣關(guān)鍵點(diǎn)，然后通過(guò)新的點(diǎn)算子對(duì)關(guān)鍵點(diǎn)進(jìn)行進(jìn)一步細(xì)化。代表工作包括：PV-RCNN、LiDAR R-CNN、Pyramid R-CNN、CT3D等等。

與純體素檢測(cè)方法相比，基于點(diǎn)-體素的3D目標(biāo)檢測(cè)方法在增加推理時(shí)間的同時(shí)，可以獲得更好的檢測(cè)精度。

4、基于Range的3D目標(biāo)檢測(cè)

Range圖像是一種密集而緊湊的2D表示，其中每個(gè)像素包含3D深度信息，而不是RGB值。需要針對(duì)Range圖設(shè)計(jì)模型和算子，并要選擇合適的視圖。

Range圖是2D的，可以借鑒2D目標(biāo)檢測(cè)方法，比如LaserNet，還有一些借鑒了U-Net、RPN、R-CNN、FCN、FPN等。

Range圖的像素包含的是距離信息，而非顏色值，因此傳統(tǒng)的2D標(biāo)準(zhǔn)卷積算子無(wú)法完全適用，滑動(dòng)窗口中的像素在3D空間中可能會(huì)相距很遠(yuǎn)。一些工作采用了新算子來(lái)有效地從Range像素中提取特征，包括深度擴(kuò)張卷積[11]、圖算子[26]和元核卷積[67]等。

Range圖是從Range視圖（Range View）中獲取的，RangeView是點(diǎn)云的球面投影。對(duì)于許多基于深度的方法[178,11,67,26]來(lái)說(shuō)，直接從Range視圖檢測(cè)3D目標(biāo)是很自然的。然而，從Range視圖進(jìn)行檢測(cè)不可避免地會(huì)遇到球面投影所帶來(lái)的遮擋和尺度變化問(wèn)題。為了規(guī)避這些問(wèn)題，許多方法嘗試?yán)闷渌晥D來(lái)預(yù)測(cè)3D目標(biāo)，例如[219]中利用的圓柱形視圖(CYV)，其它方案嘗試Range視圖和鳥(niǎo)瞰視圖(BEV)、點(diǎn)視圖(PV)的組合。

Range視圖由于可以借鑒2D卷積的優(yōu)點(diǎn)，做特征提取比較好，但由于遮擋和尺度問(wèn)題，直接在上面做檢測(cè)效果不好，需要結(jié)合BEV來(lái)做檢測(cè)，所以現(xiàn)在一般是Range圖做特征提取，BEV上做檢測(cè)。

3D目標(biāo)檢測(cè)的學(xué)習(xí)目標(biāo)

3D目標(biāo)檢測(cè)的學(xué)習(xí)目標(biāo)主要是針對(duì)小目標(biāo)（相比檢測(cè)范圍，目標(biāo)太?。?，另一方面是由于點(diǎn)云的稀疏性，如何準(zhǔn)確估計(jì)其目標(biāo)的中心和尺寸也是一個(gè)長(zhǎng)期挑戰(zhàn)。

1、Anchor-based方法

anchor是預(yù)定義的長(zhǎng)方體，具有固定的形狀，可以放置在3D空間中。3D目標(biāo)可以基于正anchor進(jìn)行預(yù)測(cè)，這些正anchor與GT的IoU最大。anchor-based的3D目標(biāo)檢測(cè)方法一般是從鳥(niǎo)瞰圖上檢測(cè)3D目標(biāo)，將3D anchor放置在BEV特征圖的每個(gè)網(wǎng)格單元上進(jìn)行。3D anchor通常對(duì)于每個(gè)類別都有一個(gè)固定的尺寸，因?yàn)橥活悇e的目標(biāo)有相似的大小。

anchor-based的損失函數(shù)包括了分類損失、回歸損失、偏航角損失等。分類損失常用的是二值交叉熵、Focal loss，回歸則是SmoothL1，航向角需要注意使用bin-based航向估計(jì)較好。除了這些單獨(dú)的損失函數(shù)外，將整個(gè)3D目標(biāo)作為整體去考慮，也有使用IoU loss的，再輔以corner loss，讓3D目標(biāo)的檢測(cè)更加穩(wěn)定。

下面是anchor-based方法的示意圖和主要目標(biāo)損失函數(shù)：

2、Anchor-free方法

anchor-free方法去掉了復(fù)雜的anchor設(shè)計(jì)階段，可靈活應(yīng)用于BEV、點(diǎn)視圖和Range視圖等。沒(méi)有了anchor，就需要找其它正負(fù)樣本分配方法。比如基于一些網(wǎng)格（BEV網(wǎng)格單元、體素、柱體）進(jìn)行分配正負(fù)樣本，比如PIXOR、CenterPoint等。還有基于點(diǎn)的分配策略，大部分都是先將前景點(diǎn)分割出來(lái)，在3D目標(biāo)內(nèi)或附近的作為正樣本，并學(xué)習(xí)這些前景點(diǎn)?；赗ange的分配主要是將Range像素在3D目標(biāo)內(nèi)的作為正樣本，并且回歸的時(shí)候不是以整個(gè)3D坐標(biāo)系統(tǒng)為基礎(chǔ)，而是以目標(biāo)為中心的回歸坐標(biāo)系。DETR提出了一種集合到集合的分配方式，利用匈牙利算法預(yù)測(cè)結(jié)果自動(dòng)分配到對(duì)應(yīng)的GT。

anchor-free方法設(shè)計(jì)靈活，不引入其它先驗(yàn)，學(xué)習(xí)過(guò)程簡(jiǎn)化了很多，其中基于中心的方法[329]對(duì)小目標(biāo)檢測(cè)有較大潛力可挖。雖然優(yōu)點(diǎn)不少，但不可否認(rèn)，anchor-free方法如何選擇合適的正樣本來(lái)生成預(yù)測(cè)結(jié)果是個(gè)問(wèn)題，相比于anchor-based中使用高IoU正樣本，anchor-free可能會(huì)選到一些不好的正樣本，造成預(yù)測(cè)結(jié)果出現(xiàn)偏差。

下面顯示了anchor-free方法和一些里程碑方法。

3、利用輔助任務(wù)的3D目標(biāo)檢測(cè)

利用輔助任務(wù)來(lái)增強(qiáng)3D目標(biāo)的空間特征，并能對(duì)3D目標(biāo)檢測(cè)提供一些隱性的指導(dǎo)。常用的輔助任務(wù)包括：語(yǔ)義分割、IoU分支預(yù)測(cè)、目標(biāo)形狀補(bǔ)全、部件識(shí)別。

語(yǔ)義分割。前景分割可以提供目標(biāo)的位置隱含信息；利用語(yǔ)義上下文知識(shí)可以增強(qiáng)空間特征；語(yǔ)義分割可以作為預(yù)處理方法，過(guò)濾背景樣本，提升3D檢測(cè)效率。

IoU預(yù)測(cè)分支可以輔助校正目標(biāo)的置信度，比如預(yù)測(cè)置信度可以用分類置信度和IoU值的乘積來(lái)表示。經(jīng)過(guò)IoU分支的校正，更容易選擇高質(zhì)量的3D目標(biāo)作為最終預(yù)測(cè)結(jié)果。

形狀補(bǔ)全，因?yàn)辄c(diǎn)云具有稀疏性，遠(yuǎn)處的目標(biāo)只能接收幾個(gè)點(diǎn)，因此從稀疏點(diǎn)云中補(bǔ)全目標(biāo)形狀可以為后面的檢測(cè)提供幫助。

識(shí)別目標(biāo)內(nèi)部的零部件有助于3D目標(biāo)檢測(cè)，部件可以揭示細(xì)粒度3D信息。

除此之外，還有一些比如場(chǎng)景流估計(jì)可以識(shí)別靜態(tài)和動(dòng)態(tài)目標(biāo)，可以在點(diǎn)云序列中跟蹤同一個(gè)3D目標(biāo)，可以得到該目標(biāo)更準(zhǔn)確的估計(jì)。

5?基于相機(jī)的3D目標(biāo)檢測(cè)

主要的基于相機(jī)的3D目標(biāo)檢測(cè)方案分為：?jiǎn)文?D、雙目、多相機(jī)3D等，具體看下圖的分類：

單目3D目標(biāo)檢測(cè)

本身從單目圖像中檢測(cè)3D空間的目標(biāo)是一個(gè)病態(tài)問(wèn)題，因?yàn)閱文繜o(wú)法提供足夠的3D信息，很難預(yù)測(cè)3D目標(biāo)準(zhǔn)確的位置信息。很多方法利用幾何約束和形狀先驗(yàn)從圖像中推斷深度信息，也是一種優(yōu)化單目3D目標(biāo)定位問(wèn)題的思路。但是和激光雷達(dá)比，還是相差較遠(yuǎn)。

1、純圖像單目3D檢測(cè)

受到2D檢測(cè)方法的啟發(fā)，單目3D目標(biāo)檢測(cè)最直接的解決方案是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)從圖像中直接回歸3D框參數(shù)。直接回歸的方法借鑒了2D檢測(cè)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)，可以端到端訓(xùn)練。這些方法可以分為單階段、兩階段，或anchor-based/anchor-free方法。

基于anchor的方法主要預(yù)先設(shè)置好3D-anchor、2D-anchor、深度anchor，然后圖像經(jīng)過(guò)卷積網(wǎng)絡(luò)后得到2D和3D的預(yù)測(cè)偏置，最終解碼及轉(zhuǎn)換過(guò)程如下所示：

anchor-free的方法也是通過(guò)2D卷積對(duì)圖像進(jìn)行處理，利用多個(gè)頭去預(yù)測(cè)3D目標(biāo)。具體包括一個(gè)分類頭、一個(gè)關(guān)鍵點(diǎn)頭預(yù)測(cè)粗粒度中心點(diǎn)、一個(gè)預(yù)測(cè)基于粗粒度中心點(diǎn)的偏置的頭、預(yù)測(cè)深度的頭、預(yù)測(cè)目標(biāo)尺寸的頭以及預(yù)測(cè)觀測(cè)角的頭。

兩階段單目檢測(cè)方法通常將傳統(tǒng)的兩階段2D檢測(cè)體系擴(kuò)展到3D目標(biāo)檢測(cè)。具體來(lái)說(shuō)，在第一階段利用2D檢測(cè)器從輸入圖像生成2D目標(biāo)框。然后在第二階段，通過(guò)從2D ROI中預(yù)測(cè)3D目標(biāo)參數(shù)，將2D框提升到3D空間。ROI-10D[168]擴(kuò)展了傳統(tǒng)的Faster RCNN[222]，在第二階段用一種新穎的頭來(lái)預(yù)測(cè)3D目標(biāo)參數(shù)。

基于純圖像的方法可以直接使用2D目標(biāo)檢測(cè)的最新進(jìn)展，而且價(jià)格便宜，可以端到端訓(xùn)練，效率也很高。只是從單張圖像預(yù)測(cè)深度比較困難。

下圖及表展示了相關(guān)方法：

2、深度輔助的單目3D檢測(cè)

深度估計(jì)是單目3D目標(biāo)檢測(cè)的關(guān)鍵。為了獲得更準(zhǔn)確的單目檢測(cè)結(jié)果，許多論文采用預(yù)訓(xùn)練輔助深度估計(jì)網(wǎng)絡(luò)的方法。具體來(lái)說(shuō)，單目圖像首先通過(guò)預(yù)訓(xùn)練的深度估計(jì)器，如MonoDepth[83]或DORN[76]，生成深度圖像。然后，主要有兩類方法處理深度圖像和單目圖像?；谏疃葓D像的方法將圖像和深度映射與專門的神經(jīng)網(wǎng)絡(luò)融合，生成深度感知特征，可以提高檢測(cè)性能。基于偽激光雷達(dá)的方法將深度圖像轉(zhuǎn)換為偽激光雷達(dá)點(diǎn)云，然后在點(diǎn)云上應(yīng)用基于激光雷達(dá)的3D檢測(cè)器來(lái)檢測(cè)3D目標(biāo)。具體如下表及圖所示。

3、先驗(yàn)引導(dǎo)的單目3D檢測(cè)

許多方法利用圖像中目標(biāo)的形狀和場(chǎng)景幾何等先驗(yàn)知識(shí)，解決病態(tài)的單目3D目標(biāo)檢測(cè)問(wèn)題。通過(guò)引入預(yù)訓(xùn)練的子網(wǎng)絡(luò)或輔助任務(wù)來(lái)學(xué)習(xí)先驗(yàn)知識(shí)，這些子網(wǎng)絡(luò)或輔助任務(wù)可以提供額外的信息或約束來(lái)幫助精確定位3D目標(biāo)。廣泛采用的先驗(yàn)知識(shí)包括目標(biāo)形狀、幾何一致性、時(shí)間約束和分割信息。如下表所示。

通過(guò)重建目標(biāo)形狀，可以從圖像中獲得更詳細(xì)的目標(biāo)形狀信息，有利于3D目標(biāo)檢測(cè)。但形狀重建通常需要增加重建網(wǎng)絡(luò)預(yù)訓(xùn)練模型，單目檢測(cè)流程無(wú)法做到端到端訓(xùn)練。而且目標(biāo)的形狀通常是從CAD模型而不是現(xiàn)實(shí)世界的實(shí)例中學(xué)習(xí)的，重建的目標(biāo)形狀和真實(shí)場(chǎng)景有較大差異。

采用幾何一致性，有助于提高檢測(cè)精度。然而，一些方法將幾何一致性表示為一個(gè)優(yōu)化問(wèn)題，在后處理中優(yōu)化目標(biāo)參數(shù)會(huì)比較耗時(shí)，阻礙了端到端訓(xùn)練。

圖像分割是單目3D檢測(cè)中的重要信息。然而，訓(xùn)練分割網(wǎng)絡(luò)需要的標(biāo)注樣本比較貴。用外部數(shù)據(jù)集預(yù)訓(xùn)練的分割模型存在泛化問(wèn)題。

4、基于雙目的3D目標(biāo)檢測(cè)

基于雙目的3D目標(biāo)檢測(cè)是指從一對(duì)圖像中檢測(cè)出3D物體。與單目圖像相比，雙目提供了額外的幾何約束，可用于推斷更準(zhǔn)確的深度信息。基于雙目方法通常比基于單目的方法獲得更好的檢測(cè)性能。當(dāng)然，基于雙目的方法與基于激光雷達(dá)的方法在性能上仍有很大的差距。

雙目方法與單目檢測(cè)方法相比，可以通過(guò)立體匹配技術(shù)獲得更精確的深度和視差估計(jì)，從而帶來(lái)更強(qiáng)的目標(biāo)定位能力，顯著提高了3D目標(biāo)檢測(cè)能力。具體方法見(jiàn)下圖及表。

5、基于多相機(jī)的3D目標(biāo)檢測(cè)

自動(dòng)駕駛汽車通常會(huì)配備多個(gè)攝像頭，從多個(gè)視角獲取完整的周邊環(huán)境信息。然而，如何利用多視圖圖像進(jìn)行3D目標(biāo)檢測(cè)還沒(méi)有得到廣泛的研究。多攝像頭3D目標(biāo)測(cè)的一個(gè)關(guān)鍵問(wèn)題是如何識(shí)別不同圖像中的同一目標(biāo)，并從多視角輸入中聚合目標(biāo)特征。

一些論文通過(guò)利用跨視圖幾何約束[227]或目標(biāo)重識(shí)別[52]來(lái)解決多視圖目標(biāo)定位問(wèn)題。其他工作通過(guò)引入3D目標(biāo)查詢從不同視圖裁剪圖像特征[286]或轉(zhuǎn)換不同視圖的特征來(lái)處理多視圖特征聚合問(wèn)題。

6?基于多模態(tài)的3D目標(biāo)檢測(cè)

主要介紹LiDAR-相機(jī)、雷達(dá)、地圖融合等方法。主要方法及融合策略見(jiàn)下圖及表。

基于LiDAR-相機(jī)融合的多模態(tài)檢測(cè)

相機(jī)可以提供顏色信息，從中提取豐富的語(yǔ)義特征，而LiDAR傳感器擅長(zhǎng)3D定位，提供豐富的3D結(jié)構(gòu)信息。很多工作已經(jīng)能夠?qū)⑾鄼C(jī)和激光雷達(dá)信息進(jìn)行融合來(lái)提升3D目標(biāo)檢測(cè)精度。由于基于LiDAR的檢測(cè)方法比基于相機(jī)的檢測(cè)方法性能要好得多，目前SOTA方法主要是基于激光雷達(dá)的檢測(cè)方法，并嘗試將圖像信息融入到不同階段的激光雷達(dá)檢測(cè)流程中。鑒于基于LiDAR和基于相機(jī)的檢測(cè)系統(tǒng)的復(fù)雜性，將兩種模式結(jié)合在一起不可避免地會(huì)帶來(lái)額外的計(jì)算開(kāi)銷和推斷時(shí)間延遲。因此，如何有效地融合多模態(tài)信息仍然是具有挑戰(zhàn)性的。

1、前融合方法

前融合指的是在點(diǎn)云還沒(méi)有進(jìn)入基于LiDAR的檢測(cè)器前，將圖像的知識(shí)整合到點(diǎn)云中。因此，前融合框架一般采用順序構(gòu)建的方式：首先利用2D檢測(cè)或分割網(wǎng)絡(luò)從圖像中提取知識(shí)，然后將圖像知識(shí)傳遞給點(diǎn)云，最后將增強(qiáng)后的點(diǎn)云反饋給基于LiDAR的點(diǎn)云3D目標(biāo)檢測(cè)器。根據(jù)融合類型的不同，前融合方法可分為區(qū)域級(jí)知識(shí)融合和點(diǎn)級(jí)知識(shí)融合兩類，具體見(jiàn)下圖。

前融合主要是通過(guò)圖像知識(shí)來(lái)增強(qiáng)點(diǎn)云，大多數(shù)方法都兼容大部分的LiDAR 3D目標(biāo)檢測(cè)器，并可以作為一種相當(dāng)有效的預(yù)處理步驟，以提高檢測(cè)性能。然而，前融合方法通常是順序進(jìn)行多模態(tài)融合和3D目標(biāo)檢測(cè)的，這帶來(lái)了額外的推理延遲?？紤]到融合步驟通常需要復(fù)雜的2D目標(biāo)檢測(cè)或語(yǔ)義分割網(wǎng)絡(luò)，多模態(tài)融合帶來(lái)的時(shí)間成本通常很高。因此，如何在前期有效地進(jìn)行多模態(tài)融合成為關(guān)鍵。

2、中融合方法

中融合方法試圖在基于LiDAR的3D目標(biāo)檢測(cè)器的中間階段，例如在骨干網(wǎng)絡(luò)中，在proposal生成階段，或在RoI細(xì)化階段，融合圖像和激光雷達(dá)特征。具體分類見(jiàn)下圖。

中融合方法建議對(duì)多模態(tài)表示進(jìn)行更深入的融合，并產(chǎn)生更高質(zhì)量的3D框。然而，相機(jī)和激光雷達(dá)的特征本質(zhì)上是異構(gòu)的，來(lái)自不同的視角，因此在融合機(jī)制和視角對(duì)齊方面還存在一些問(wèn)題。因此，如何有效地融合異構(gòu)數(shù)據(jù)，以及如何處理來(lái)自多個(gè)視角的特征聚合，仍然是研究領(lǐng)域面臨的挑戰(zhàn)。

3、后融合方法

后融合就是將圖像得到的2D結(jié)果和LiDAR得到的3D結(jié)果進(jìn)行融合的方法。該方法采用相機(jī)與激光雷達(dá)并行進(jìn)行目標(biāo)檢測(cè)，并將輸出的2D和3D框進(jìn)行融合，得到更精確的3D檢測(cè)結(jié)果。CLOCs[194]引入了一個(gè)包含成對(duì)的2D-3D框的稀疏張量，并從這個(gè)稀疏張量學(xué)習(xí)最終的目標(biāo)置信度。[195]改進(jìn)了[194]，引入了一種輕量級(jí)的3D檢測(cè)器提示圖像檢測(cè)器。下圖為后融合示意圖。

后融合方法以實(shí)例級(jí)融合為核心，僅對(duì)不同模態(tài)的輸出進(jìn)行多模態(tài)融合，避免了中間特征或輸入點(diǎn)云上復(fù)雜的交互。因此，這些方法比其他方法更有效。然而，由于不依賴于相機(jī)和激光雷達(dá)傳感器的深度特征，這些方法無(wú)法整合不同模式的豐富語(yǔ)義信息，限制了這類方法的潛力。

基于雷達(dá)信號(hào)的多模態(tài)檢測(cè)

在自動(dòng)駕駛系統(tǒng)中，雷達(dá)不可缺少，相比LiDAR，在實(shí)際應(yīng)用中主要有四點(diǎn)優(yōu)勢(shì)：便宜、不太容易受到極端天氣影響、探測(cè)距離較大、提供額外的速度測(cè)量。然而，與產(chǎn)生密集點(diǎn)云的激光雷達(dá)相比，雷達(dá)只提供稀疏和有噪聲的測(cè)量。主要的融合方式包括雷達(dá)-LiDAR融合、雷達(dá)-相機(jī)融合。

結(jié)合高精地圖的多模態(tài)檢測(cè)

高精地圖(HD maps)包含道路形狀、道路標(biāo)記、交通標(biāo)志、障礙物等詳細(xì)的道路信息。高精地圖提供了豐富的周圍環(huán)境語(yǔ)義信息，可以作為輔助3D目標(biāo)檢測(cè)的有力手段。如何將地圖信息整合到3D目標(biāo)檢測(cè)器中呢？高精地圖可以很容易地轉(zhuǎn)換為鳥(niǎo)瞰視圖，并與柵格化BEV點(diǎn)云或特征圖融合。融合可以通過(guò)簡(jiǎn)單地將鳥(niǎo)瞰圖上的柵格化點(diǎn)云和高精地圖的通道連接起來(lái)進(jìn)行[313]，或者將LiDAR點(diǎn)云和高精地圖分成單獨(dú)的主干，融合兩種模式的輸出特征圖[70]。還有其他地圖類型，如可見(jiàn)性地圖[100]等。

7?時(shí)序3D目標(biāo)檢測(cè)

基于時(shí)序的3D目標(biāo)檢測(cè)主要分為三種：激光雷達(dá)序列檢測(cè)，流輸入檢測(cè)，從視頻中檢測(cè)。下圖為主要方法。

激光雷達(dá)序列

大多數(shù)方法專注于從單幀點(diǎn)云中檢測(cè)，也有許多方法利用多幀點(diǎn)云來(lái)實(shí)現(xiàn)更準(zhǔn)確的3D目標(biāo)檢測(cè)。它們通過(guò)各種時(shí)間建模工具融合多幀特征來(lái)解決時(shí)序檢測(cè)問(wèn)題，也有通過(guò)將多幀目標(biāo)點(diǎn)合并到單一幀中來(lái)獲得更完整的3D形狀。時(shí)序3D目標(biāo)檢測(cè)在離線3D自動(dòng)打標(biāo)簽流程中取得了巨大的成功，但在實(shí)時(shí)應(yīng)用中，這些方法仍然存在延遲問(wèn)題，合并多幀不可避免地會(huì)帶來(lái)額外的時(shí)間和內(nèi)存成本。具體方法見(jiàn)下圖示意。

利用流數(shù)據(jù)進(jìn)行3D目標(biāo)檢測(cè)

激光雷達(dá)點(diǎn)云本質(zhì)上是一個(gè)流式數(shù)據(jù)源，其中激光雷達(dá)數(shù)據(jù)包在掃描中順序記錄。激光雷達(dá)傳感器完整掃描360度，大約需要50-100毫秒，這意味著當(dāng)點(diǎn)云產(chǎn)生時(shí)，已經(jīng)不能精確的反應(yīng)實(shí)時(shí)的場(chǎng)景信息了。而自動(dòng)駕駛通常需要最少的反應(yīng)時(shí)間來(lái)保證駕駛安全。利用流數(shù)據(jù)的方法通常在動(dòng)態(tài)LiDAR數(shù)據(jù)中檢測(cè)3D目標(biāo)，而不用等完整掃描完成。與完整激光雷達(dá)掃描檢測(cè)相比，基于流式的3D目標(biāo)檢測(cè)是一種更準(zhǔn)確、低延遲的車輛感知解決方案。具體過(guò)程如下圖所示。

利用視頻進(jìn)行3D目標(biāo)檢測(cè)

自動(dòng)駕駛應(yīng)用中很容易獲取視頻數(shù)據(jù)。相比基于單圖像的3D目標(biāo)檢測(cè)，基于視頻的3D檢測(cè)得益于序列圖像間的時(shí)間關(guān)系。大量的研究工作集中在基于單幅圖像的3D目標(biāo)檢測(cè)，研究視頻中的3D目標(biāo)檢測(cè)問(wèn)題的較少，主要也是通過(guò)跟蹤和融合相同目標(biāo)來(lái)進(jìn)行3D目標(biāo)的檢測(cè)。

8?標(biāo)簽高效的3D目標(biāo)檢測(cè)

前面的一些3D目標(biāo)檢測(cè)方法主要默認(rèn)都是全監(jiān)督學(xué)習(xí)，并且是在某個(gè)特定的域內(nèi)進(jìn)行。實(shí)際情況則不可避免的遇到跨域和標(biāo)注數(shù)據(jù)缺少的問(wèn)題。針對(duì)這些問(wèn)題，主要從這方面去優(yōu)化：域自適應(yīng)、弱監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)。

3D目標(biāo)檢測(cè)中的域自適應(yīng)

在數(shù)據(jù)收集過(guò)程中，某些域空白現(xiàn)象是普遍存在的。不同傳感器的設(shè)置和安裝、不同的地理位置和不同的天氣將導(dǎo)致完全不同的數(shù)據(jù)域。在大多數(shù)情況下, 在某一域內(nèi)訓(xùn)練的3D目標(biāo)檢測(cè)器在其他域表現(xiàn)不佳。研究人員提出了許多技術(shù)來(lái)解決3D目標(biāo)檢測(cè)的域適配問(wèn)題，例如利用源域和目標(biāo)域的一致性，目標(biāo)域的自訓(xùn)練等。然而，大多數(shù)方法只關(guān)注于解決一個(gè)特定的領(lǐng)域轉(zhuǎn)移問(wèn)題。設(shè)計(jì)一種能夠普遍應(yīng)用于3D目標(biāo)檢測(cè)中任何領(lǐng)域轉(zhuǎn)移任務(wù)的域自適應(yīng)方法將是一個(gè)有前途的研究方向。域自適應(yīng)包括跨數(shù)據(jù)集的、跨天氣的、跨傳感器的、以及仿真到現(xiàn)實(shí)的域適應(yīng)，具體參考下圖及表。

弱監(jiān)督3D目標(biāo)檢測(cè)

現(xiàn)有的3D目標(biāo)檢測(cè)方法依賴大量人工標(biāo)記的3D目標(biāo)框，但這些3D框的標(biāo)注相當(dāng)昂貴。弱監(jiān)督學(xué)習(xí)是解決這一問(wèn)題的一個(gè)很有前途的方案，其中弱監(jiān)督信號(hào)，如更容易標(biāo)的2D標(biāo)注，被用來(lái)訓(xùn)練3D目標(biāo)檢測(cè)模型。弱監(jiān)督的3D目標(biāo)檢測(cè)在數(shù)據(jù)標(biāo)注方面需要的人力較少，但弱監(jiān)督方法與全監(jiān)督方法之間仍存在不可忽視的性能差距。

弱監(jiān)督3D目標(biāo)檢測(cè)方法利用弱監(jiān)督，而不是完全的標(biāo)注3D框數(shù)據(jù)訓(xùn)練3D目標(biāo)檢測(cè)器。弱監(jiān)督包括圖像2D框[291,199]、預(yù)訓(xùn)練圖像檢測(cè)器[218]、BEV目標(biāo)中心和車輛實(shí)例[175, 176]。這些方法通常會(huì)設(shè)計(jì)新穎的學(xué)習(xí)機(jī)制來(lái)跳過(guò)3D框的監(jiān)督，學(xué)習(xí)從弱信號(hào)中挖掘有用信息來(lái)實(shí)現(xiàn)3D目標(biāo)檢測(cè)。詳見(jiàn)下圖示意。

半監(jiān)督3D目標(biāo)檢測(cè)

在現(xiàn)實(shí)應(yīng)用中，數(shù)據(jù)標(biāo)注比數(shù)據(jù)收集需要更多的人力。通常情況下，一輛數(shù)據(jù)采集車一天可以收集超過(guò)200k幀的點(diǎn)云，而熟練的人類每天只能標(biāo)注100-200幀，大量未標(biāo)注數(shù)據(jù)沒(méi)有很好的利用。半監(jiān)督學(xué)習(xí)利用少量標(biāo)注數(shù)據(jù)和大量無(wú)標(biāo)注數(shù)據(jù)，共同訓(xùn)練出更強(qiáng)的模型，這是一個(gè)很有前途的方向。將3D目標(biāo)檢測(cè)與半監(jiān)督學(xué)習(xí)相結(jié)合可以提高檢測(cè)性能。

半監(jiān)督3D目標(biāo)檢測(cè)主要有兩類方法:偽標(biāo)簽和教師-學(xué)生方法。偽標(biāo)簽方法[17,265]首先用有標(biāo)簽的數(shù)據(jù)訓(xùn)練一個(gè)3D目標(biāo)檢測(cè)器，然后用這個(gè)3D檢測(cè)器對(duì)未標(biāo)注域的數(shù)據(jù)打上偽標(biāo)簽。最后，用未標(biāo)注域上的偽標(biāo)簽重新訓(xùn)練3D目標(biāo)檢測(cè)器。教師-學(xué)生方法[354]將Mean Teacher[255]范式應(yīng)用于3D目標(biāo)檢測(cè)。首先在標(biāo)注域上訓(xùn)練教師檢測(cè)器，然后教師檢測(cè)器通過(guò)約束兩種檢測(cè)模型輸出的一致性來(lái)指導(dǎo)學(xué)生檢測(cè)器在未標(biāo)記域上的訓(xùn)練。具體示意見(jiàn)下圖。

自監(jiān)督3D目標(biāo)檢測(cè)

自監(jiān)督預(yù)訓(xùn)練(Self-supervised pre-training)被廣泛應(yīng)用于許多計(jì)算機(jī)視覺(jué)任務(wù)中，首先以自監(jiān)督的方式在大規(guī)模的無(wú)標(biāo)注數(shù)據(jù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練，然后在有標(biāo)注的數(shù)據(jù)集上進(jìn)行微調(diào)，以獲得更好的性能。在自動(dòng)駕駛場(chǎng)景中，用于3D目標(biāo)檢測(cè)的自監(jiān)督預(yù)訓(xùn)練還沒(méi)有得到廣泛的探索。已有的方法試圖將對(duì)比學(xué)習(xí)等自監(jiān)督方法應(yīng)用于3D目標(biāo)檢測(cè)問(wèn)題，但多模態(tài)數(shù)據(jù)中豐富的語(yǔ)義信息沒(méi)有得到很好的利用。如何有效地處理原始點(diǎn)云和圖像，以預(yù)訓(xùn)練出高性能3D目標(biāo)檢測(cè)器仍是一個(gè)挑戰(zhàn)。自監(jiān)督方法通常將對(duì)比學(xué)習(xí)技術(shù)[94,41]應(yīng)用到3D目標(biāo)檢測(cè)。具體來(lái)說(shuō)，首先通過(guò)數(shù)據(jù)增強(qiáng)將輸入點(diǎn)云轉(zhuǎn)化為兩個(gè)視圖，然后使用對(duì)比學(xué)習(xí)來(lái)約束兩個(gè)點(diǎn)云視圖中相同3D位置的特征一致性，最后將這個(gè)預(yù)訓(xùn)練模型在有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào)，得到更好性能。下圖為示意圖。

9?自動(dòng)駕駛系統(tǒng)中的3D目標(biāo)檢測(cè)

自動(dòng)駕駛中的端到端學(xué)習(xí)

3D目標(biāo)檢測(cè)是感知系統(tǒng)的關(guān)鍵組成部分，3D目標(biāo)檢測(cè)器的性能將對(duì)跟蹤、預(yù)測(cè)和規(guī)劃等下游任務(wù)產(chǎn)生深遠(yuǎn)影響。因此，從系統(tǒng)的角度來(lái)看，3D目標(biāo)檢測(cè)模型與其他感知任務(wù)以及下游任務(wù)聯(lián)合訓(xùn)練，將是更好的自動(dòng)駕駛解決方案。一個(gè)挑戰(zhàn)是如何將所有駕駛?cè)蝿?wù)包含在一個(gè)統(tǒng)一框架中，并以端到端的方式聯(lián)合訓(xùn)練這些任務(wù)。

聯(lián)合感知和預(yù)測(cè)。很多方法通過(guò)感知和跟蹤3D目標(biāo)，然后以端到端的方式預(yù)測(cè)它們的未來(lái)軌跡。FaF[160]是一項(xiàng)開(kāi)創(chuàng)性工作，它提出使用單個(gè)3D卷積聯(lián)合預(yù)測(cè)3D目標(biāo)檢測(cè)、跟蹤和軌跡預(yù)測(cè)。這種設(shè)計(jì)范式被許多論文改進(jìn)，例如[21]利用地圖信息，[125]引入交互式 Transformer，[350]設(shè)計(jì)時(shí)空交互式網(wǎng)絡(luò)，[298]提出時(shí)空金字塔網(wǎng)絡(luò)，[138]循環(huán)執(zhí)行所有任務(wù)，[204]涉及將定位任務(wù)引入系統(tǒng)。

聯(lián)合感知、預(yù)測(cè)和規(guī)劃。很多工作努力將感知、預(yù)測(cè)和規(guī)劃納入一個(gè)統(tǒng)一的框架。與聯(lián)合感知和預(yù)測(cè)方法相比，整個(gè)系統(tǒng)可以通過(guò)將運(yùn)動(dòng)規(guī)劃添加到端到端流程中，并從規(guī)劃反饋信息中得到收益。很多方法提出來(lái)改善這個(gè)框架，例如[229]引入語(yǔ)義占用圖以產(chǎn)生可解釋的中間表示，[290]將空間注意力納入框架，[341]提出深度結(jié)構(gòu)化網(wǎng)絡(luò)，[22]提出無(wú)地圖方法，[53] 產(chǎn)生一組不同的未來(lái)軌跡。

一個(gè)完整的端到端自動(dòng)駕駛系統(tǒng)應(yīng)該是這樣子的：自動(dòng)駕駛車輛接受傳感器輸入，在一個(gè)循環(huán)中依次執(zhí)行感知、預(yù)測(cè)、規(guī)劃和運(yùn)動(dòng)控制，最終給駕駛系統(tǒng)提供轉(zhuǎn)向和速度信號(hào)。[12]首先介紹了這個(gè)想法，并用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了基于圖像的端到端驅(qū)動(dòng)系統(tǒng)。[302]提出了一種具有多模式輸入的端到端架構(gòu)。[51]和[106]提出分別通過(guò)條件模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)端到端自動(dòng)駕駛系統(tǒng)。具體的端到端的自動(dòng)駕駛示意如下圖所示。

3D目標(biāo)檢測(cè)仿真

3D目標(biāo)檢測(cè)模型通常需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。雖然可以在現(xiàn)實(shí)世界場(chǎng)景中收集數(shù)據(jù)，但現(xiàn)實(shí)世界的數(shù)據(jù)通常會(huì)受到長(zhǎng)尾分布的影響。例如，交通事故或極端天氣的場(chǎng)景很少被采集到，但對(duì)于訓(xùn)練強(qiáng)大的3D目標(biāo)檢測(cè)器非常重要。模擬仿真是解決長(zhǎng)尾數(shù)據(jù)分布問(wèn)題的一種很有前途的方案，因?yàn)槲覀兛梢詾槟切┖币?jiàn)但關(guān)鍵的場(chǎng)景創(chuàng)建人造數(shù)據(jù)。模擬的一個(gè)公開(kāi)挑戰(zhàn)是如何創(chuàng)建更真實(shí)的人造數(shù)據(jù)。

視覺(jué)模擬。很多方法在駕駛場(chǎng)景中生成逼真的合成圖像。這些方法的想法包括利用圖形引擎[1, 226]、利用紋理映射面元[320]、利用真實(shí)世界數(shù)據(jù)[47]和學(xué)習(xí)可控神經(jīng)模擬器[108]。

激光雷達(dá)模擬。除了生成合成圖像，許多方法試圖通過(guò)模擬生成LiDAR點(diǎn)云。一些方法[69, 188, 71]通過(guò)模擬現(xiàn)實(shí)世界的效果提出了新穎的點(diǎn)云渲染機(jī)制。一些方法[169]利用真實(shí)世界的實(shí)例來(lái)重建3D場(chǎng)景。其他論文側(cè)重于安全關(guān)鍵場(chǎng)景[267]或惡劣天氣條件下[89]的模擬。

駕駛模擬。許多論文試圖建立一個(gè)交互式駕駛模擬平臺(tái)，虛擬車輛可以在其中感知虛擬環(huán)境并與虛擬環(huán)境交互，最終規(guī)劃車輛路徑。CARLA[61]是一個(gè)開(kāi)創(chuàng)性的自動(dòng)駕駛開(kāi)源模擬器。其他論文利用圖形引擎[232]或開(kāi)發(fā)數(shù)據(jù)驅(qū)動(dòng)方法[4]進(jìn)行駕駛模擬。還有一些工作模擬交通流[253、252]或通過(guò)模擬測(cè)試車輛的安全性[296]。

3D目標(biāo)檢測(cè)的魯棒性

基于學(xué)習(xí)的3D的目標(biāo)檢測(cè)方法容易受到攻擊，比如給傳感器輸入中添加一些噪聲或目標(biāo)，就可能造成3D目標(biāo)檢測(cè)器失效，造成漏檢，如何更好的防御攻擊是個(gè)問(wèn)題。

許多論文提出通過(guò)對(duì)抗性機(jī)器學(xué)習(xí)攻擊傳感器并欺騙目標(biāo)檢測(cè)器。這些方法針對(duì)不同的目標(biāo)，例如LiDAR檢測(cè)器[18, 294, 257, 248, 366]，多模態(tài)檢測(cè)器[19, 259]，協(xié)作感知模型[258]，車輛軌跡[130] 等。他們提出了不同的技術(shù)來(lái)欺騙檢測(cè)器，包括在道路上添加對(duì)抗性障礙物[18]、在車輛上放置真實(shí)的樣本[294]、在對(duì)抗性位置放置任意目標(biāo)[366]、利用對(duì)抗性紋理網(wǎng)格[259]、放棄臨界值[294]，和利用被遮擋的點(diǎn)云模式[248]等。

協(xié)同3D目標(biāo)檢測(cè)

現(xiàn)有的3D目標(biāo)檢測(cè)方法主要基于本車單車，但是只用單車會(huì)造成無(wú)法解決目標(biāo)遮擋和遠(yuǎn)處目標(biāo)的稀疏性問(wèn)題。于是很多研究提出，利用多車協(xié)同方案。本車與其它車或基礎(chǔ)設(shè)施進(jìn)行通信，根據(jù)其它代理（車或基礎(chǔ)設(shè)施）反饋的信息提高感知精度。協(xié)同感知的一個(gè)挑戰(zhàn)是如何適當(dāng)?shù)仄胶饩忍岣吆屯ㄐ艓捯?。協(xié)同3D目標(biāo)檢測(cè)方法融合來(lái)自多個(gè)代理的信息以提高3D目標(biāo)檢測(cè)器的性能。融合的信息可以是來(lái)自其他代理的原始輸入[33, 345]，其通信帶寬消耗很小，并且對(duì)于檢測(cè)非常有效，也可以是壓縮的特征圖 [32, 276, 260, 129]，其通信帶寬成本不可忽略，但檢測(cè)效果通常會(huì)更好。還有一些論文研究何時(shí)與其他代理通信[150]以及與哪個(gè)代理通信[151]。

10?分析和展望

研究趨勢(shì)

3D目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)從原來(lái)的2D的AP已經(jīng)逐漸變?yōu)锳P-3D和AP-BEV，更好的衡量3D檢測(cè)效果?；贚iDAR的方法在數(shù)據(jù)集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥膎uScenes和WaymoOpen數(shù)據(jù)集。部署依然很難，因?yàn)楹芏喾椒榱颂岣咝阅?，并沒(méi)有太在乎推理時(shí)間，造成實(shí)時(shí)性較差。

目前來(lái)看，基于LiDAR的方法中，基于體素和點(diǎn)體素的方法性能有較大提升?；谥w的方法運(yùn)行快，效率高，但性能比基于體素的差?；赗ange和BEV的方法不錯(cuò)，推理時(shí)間也可以接受。基于點(diǎn)的檢測(cè)器效果好，但是推理速度受采樣和處理算子的影響較大。

基于相機(jī)的3D目標(biāo)檢測(cè)方法中，雙目比單目好，多相機(jī)的研究也是前景廣泛。多模態(tài)比單模態(tài)效果好，但引入了額外的計(jì)算開(kāi)銷，前融合方法更嚴(yán)重?，F(xiàn)在很多方法只用了前視圖和對(duì)應(yīng)點(diǎn)云進(jìn)行融合，而在nuScenes上提供了多視圖圖像、點(diǎn)云和高精地圖，模型可以得到更好的結(jié)果。

從系統(tǒng)級(jí)別來(lái)看，以速度和精度為主導(dǎo)因素，則基于LiDAR和多模態(tài)的方法是最佳解決方案；如果以成本為最重要因素，那么基于相機(jī)的方法可能是最佳選擇。

未來(lái)展望

數(shù)據(jù)集不能只用閉集，類別只有那些常見(jiàn)的目標(biāo)（機(jī)非人等），后續(xù)也應(yīng)該關(guān)注一些現(xiàn)實(shí)世界中稀有類及未標(biāo)注的類別，開(kāi)放世界目標(biāo)檢測(cè)值得關(guān)注。

3D目標(biāo)檢測(cè)的可解釋性研究。深度學(xué)習(xí)作為黑盒，可解釋性較差，但為了更加穩(wěn)健的使用3D目標(biāo)檢測(cè)器，并知道如何避免一些意外情況，需要理解和解釋現(xiàn)有3D目標(biāo)檢測(cè)器的一些行為。

硬件系統(tǒng)的優(yōu)化設(shè)計(jì)同樣重要，如何讓基于LiDAR和多模態(tài)的檢測(cè)器高效的在移動(dòng)端硬件上跑起來(lái)，需要設(shè)計(jì)新的硬件架構(gòu)來(lái)方便模型部署。

端到端的3D目標(biāo)檢測(cè)算法未來(lái)是個(gè)趨勢(shì)，畢竟單獨(dú)去優(yōu)化3D目標(biāo)檢測(cè)器，對(duì)下游任務(wù)（預(yù)測(cè)和規(guī)劃）不一定是最優(yōu)的。

下面的表是一個(gè)匯總。

11?總結(jié)

本文全面回顧和分析了自動(dòng)駕駛3D目標(biāo)檢測(cè)的各個(gè)方面。從3D目標(biāo)檢測(cè)的問(wèn)題定義、數(shù)據(jù)集和評(píng)估指標(biāo)開(kāi)始，然后介紹了基于各種傳感器的3D目標(biāo)檢測(cè)方法，包括基于LiDAR、基于相機(jī)和多模態(tài)3D目標(biāo)檢測(cè)方法。進(jìn)一步研究了利用時(shí)態(tài)數(shù)據(jù)的3D目標(biāo)檢測(cè)，具有標(biāo)簽高效的學(xué)習(xí)，以及它在自動(dòng)駕駛系統(tǒng)中的應(yīng)用。最后，總結(jié)了近年來(lái)的研究趨勢(shì)，展望了未來(lái)3D目標(biāo)檢測(cè)的研究方向。

12?參考文獻(xiàn)

[1] Mao, J., Shi, S., Wang, X., & Li, H. (2022). 3D Object Detection for Autonomous Driving: A Review and New Outlooks.ArXiv, abs/2206.09474.

歡迎關(guān)注國(guó)內(nèi)首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū)

后臺(tái)回復(fù)【ECCV2022】獲取ECCV2022所有自動(dòng)駕駛方向論文！

后臺(tái)回復(fù)【領(lǐng)域綜述】獲取自動(dòng)駕駛?cè)珬＝?0篇綜述論文！

后臺(tái)回復(fù)【數(shù)據(jù)集下載】獲取計(jì)算機(jī)視覺(jué)近30種數(shù)據(jù)集！

【自動(dòng)駕駛之心】全棧技術(shù)交流群

自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū)，聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D感知、多傳感器融合、SLAM、高精地圖、規(guī)劃控制、AI模型部署落地等方向；

加入我們：自動(dòng)駕駛之心技術(shù)交流群匯總！

自動(dòng)駕駛之心【知識(shí)星球】

想要了解更多自動(dòng)駕駛感知（分類、檢測(cè)、分割、關(guān)鍵點(diǎn)、車道線、3D感知、多傳感器融合、目標(biāo)跟蹤）、自動(dòng)駕駛定位建圖（SLAM、高精地圖）、自動(dòng)駕駛規(guī)劃控制、領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布，歡迎掃描下方二維碼，加入自動(dòng)駕駛之心知識(shí)星球（三天內(nèi)無(wú)條件退款），日常分享論文+代碼，這里匯聚行業(yè)和學(xué)術(shù)界大佬，前沿技術(shù)方向盡在掌握中，期待交流！

標(biāo)簽：3D 自動(dòng)駕駛計(jì)算機(jī)視覺(jué)綜述 LiDAR 目標(biāo)檢測(cè)雙目多模態(tài)單目半弱自監(jiān)督

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

史上最全綜述 | 3D目標(biāo)檢測(cè)算法匯總?。▎文?雙目/LiDAR/多模態(tài)/時(shí)序/半弱自監(jiān)督）

1?摘要

2?簡(jiǎn)述

3?背景

3D目標(biāo)檢測(cè)是什么？

1、定義

2、傳感器輸入

3、與2D目標(biāo)檢測(cè)的比較

4、與室內(nèi)3D目標(biāo)檢測(cè)對(duì)比

數(shù)據(jù)集

評(píng)價(jià)標(biāo)準(zhǔn)

4?基于LiDAR的3D目標(biāo)檢測(cè)

3D目標(biāo)檢測(cè)的數(shù)據(jù)表示

1、基于點(diǎn)的3D目標(biāo)檢測(cè)

2、基于網(wǎng)格的3D目標(biāo)檢測(cè)

3、基于Point-Voxel的3D目標(biāo)檢測(cè)方法

4、基于Range的3D目標(biāo)檢測(cè)

3D目標(biāo)檢測(cè)的學(xué)習(xí)目標(biāo)

1、Anchor-based方法

2、Anchor-free方法

3、利用輔助任務(wù)的3D目標(biāo)檢測(cè)