當(dāng)我們在討論多模態(tài)融合時?我們究竟在討論什么?最新多源融合綜述!
今天自動駕駛之心很榮幸邀請到Xi zhu來分享自動駕駛最新的多源傳感器融合綜述!如果您有相關(guān)工作需要分享,請在文末聯(lián)系我們!
論文作者?|?Xi zhu
編輯 | 自動駕駛之心


很榮幸來分享我們的多源數(shù)據(jù)融合綜述~這篇綜述文章所關(guān)注的核心問題是自動駕駛系統(tǒng)中的多源數(shù)據(jù)融合技術(shù)。多源數(shù)據(jù)融合對自動駕駛系統(tǒng)的環(huán)境感知能力至關(guān)重要。由于不同類型的傳感器都有自己的優(yōu)勢和劣勢,單一的傳感器系統(tǒng)難以進(jìn)行完整和精確的環(huán)境感知。為了發(fā)揮各類傳感器的互補(bǔ)優(yōu)勢,需要研發(fā)將多源異構(gòu)數(shù)據(jù)有效地融合在一起的方法。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的多源數(shù)據(jù)融合方法為這一問題帶來了巨大契機(jī),可以實(shí)現(xiàn)更優(yōu)的融合效果。但是目前這類方法仍存在一些關(guān)鍵性問題和局限,還需要進(jìn)一步的研究來找到更理想的融合方案。考慮到多源數(shù)據(jù)融合對自動駕駛系統(tǒng)的環(huán)境感知和決策能力有著重大影響,它已成為實(shí)現(xiàn)高級自動駕駛的關(guān)鍵技術(shù)之一。而現(xiàn)有的相關(guān)研究還比較分散,沒有形成系統(tǒng)的歸納和總結(jié)。為此,這篇綜述文章試圖通過全面回顧現(xiàn)有融合技術(shù),建立數(shù)據(jù)融合的分類體系,討論存在的問題,以及提出未來發(fā)展方向,為自動駕駛領(lǐng)域的數(shù)據(jù)融合研究提供有價值的指導(dǎo)。
這篇綜述論文以“什么、何時以及如何融合數(shù)據(jù)”為切入角度,全面系統(tǒng)地探討了自動駕駛系統(tǒng)中的多源數(shù)據(jù)融合問題。在“融合什么”方面,論文根據(jù)多視角、多模態(tài)和多時段三個維度,構(gòu)建了二級數(shù)據(jù)融合分類體系,將融合內(nèi)容劃分為七大類,并進(jìn)一步討論了多維度融合的順序范式。在“何時融合”方面,論文根據(jù)數(shù)據(jù)抽象程度將融合分為數(shù)據(jù)級、特征級、決策級和多級四種方式。在“如何融合”方面,論文概括總結(jié)了投影、拼接、相加等常見的數(shù)學(xué)運(yùn)算融合操作及其優(yōu)劣。之后,論文遵循這一體系,全面回顧了自動駕駛感知中基于深度學(xué)習(xí)的攝像頭、激光雷達(dá)和毫米波雷達(dá)的數(shù)據(jù)融合技術(shù)文獻(xiàn)。在總結(jié)分析現(xiàn)有方法局限性的基礎(chǔ)上,論文提出了理想的數(shù)據(jù)融合方法應(yīng)具備的可移植性、可擴(kuò)展性和自適應(yīng)性等特征。最后以特斯拉自動駕駛系統(tǒng)為例,說明了數(shù)據(jù)融合在實(shí)際中的應(yīng)用。這篇論文從多個角度深入全面地梳理和探討了自動駕駛領(lǐng)域的數(shù)據(jù)融合問題,對指導(dǎo)未來研究具有重要價值。而了解如何展開多源數(shù)據(jù)融合的工作,我門要首先明確多源數(shù)據(jù)融合面臨的關(guān)鍵問題是什么,其可以歸結(jié)為“什么數(shù)據(jù)進(jìn)行融合”“如何進(jìn)行融合”以及“何時進(jìn)行融合”三個方面:
什么數(shù)據(jù)進(jìn)行融合:指明確數(shù)據(jù)融合的內(nèi)容,比如多視角融合、多模態(tài)融合還是多時段融合等。
如何進(jìn)行融合:指選擇何種數(shù)學(xué)運(yùn)算來實(shí)現(xiàn)數(shù)據(jù)的融合,比如拼接、加法等。不同運(yùn)算有各自的優(yōu)缺點(diǎn)。
何時進(jìn)行融合:指在數(shù)據(jù)處理流程的何時階段進(jìn)行融合,比如原始數(shù)據(jù)級融合、特征級融合或者決策級融合等。不同時機(jī)的融合效果也不相同。
明確以上三個問題,可以針對不同的應(yīng)用場景和需求設(shè)計出最優(yōu)的數(shù)據(jù)融合方案。但找到一種通用的、可擴(kuò)展的融合框架仍然是一個難點(diǎn)。此外,當(dāng)前多數(shù)融合算法過于依賴傳感器間的準(zhǔn)確變換,這也是需要解決的問題之一。要設(shè)計出可靠和高效的數(shù)據(jù)融合方案,需要對這三個關(guān)鍵問題有深入的理解,這也是本文的核心內(nèi)容。
SENSING MODALITIES AND PRE-PROCESSING
這一節(jié)討論了在感知中使用的傳感器被分成兩組的分類:外感傳感器和本體感傳感器。外感傳感器主動收集外部環(huán)境的數(shù)據(jù),包括相機(jī)、LiDAR和,而本體感傳感器則捕捉車輛的內(nèi)部狀態(tài)和系統(tǒng)的動態(tài)測量。這些傳感器通常一起用于定位和定位。然而,由于它們的特性不同,從不同坐標(biāo)系中集成數(shù)據(jù)可能會很具有挑戰(zhàn)性。預(yù)處理方法被用于將原始數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)谋硎拘问?。本文重點(diǎn)討論了三種外感傳感器的特性和預(yù)處理方法,并在表格中總結(jié)了它們的優(yōu)缺點(diǎn)。

如上表所示,表格比較了相機(jī)、LiDAR和雷達(dá)傳感器的不同特征。它們被列在表格的左側(cè),而其特征則被列在表格的頂部。表格中的特征包括數(shù)據(jù)格式、分辨率、水平視場角、幾何形狀、紋理、惡劣天氣下的表現(xiàn)、光照不足/黑暗環(huán)境下的表現(xiàn)、速度和成本等。每個特征都被用“++”、“+”或“-”符號表示其相對強(qiáng)、中、弱的能力,以便進(jìn)行比較。通過這個表格,讀者可以更好地了解各種傳感器的優(yōu)缺點(diǎn)和適用范圍,以便在實(shí)際應(yīng)用中做出最佳選擇。
camera
本節(jié)介紹了相機(jī)的相關(guān)方法。相機(jī)是一種光學(xué)設(shè)備,能夠捕捉2D視覺圖像。相機(jī)可以生成灰度和彩色圖像,其中大多數(shù)現(xiàn)代相機(jī)默認(rèn)生成彩色圖像。相機(jī)可以用針孔模型進(jìn)行建模,每個點(diǎn)在三維空間中按照一個仿射變換映射到像素上。它們可以用由內(nèi)參矩陣和外參矩陣確定的兩個仿射變換來描述。RGB相機(jī)是最常見的光學(xué)傳感器,可以無源地接收波長在400到700納米之間的可見光并輸出彩色圖像。它們通常具有非常高的空間和時間分辨率,能夠捕捉顏色和紋理信息,但在光線條件和視線可見性方面存在局限性。在ADS中,集成相機(jī)數(shù)據(jù)可表示為2D或3D格式,其中像素表示存儲像素特征在2D圖像平面上,而點(diǎn)或體素表示則考慮深度信息,并將每個像素投影到3D空間中。
而Pixel representation和Point or voxel representation是兩種不同的相機(jī)數(shù)據(jù)表示方式。Pixel representation(像素表示)是將像素特征存儲在2D圖像平面上,每個像素有多個通道來描述其性質(zhì)。整個圖像被存儲在一個3D矩陣中,其維度為。通常,RGB原始圖像有三個彩色通道,但其他相機(jī)可能有不同的通道,如深度、灰度、紅外或閘門通道。Point or voxel representation(點(diǎn)或體素表示)則考慮深度信息,通過將每個像素投影到3D空間中來表示相機(jī)數(shù)據(jù)。這些3D點(diǎn)可以存儲為點(diǎn)云或體素網(wǎng)格。點(diǎn)云為每個點(diǎn)分配一個浮點(diǎn)數(shù)3D坐標(biāo),導(dǎo)致一個矩陣的維度為,其中表示像素的數(shù)量,表示通道的數(shù)量。體素網(wǎng)格將空間劃分為具有維度的網(wǎng)格,并將點(diǎn)放入這些網(wǎng)格中。
LiDAR
LiDAR(Light Detection and Ranging,光學(xué)雷達(dá))是一種常用于自動駕駛中的測距技術(shù)。它的工作原理是通過估算發(fā)出的激光脈沖和目標(biāo)反射信號之間的時間間隔,利用時間間隔和光速計算出距離。LiDAR有三種類型:1D、2D和3D LiDAR,它們可以收集不同數(shù)量的環(huán)境信息。1D LiDAR只能提供距離測量,2D LiDAR可以通過水平旋轉(zhuǎn)一定角度來獲得目標(biāo)在X-Y坐標(biāo)水平平面上的空間信息,而3D LiDAR通過垂直發(fā)射多束激光擴(kuò)展垂直視野,將收集到的數(shù)據(jù)表示為3D X-Y-Z坐標(biāo)系。在自動駕駛中,通常使用3D LiDAR傳感器,但高價格是其實(shí)施的一個問題。
使用LiDAR傳感器生成數(shù)據(jù)的過程涉及使用光束從周圍環(huán)境中的物體表面中提取樣本。這種激光發(fā)射的工作原理使得LiDAR傳感器能夠在低能見度條件下工作,但也使得它們?nèi)菀资艿酵獠繗夂驐l件的影響,如雨、霧、雪和塵土環(huán)境。此外,目標(biāo)的顏色也會影響LiDAR傳感器的性能,較暗的物體吸收光線,比較淺色的物體反射光線。
與相機(jī)圖像不同,3D LiDAR測量是一組無序的不規(guī)則數(shù)據(jù)點(diǎn),稱為3D結(jié)構(gòu)中的點(diǎn)云。為了適應(yīng)不同的深度學(xué)習(xí)模型的輸入格式,點(diǎn)云可以使用預(yù)處理方法轉(zhuǎn)換為幾種不同的表示形式。需要注意的是,相對于圖像數(shù)據(jù),LiDAR數(shù)據(jù)更加稀疏。
從LiDAR傳感器獲得的3D點(diǎn)云可以使用點(diǎn)處理深度學(xué)習(xí)網(wǎng)絡(luò)(例如PointNet,PointNet ++,PointCNN和KPConv)進(jìn)行處理,無需格式轉(zhuǎn)換。點(diǎn)云可以與類似的點(diǎn)格式數(shù)據(jù)(如其他LiDAR點(diǎn)云)集成。盡管點(diǎn)云保留了原始信息并可能提供更大的接受域,但點(diǎn)云的體積可能很大,需要高計算能力處理。此外,它很難與圖像等其他數(shù)據(jù)格式集成。因此,發(fā)展了具有附加預(yù)處理方法的表示形式,并得到了快速進(jìn)展。Voxels是通過將整個3D空間劃分為小的規(guī)則3D網(wǎng)格并基于幾何將原始點(diǎn)劃分到相應(yīng)的網(wǎng)格中而生成的。這種網(wǎng)格化將不規(guī)則點(diǎn)轉(zhuǎn)換為規(guī)則的體素表示,可以將原始LiDAR點(diǎn)下采樣以減少輸入體積。事實(shí)上,可以通過改變網(wǎng)格大小來調(diào)整體素的體積和分辨率。較大的網(wǎng)格會導(dǎo)致更多的信息損失,而較小的網(wǎng)格可能仍然會給計算帶來負(fù)擔(dān)??梢允褂脦追N3D卷積方法來處理體素并提取特征,例如3D ShapeNet,VoxelNet和VoxNet。
LiDAR點(diǎn)的像素或視圖表示是通過投影將3D點(diǎn)云轉(zhuǎn)換為2D圖像視圖的方法。BEV(鳥瞰圖)和范圍視圖(也稱為透視視圖)是可以從點(diǎn)云轉(zhuǎn)換為不同2D視圖平面的兩種常見類型的視圖。像素表示可以利用現(xiàn)有的成熟的CNN系列圖像處理方法,盡管在投影過程中可能會丟失一些信息。此外,像素表示的輸入體積比點(diǎn)云還要小,可以提高計算效率。在自動駕駛中,通常使用的LiDAR數(shù)據(jù)表示形式是BEV或范圍視圖。BEV是一種俯視圖,將3D點(diǎn)云投影到一個水平平面上,提供了一種緊湊的表示形式,可以直接用于訓(xùn)練和推理。范圍視圖是一個類似于車輛攝像頭的前視圖,它將3D點(diǎn)云投影到一個垂直平面上,使得模型可以更好地捕捉物體的高度信息。總的來說,LiDAR數(shù)據(jù)的表示形式取決于具體的應(yīng)用場景和深度學(xué)習(xí)模型的要求。點(diǎn)云、體素和像素表示都有其優(yōu)缺點(diǎn),需要根據(jù)具體情況選擇。
Millimeter wave radar
Millimeter wave radar (MMW-radar)是一種利用毫米波輻射和散射反射來估計目標(biāo)距離信息的技術(shù),也被稱為雷達(dá)。它是一種常用于自動駕駛中的測距傳感器,可以分為短距離、中距離和長距離雷達(dá)。相比于受外部條件影響較大的LiDAR傳感器和攝像頭,雷達(dá)傳感器在極端天氣或昏暗光照條件下更為穩(wěn)定。此外,雷達(dá)傳感器具有準(zhǔn)確檢測動態(tài)目標(biāo)速度的能力,這對于自動駕駛場景中的感知任務(wù)非常重要。然而,雷達(dá)也有一些缺點(diǎn)。與相機(jī)相比,雷達(dá)缺乏紋理或語義信息。與LiDAR傳感器相比,雷達(dá)的角度分辨率較低,因此不適合進(jìn)行對象識別,并且可能在區(qū)分靜態(tài)和靜止物體時出現(xiàn)問題。此外,無用的回波噪聲可能會導(dǎo)致雷達(dá)系統(tǒng)的誤檢和性能問題。
根據(jù)文獻(xiàn)\引文,雷達(dá)的數(shù)據(jù)格式可以根據(jù)不同的預(yù)處理階段分為原始數(shù)據(jù)、聚類層數(shù)據(jù)和對象層數(shù)據(jù)。雷達(dá)的原始輸出是時間頻譜圖的形式。為了提高其效用,通常需要使用信號處理方法。在自動駕駛應(yīng)用中更常用的雷達(dá)數(shù)據(jù)格式是經(jīng)過聚類算法處理后得到的聚類層,以及經(jīng)過過濾和跟蹤后得到的對象層。與原始的原始數(shù)據(jù)相比,后兩種格式提供了更稀疏和較少噪聲的信息。
雷達(dá)信號的兩種不同表示方法可以在自動駕駛系統(tǒng)相關(guān)研究中找到。一種是基于點(diǎn)的表示方法,它將雷達(dá)數(shù)據(jù)表示為點(diǎn)云進(jìn)行處理。然而雷達(dá)點(diǎn)云的特性與LiDAR點(diǎn)云不同,因此直接使用LiDAR模型處理雷達(dá)點(diǎn)可能會出現(xiàn)問題。另一種表示方法是基于地圖的方法,它將雷達(dá)數(shù)據(jù)在多個時間戳上積累,并生成雷達(dá)網(wǎng)格鳥瞰圖(BEV)地圖。由于網(wǎng)格圖解決了雷達(dá)數(shù)據(jù)稀疏性的問題,因此可以使用圖像處理網(wǎng)絡(luò),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征并進(jìn)行靜態(tài)環(huán)境分類。
DATA INTEGRATION: WHAT TO INTEGRATE
Multi-frame integration
多幀數(shù)據(jù)集成(Multi-frame integration)是一種利用時間序列數(shù)據(jù)進(jìn)行環(huán)境感知的方法。它可以采用多個時間戳的數(shù)據(jù),將它們集成成一個整體,以提高環(huán)境感知的準(zhǔn)確性。多幀數(shù)據(jù)集成廣泛應(yīng)用于計算機(jī)視覺、機(jī)器人領(lǐng)域等。
多幀數(shù)據(jù)集成可以分為兩類:基于圖像的方法和基于點(diǎn)云的方法?;趫D像的方法通常使用相機(jī)圖像序列,而基于點(diǎn)云的方法通常使用LiDAR點(diǎn)云序列。
在基于圖像的方法中,常見的多幀數(shù)據(jù)集成方法包括:
特征圖序列:在每個圖像中提取特征圖,然后在不同幀之間進(jìn)行關(guān)聯(lián)或融合,例如在目標(biāo)跟蹤、物體檢測等任務(wù)中。
圖像對或從圖像對獲得的處理信息序列:使用前一幀和當(dāng)前幀的圖像對進(jìn)行自監(jiān)督或知識蒸餾等任務(wù),例如在單目深度估計、行人重識別等任務(wù)中。
在基于點(diǎn)云的方法中,常見的多幀數(shù)據(jù)集成方法包括:
點(diǎn)云序列:將多個點(diǎn)云組合成一個點(diǎn)云,然后對其進(jìn)行處理,例如在3D目標(biāo)檢測和分割中。
點(diǎn)云特征序列:從每個點(diǎn)云中提取特征,然后將特征序列輸入到網(wǎng)絡(luò)中進(jìn)行多幀集成,例如在多幀物體檢測和跟蹤中。
總之,多幀數(shù)據(jù)集成是一種有效的環(huán)境感知方法,可以從時間序列中獲得更多的信息并提高感知的準(zhǔn)確性。不同的多幀數(shù)據(jù)集成方法可以根據(jù)任務(wù)需要進(jìn)行選擇。
Multi-view multi-modality integration
Multi-view multi-modality integration是一種將來自多個傳感器的不同模態(tài)和不同視角的數(shù)據(jù)進(jìn)行融合,以提高場景的感知和理解能力的技術(shù)。在計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域,這種技術(shù)備受關(guān)注,因?yàn)樗梢蕴峁┍葐我暯腔騿文B(tài)方法更準(zhǔn)確和全面的環(huán)境信息。
在Multi-view multi-modality integration中,每個傳感器模態(tài)的數(shù)據(jù)首先被獨(dú)立處理,提取特征和信息,如物體檢測、深度估計或語義分割。然后,來自多個視角和模態(tài)的信息被結(jié)合起來,以創(chuàng)建一個更完整的場景表示。這可以通過使用各種融合方法來實(shí)現(xiàn),如特征級融合、決策級融合或傳感器級融合。
例如,在自動駕駛中,可以將來自多種傳感器的數(shù)據(jù),如相機(jī)、LiDAR和雷達(dá),結(jié)合在一起,以獲得更準(zhǔn)確和全面的環(huán)境理解。例如,LiDAR可以提供準(zhǔn)確的深度信息,相機(jī)可以提供高分辨率圖像和顏色信息,雷達(dá)可以提供物體的速度和方向信息,這些信息可以補(bǔ)充LiDAR和相機(jī)提供的信息。
Multi-view multi-modality integration也被用于其他領(lǐng)域,如機(jī)器人、增強(qiáng)現(xiàn)實(shí)和醫(yī)學(xué)成像。例如,在機(jī)器人領(lǐng)域,結(jié)合來自多個傳感器的數(shù)據(jù)可以幫助機(jī)器人在復(fù)雜環(huán)境中導(dǎo)航和更高效地執(zhí)行任務(wù)。在醫(yī)學(xué)成像中,結(jié)合來自多種模態(tài)的數(shù)據(jù),如MRI和CT掃描,可以提供更準(zhǔn)確的診斷和治療方案。
總之,Multi-view multi-modality integration是一個重要的研究領(lǐng)域,在多個領(lǐng)域中都有廣泛的應(yīng)用潛力。

Multi-view multi-frame integration
Multi-view multi-frame integration是一種將多個視角和多個時間幀的信息進(jìn)行融合的技術(shù)。在計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域,多視角和多幀的數(shù)據(jù)通??梢蕴峁└嗟男畔⒁栽鰪?qiáng)對場景的理解和推理能力。傳統(tǒng)的多視角融合技術(shù)主要集中在將來自不同攝像機(jī)的圖像信息進(jìn)行融合,而多幀融合則主要關(guān)注如何將來自同一攝像機(jī)的連續(xù)幀信息進(jìn)行融合。在近年來的研究中,越來越多的工作將多視角和多幀信息結(jié)合起來,以提高感知和推理性能。
Multi-view multi-frame integration的應(yīng)用非常廣泛,例如三維物體檢測、跟蹤、重建以及SLAM等領(lǐng)域,都需要將多個視角和多個時間幀的信息進(jìn)行融合。在實(shí)際應(yīng)用中,多視角和多幀的數(shù)據(jù)通常來自不同的傳感器,例如相機(jī)、LiDAR、雷達(dá)等,因此如何將不同傳感器的數(shù)據(jù)進(jìn)行融合也是一個重要的問題。目前,關(guān)于多傳感器的多視角多幀融合的研究還比較有限,但是隨著多傳感器技術(shù)的發(fā)展,這個問題也變得越來越重要。
DATA INTEGRATION: WHEN TO INTEGRATE

數(shù)據(jù)集成是將來自不同來源的數(shù)據(jù)組合起來,提供一個統(tǒng)一的數(shù)據(jù)視圖的過程。其目標(biāo)是創(chuàng)建一個綜合視圖,比單獨(dú)的數(shù)據(jù)源更具信息性和實(shí)用性。集成數(shù)據(jù)有幾種方法,可以廣泛地分類為三類:手動集成、應(yīng)用程序級集成和數(shù)據(jù)級集成。
手動集成:這種方法涉及手動組合來自不同來源的數(shù)據(jù)。這可能是一個耗時的過程,并容易出錯。但是,在自動集成不可能由于數(shù)據(jù)復(fù)雜性或缺乏適當(dāng)?shù)募晒ぞ叩那闆r下,這種方法可能是必要的。
應(yīng)用程序級集成:這種方法涉及使用中間件或消息代理在應(yīng)用程序級別集成數(shù)據(jù)。中間件是連接不同應(yīng)用程序并使它們彼此通信的軟件。消息代理是一種在不同應(yīng)用程序之間充當(dāng)中介并使它們交換消息的軟件。當(dāng)數(shù)據(jù)源是異構(gòu)的且需要實(shí)時集成時,這種方法非常有用。
數(shù)據(jù)級集成:這種方法涉及使用一個通用數(shù)據(jù)模型在數(shù)據(jù)級別集成數(shù)據(jù)。在這種方法中,先將來自不同來源的數(shù)據(jù)轉(zhuǎn)換為通用格式,然后合并到一個單一的數(shù)據(jù)庫中。當(dāng)數(shù)據(jù)源是類似的且具有共同的結(jié)構(gòu)時,這種方法非常有用。數(shù)據(jù)級集成可以進(jìn)一步分為兩個子類:
ETL(提取、轉(zhuǎn)換、加載):ETL是一種過程,涉及從不同來源提取數(shù)據(jù),將其轉(zhuǎn)換為通用格式,然后加載到目標(biāo)數(shù)據(jù)庫中。ETL通常用于數(shù)據(jù)倉庫和商業(yè)智能應(yīng)用程序。
ELT(提取、加載、轉(zhuǎn)換):ELT是一種過程,涉及從不同來源提取數(shù)據(jù),將其加載到目標(biāo)數(shù)據(jù)庫中,然后將其轉(zhuǎn)換為通用格式。ELT通常用于大數(shù)據(jù)和分析應(yīng)用程序。
總之,數(shù)據(jù)集成是數(shù)據(jù)管理中的關(guān)鍵過程,使組織能夠創(chuàng)建一個綜合視圖,可用于分析和決策。集成方法的選擇取決于數(shù)據(jù)源的特性、數(shù)據(jù)的復(fù)雜性和集成要求。
討論
這篇綜述論文對自動駕駛領(lǐng)域的多源數(shù)據(jù)融合技術(shù)進(jìn)行了比較全面和系統(tǒng)的歸納,具有以下幾點(diǎn)優(yōu)點(diǎn):
提出了新的三維分類體系,可以很好地將數(shù)據(jù)融合技術(shù)進(jìn)行分類,使得整體技術(shù)體系更清晰。
不僅討論了“何時融合”,還討論了“如何融合”中的具體運(yùn)算方法及優(yōu)缺點(diǎn),進(jìn)行更深入的分析。
以Tesla自動駕駛系統(tǒng)為例,說明了理論框架在實(shí)際中的應(yīng)用情況。
在總結(jié)現(xiàn)有方法局限性的基礎(chǔ)上,提出了對理想數(shù)據(jù)融合方法的設(shè)計建議,指出了未來的研究方向。
全面涵蓋了圖像、激光雷達(dá)和毫米波雷達(dá)三種主要傳感器的數(shù)據(jù)融合技術(shù)。
但也存在一些不足:
更多關(guān)注技術(shù)層面的歸納,對融合功能和效果的分析較少。
對不同任務(wù)的具體數(shù)據(jù)集和評估指標(biāo)討論不多。
缺少對商用自動駕駛系統(tǒng)的數(shù)據(jù)融合方案的分析。
可以拓展對其他傳感器(如IMU等)的數(shù)據(jù)融合技術(shù)的討論。
可以補(bǔ)充更多最新研究進(jìn)展,現(xiàn)有引用偏早。
整體框架可以更加嚴(yán)謹(jǐn)嚴(yán)密,避免重復(fù)討論和層級混亂。
總體來說,這篇綜述對自動駕駛多源數(shù)據(jù)融合研究具有很好的參考價值,但也還有進(jìn)一步改進(jìn)的空間。
根據(jù)這篇綜述文章,我們可以看到自動駕駛領(lǐng)域的數(shù)據(jù)融合技術(shù)仍面臨一些挑戰(zhàn),需要從以下幾個方面進(jìn)行進(jìn)一步的研究:首先,現(xiàn)有的融合技術(shù)過于依賴于傳感器間的空間變換和轉(zhuǎn)換,這在實(shí)際運(yùn)用中會存在誤差的累積和信息損失。未來需要研發(fā)更加直接且精確的跨模態(tài)信息交互和融合的機(jī)制,降低對準(zhǔn)變換的依賴。其次,現(xiàn)有方法的可移植性較差,大多針對特定任務(wù)設(shè)計,未來需要研發(fā)可 generalizable 的融合框架,降低對具體應(yīng)用場景的依賴。再者,已有框架較為固化,缺乏靈活性,無法處理實(shí)際中傳感器缺失等情況。未來的融合系統(tǒng)需要可插拔的模塊化設(shè)計,并考慮輸入的可置換性。此外,現(xiàn)有方法的時間擴(kuò)展性和空間擴(kuò)展性較弱,未來需要能夠跨更多視角、更廣時間段進(jìn)行融合的機(jī)制。最后,可設(shè)計具備自適應(yīng)性的“智能”融合系統(tǒng),可以根據(jù)具體場景和數(shù)據(jù)質(zhì)量動態(tài)調(diào)整結(jié)構(gòu),實(shí)現(xiàn)優(yōu)化的感知效果??傊?繼續(xù)研發(fā)更加直接、泛化、可擴(kuò)展和自適應(yīng)的數(shù)據(jù)融合技術(shù),是自動駕駛感知中的一個重要方向。
總結(jié)
總結(jié)來說我們這篇綜述從“數(shù)據(jù)融合的內(nèi)容”、“數(shù)據(jù)融合的時機(jī)”和“數(shù)據(jù)融合的方式”三個角度出發(fā),對自動駕駛領(lǐng)域中的多源數(shù)據(jù)融合技術(shù)進(jìn)行了比較全面和系統(tǒng)的調(diào)研與歸納。論文提出了新的三維分類體系,其中包含多視角、多模態(tài)和多時段三個維度,可以很好地將數(shù)據(jù)融合內(nèi)容進(jìn)行歸類。在數(shù)據(jù)融合時機(jī)方面,論文沿用了常見的分類方法。在數(shù)據(jù)融合方式方面,論文不僅討論了不同層次的融合時機(jī),還概括總結(jié)了各種具體的數(shù)據(jù)融合運(yùn)算方式及其優(yōu)缺點(diǎn),進(jìn)行了深入的分析。為了說明理論框架的應(yīng)用,論文還以特斯拉自動駕駛系統(tǒng)為例,展示了多源數(shù)據(jù)融合在實(shí)際系統(tǒng)中的運(yùn)用情況。在總結(jié)現(xiàn)有技術(shù)的不足之后,論文還就未來融合系統(tǒng)的設(shè)計提出了見解??偟膩碚f,本文框架完整,內(nèi)容豐富,對自動駕駛領(lǐng)域的多源數(shù)據(jù)融合研究具有重要的參考價值。但論文也還有進(jìn)一步改進(jìn)的空間,例如可以增加對不同任務(wù)和數(shù)據(jù)集的具體討論,以及對商用系統(tǒng)的數(shù)據(jù)融合方案的分析等??傮w而言,本文對該研究領(lǐng)域進(jìn)行了系統(tǒng)和高質(zhì)量的調(diào)研總結(jié),是一篇有價值的綜述論文。
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺融合、多傳感器標(biāo)定、多傳感器融合、多模態(tài)3D目標(biāo)檢測、點(diǎn)云3D目標(biāo)檢測、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習(xí)視頻(掃碼學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國內(nèi)首個自動駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動駕駛之心】技術(shù)交流群
自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測、語義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)

④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!
