自動駕駛的里程碑 | 感知、預(yù)測、規(guī)劃一站匯總,都在這里了!
今天自動駕駛之心很榮幸邀請到李宇宸來分享自動駕駛的里程碑綜述—感知、預(yù)測和規(guī)控綜述!如果您有相關(guān)工作需要分享,請在文末聯(lián)系我們!
論文作者?|?李宇宸等
編輯 | 自動駕駛之心
人們對自動駕駛(AD)和智能車輛(IV)的興趣日益增長,是因?yàn)樗鼈兂兄Z提高安全性、效率和經(jīng)濟(jì)效益。雖然以前的調(diào)研已經(jīng)反映了這一領(lǐng)域的進(jìn)展,但是需要一個全面和前瞻性的總結(jié)。作者的工作通過三篇不同的文章填補(bǔ)了這一空白。第一部分,一個“綜述的綜述”(SoS) ,概述了歷史,綜述,道德,以及 AD 和 IV 技術(shù)的未來發(fā)展方向。第二部分,“自動駕駛和智能車輛的里程碑第一部分: 控制,計算系統(tǒng)設(shè)計,通信,高精地圖,測試和人類行為”深入研究了在 IV中的控制,計算系統(tǒng),通信,高精地圖,測試和人類行為的發(fā)展。第三部分回顧了智能汽車的感知和規(guī)劃。提供一個自動駕駛和智能汽車的最新進(jìn)展的全面概述,這項(xiàng)工作迎合新人和經(jīng)驗(yàn)豐富的研究人員。通過整合 SOS 和第一部分,提供了獨(dú)特的見解,并努力在這個充滿活力的領(lǐng)域中作為過去成就和未來可能性之間的橋梁。
簡介
自動駕駛(AD)和智能汽車(IV)最近引起了學(xué)術(shù)界和工業(yè)界的重視,因?yàn)樗鼈兙哂幸幌盗袧撛诘暮锰?。AD調(diào)研和IVs調(diào)研在收集研究成果、概括整個技術(shù)發(fā)展、預(yù)測未來趨勢方面占有重要地位,系統(tǒng)總結(jié)和未來的研究方向。
根據(jù)AD中的不同任務(wù),作者將其分為8個子部分,感知、規(guī)劃、控制、系統(tǒng)設(shè)計、通信、高精地圖、測試和IVs中的人類行為,如下圖1所示。

在第一部分中,作者簡要介紹了每個任務(wù)的功能和AD的智能級別。在這里,作者描述了不同AD場景中的經(jīng)典應(yīng)用,包括城市道路、公園物流、倉庫、港口、智能礦山、農(nóng)業(yè)、野生動物救援和隧道搜索。市民在私家車、AD出租車和公交車等城市道路上實(shí)現(xiàn)AD更為常見。部分場景及港口中的IV要求控制器遵循特定規(guī)則并實(shí)現(xiàn)高效率。倉庫和礦井是室內(nèi)外環(huán)境中的經(jīng)典封閉場景。改良的IVs或所謂的專業(yè)智能機(jī)器人可以在野外使用,以取代農(nóng)業(yè)作業(yè)、野生動物救援、隧道搜索等中的人類港口。事實(shí)上,AD和IVs可以在不同的場景中執(zhí)行多項(xiàng)任務(wù),并在日常生活中發(fā)揮關(guān)鍵作用。
在本文中,作者將2個小節(jié)視為獨(dú)立的章節(jié),每個小節(jié)都包括任務(wù)定義、功能劃分、創(chuàng)新,以及對AD和IVs里程碑的詳細(xì)介紹,感知、規(guī)劃和控制的關(guān)系如下圖2所示。

最重要的是,對它們的研究已經(jīng)快速發(fā)展了十年,現(xiàn)在已經(jīng)進(jìn)入了瓶頸期。希望這篇文章能被認(rèn)為是對初學(xué)者的全面總結(jié),并為研究人員帶來新穎多樣的見解以取得突破。
本文的三個貢獻(xiàn):
提供了一個更系統(tǒng)、全面和新穎的調(diào)研,以了解AD和IVs的關(guān)鍵技術(shù)發(fā)展。
在每個技術(shù)部分介紹了許多部署細(xì)節(jié)、測試方法和獨(dú)特見解。
對AD和IVs進(jìn)行了系統(tǒng)的研究,試圖成為連接過去和未來的橋梁。
感知
感知是AD的一個基本模塊。該模塊為自車提供周圍的環(huán)境信息。如下圖3所示,感知分為定位、目標(biāo)檢測、場景理解、目標(biāo)預(yù)測和跟蹤。

定位
定位是駕駛平臺獲得自己的位置和姿態(tài)的技術(shù)。這是規(guī)劃和控制的重要前提[3]。目前,定位策略分為四類:全局導(dǎo)航衛(wèi)星系統(tǒng)(GNSS)和慣性測量單元(IMU)、視覺實(shí)時定位與建圖(SLAM)、激光雷達(dá)SLAM和基于融合的SLAM。
1) GNSS和IMU?:GNSS是一種天基無線電導(dǎo)航和定位系統(tǒng),可以為用戶提供地球表面的3D坐標(biāo)、速度和時間信息。IMU通常由三軸加速度計和陀螺儀組成(9自由度的傳統(tǒng)三軸磁力計)。通過用來自IMU的動態(tài)狀態(tài)更新來自GNSS的低頻定位信息,平臺可以獲得高更新頻率的定位信息。盡管GNSS和IMU方法的融合是全天候的,但衛(wèi)星信號會受到城市建筑的干擾。
2) 視覺SLAM:視覺SLAM采用相機(jī)幀的變化來估計自車的運(yùn)動,這類算法按傳感器分為三類:單目、多視圖和深度。具體而言,視覺SLAM算法只需要圖像作為輸入,這意味著定位系統(tǒng)的成本相對較低。然而,它們依賴于豐富的特征和輕微的照明變化。此外,優(yōu)化是視覺定位系統(tǒng)的一個關(guān)鍵模塊,它在考慮全局信息后更新每個幀的估計,優(yōu)化方法包括基于濾波器和基于圖。從特征提取的角度來看,視覺SLAM有兩個典型的類別,即關(guān)鍵點(diǎn)和光流方法。關(guān)鍵點(diǎn)方法利用SIFT、SURF、ORB和描述符等點(diǎn)提取方法來檢測不同圖像上的相同特征,然后計算幀之間的相對運(yùn)動。由于點(diǎn)提取方法可以穩(wěn)定準(zhǔn)確地提取關(guān)鍵點(diǎn),因此關(guān)鍵點(diǎn)視覺SLAM系統(tǒng)可以在結(jié)構(gòu)化道路和城市區(qū)域中提供顯著的優(yōu)勢。然而,當(dāng)在非結(jié)構(gòu)化道路上操作或面對平坦的白墻時,該系統(tǒng)可能會遇到困難。此外,早期的算法不能實(shí)時運(yùn)行,并且忽略了圖像中的大部分像素信息。光流方法假設(shè)光度在幀之間是不變的,并試圖通過最小化圖像上的光度誤差來估計相機(jī)運(yùn)動。這種方法具有以下優(yōu)點(diǎn):1)計算開銷小,實(shí)時性高;2) 對關(guān)鍵點(diǎn)依賴性弱;3) 考慮幀中的整個像素。然而,由于光度假設(shè),光流方法對兩幅圖像之間的光度變化很敏感。從優(yōu)化的角度來看,視覺SLAM系統(tǒng)也可以分為基于濾波器和基于優(yōu)化的策略,然而,基于圖的優(yōu)化方法在準(zhǔn)確性和效率方面取得了一些突破。因此,研究人員將在未來繼續(xù)關(guān)注后一點(diǎn)。
3) 激光雷達(dá)SLAM:與視覺SLAM方法相比,由于激光雷達(dá)的特性,激光雷達(dá)SLAM系統(tǒng)能夠以準(zhǔn)確的3D信息主動檢測周圍環(huán)境。與視覺系統(tǒng)類似,激光雷達(dá)SLAM也可以通過傳感器或基于濾波器的方法(如基于Gmapping和優(yōu)化過程的優(yōu)化)分類為2D方法,如Gmapping、制圖、Karto和3D。Gmapping采用粒子濾波方法,并將定位和映射過程分離。在優(yōu)化過程中,每個粒子都負(fù)責(zé)維護(hù)貼圖。LOAM操作兩種并行算法,一種是通過點(diǎn)云匹配方法計算低頻下幀之間的運(yùn)動變換,另一種是嘗試構(gòu)建地圖并校正高頻下的里程計。Segmap利用深度神經(jīng)網(wǎng)絡(luò)提取語義特征信息,可以減少計算資源消耗,并實(shí)時解決室內(nèi)智能機(jī)器人和IVs的數(shù)據(jù)壓縮問題。SUMA將點(diǎn)云轉(zhuǎn)移到2D空間中,并采用擴(kuò)展的RGB-D SLAM結(jié)構(gòu)來生成局部地圖。此外,通過點(diǎn)云的迭代最近點(diǎn)匹配方法對surfel地圖進(jìn)行維護(hù)和更新。激光雷達(dá)SLAM系統(tǒng)具有精度高、地圖密集、對亮度依賴性弱的優(yōu)點(diǎn)。然而,沒有語義信息和環(huán)境干擾是激光雷達(dá)SLAM系統(tǒng)面臨的兩個主要挑戰(zhàn)。此外,研究人員必須花費(fèi)大量時間和精力來維護(hù)和修復(fù)安裝在IVs上的激光雷達(dá)。
4) 基于融合的SLAM:為了避免單傳感器故障或魯棒性低的問題,研究人員引入了融合多種模態(tài)數(shù)據(jù)的方法,包括視覺慣性、激光雷達(dá)慣性、視覺激光雷達(dá)慣性和其他融合,如添加聲納或雷達(dá),SLAM方法。作者發(fā)現(xiàn),融合方法通常會將更新頻率更高的IMU數(shù)據(jù)引入SLAM系統(tǒng)。松散融合方法將來自相機(jī)或激光雷達(dá)的外部觀測數(shù)據(jù)和來自IMU的內(nèi)部運(yùn)動數(shù)據(jù)視為兩個獨(dú)立的模塊,而緊密融合有些方法設(shè)計了一個單元優(yōu)化模塊來解決和融合多種模態(tài)數(shù)據(jù)。以前的方法可以被視為擴(kuò)展的視覺或激光雷達(dá)SLAM系統(tǒng),對研究人員部署在測試平臺和IVs上是友好的。然而,為了提高魯棒性和適應(yīng)性,緊密融合策略提供了適當(dāng)?shù)慕鉀Q方案,包括在視覺里程計系統(tǒng)中引入束調(diào)整和采用關(guān)聯(lián)優(yōu)化??傊?,基于融合的SLAM方法解決了單個傳感器的幾個困難,但仍給連接系統(tǒng)帶來了一些挑戰(zhàn),如校準(zhǔn)、同步和復(fù)雜處理。不同定位方法的優(yōu)缺點(diǎn)如下表I所示。

目標(biāo)檢測
目標(biāo)檢測的目的是檢測傳感器視場中的靜態(tài)和動態(tài)目標(biāo)。一些檢測任務(wù)的結(jié)果如下圖4所示。

車道線檢測
車道檢測是在傳感器的視野中識別車道,以輔助駕駛。對于通用過程,它包括三個部分,包括圖像預(yù)處理、車道檢測和跟蹤。圖像預(yù)處理的目的,如感興趣區(qū)域(RoI)提取、逆透視映射和分割,是為了降低計算成本和消除噪聲。車道檢測和跟蹤的方法可分為基于計算機(jī)視覺(CV)的方法和基于學(xué)習(xí)的方法[34]?;贑V的車道檢測方法目前得到了廣泛的應(yīng)用,主要是因?yàn)樗鼈兊挠嬎愠杀镜颓乙子趶?fù)制。形態(tài)頂帽變換用于消除場中不相關(guān)的目標(biāo)。然后,應(yīng)用霍夫變換提取圖像的邊緣像素并構(gòu)造直線。然而,缺點(diǎn)是很難檢測曲線,因此許多研究人員已經(jīng)介紹了一些關(guān)于霍夫變換的有效方法。其他一些線路估計方法涉及復(fù)雜場景中的高斯混合模型(GMM)、隨機(jī)樣本一致性(RANSAC)、卡爾曼濾波器?;趯W(xué)習(xí)的方法可以部署在豐富的場景中,但它們需要大量的數(shù)據(jù)來訓(xùn)練具有大量參數(shù)的網(wǎng)絡(luò)。試圖設(shè)計新穎的多個子報頭結(jié)構(gòu)來提高車道檢測性能。據(jù)作者所知,車道檢測被集成到ADAS中,以保持車道或跟隨前一輛車,研究人員更關(guān)注3D車道[40]、封閉區(qū)域的車道和非結(jié)構(gòu)化道路。
駕駛區(qū)域檢測
與車道檢測相比,駕駛區(qū)域檢測增加了障礙物信息,為避障功能和路徑規(guī)劃任務(wù)提供了基礎(chǔ)信息。作者還將這項(xiàng)任務(wù)分為基于簡歷的方法和基于學(xué)習(xí)的方法。當(dāng)?shù)缆繁砻鏇]有被障礙物遮擋時,可以將駕駛區(qū)域檢測轉(zhuǎn)換為車道檢測。否則,它可以被視為車道檢測和2D目標(biāo)檢測的組合。當(dāng)將駕駛區(qū)域檢測視為一項(xiàng)獨(dú)立任務(wù)時,需要將道路像素與目標(biāo)和非駕駛區(qū)域區(qū)分開來。顏色直方圖可以滿足要求,一些研究人員開發(fā)了關(guān)于顏色[41]和效率[42]的方法來解決性能差的問題區(qū)域增長方法[43]比顏色直方圖方法更穩(wěn)健?;趯W(xué)習(xí)的駕駛區(qū)域檢測方法類似于圖像分割。對于機(jī)器學(xué)習(xí)算法,可以通過特征提取器和分類頭(如支持向量機(jī)(SVM)、條件隨機(jī)場(CRF))提取諸如RGB顏色、Walsh-Hadamard、定向梯度直方圖(HOG)、局部二進(jìn)制模式(LBP)、Haar和LUV通道的特征,以獲得最終結(jié)果。深度神經(jīng)網(wǎng)絡(luò)可以取代特征提取器和一些改進(jìn),例如使用大視覺區(qū)域卷積核[44]、多層連接[45],以實(shí)現(xiàn)有競爭力的性能。作者發(fā)現(xiàn),基于學(xué)習(xí)的駕駛區(qū)域檢測結(jié)果通常是場景理解任務(wù)的一個分支,研究人員試圖解決一些挑戰(zhàn),包括2D-3D轉(zhuǎn)換、復(fù)雜的駕駛區(qū)域等。
交通標(biāo)志檢測
交通標(biāo)志包含大量關(guān)鍵的交通信息,如道路狀況、限速、,駕駛行為限制和其他信息。作者還將其分為基于簡歷的方法和基于學(xué)習(xí)的方法。對于基于CV的檢測方法,特定地區(qū)(特定國家或城市)交通標(biāo)志的近似顏色組成條件相似。在相對簡單的原始圖像中,通過采用顏色空間分布、分割頭和SVM分類器,對特定顏色進(jìn)行閾值分離可以獲得更好的結(jié)果。一些研究通過引入額外的顏色通道來開發(fā)方法,如正常RGB模型、動態(tài)顏色閾值、概率模型和邊緣信息。然而,這些方法很難解決由光照、衰落、遮擋和惡劣天氣引起的問題。一些研究人員試圖利用三角形、圓形交通標(biāo)志或編碼梯度檢測方法上的通變換來處理遮擋和連接。基于形狀的檢測方法可以解決由顏色變化引起的結(jié)果不穩(wěn)定的問題,但它幾乎不能克服由遮擋和變形引起的問題?;跈C(jī)器學(xué)習(xí)的交通標(biāo)志識別算法通常使用滑動窗口方法遍歷給定的交通標(biāo)志圖像。提出了梯度方向的變異直方圖特征,并通過極限學(xué)習(xí)機(jī)訓(xùn)練單個分類器來檢測交通標(biāo)志。隨著深度學(xué)習(xí)算法的不斷研究,越來越多的學(xué)者使用深度學(xué)習(xí)算法來檢測交通標(biāo)志。讀者可以將這種分類方法視為處理特征提取,包括預(yù)處理和分類。為了提取更深層次的信息,引入了更深層次的編碼器、集成的空間金字塔池(SPP)層、級聯(lián)的RCNN網(wǎng)絡(luò)、深度可分離卷積和剪輯策略,以實(shí)現(xiàn)檢測精度和高推理速度。深度學(xué)習(xí)方法對標(biāo)志的顏色和形狀的變化具有令人滿意的容忍度,然而,這種類型的方法需要大量的數(shù)據(jù)和手動注釋。此外,檢測網(wǎng)絡(luò)應(yīng)該具有識別具有缺乏自信跡象的不同區(qū)域和長距離檢測跡象的能力。
基于視覺的3D目標(biāo)檢測
基于視覺的3D目標(biāo)檢測是指從圖像中獲取場中所有目標(biāo)的3D信息(位置、尺寸和旋轉(zhuǎn))的過程。作者將其分為基于單目和基于雙目的檢測。
單目3D目標(biāo)檢測:近年來,單目3D目標(biāo)檢測得到了廣泛的發(fā)展,其準(zhǔn)確性也在不斷提高。繼承自[53]等2D目標(biāo)檢測網(wǎng)絡(luò)的直接關(guān)聯(lián)分類和回歸方法具有簡單的結(jié)構(gòu),但由于從單個圖像中恢復(fù)3D屬性的不適定問題,其性能不令人滿意。解決這一缺點(diǎn)的策略主要有兩種。
1) 介紹了3D和投影2D候選者之間的幾何連接。例如,GS3D[56]將目標(biāo)解耦為多個部分,以分析曲面屬性和實(shí)例關(guān)系。Monopair和Monet3D考慮了目標(biāo)與其兩個最近鄰居之間的關(guān)系。
2) 除了回歸3D邊界候選者,網(wǎng)絡(luò)還在訓(xùn)練階段考慮來自雙目視覺或激光雷達(dá)數(shù)據(jù)的局部或全深度圖。CaDDN[57]為結(jié)合深度估計和目標(biāo)檢測任務(wù)提供了一種完全可微的端到端方法。DDMP3D利用上下文和深度估計頭的特征表示來實(shí)現(xiàn)有競爭力的性能。此外,引入了連續(xù)幀作為輸入,試圖通過關(guān)聯(lián)檢測和跟蹤來更新3D結(jié)果。盡管這些方法在準(zhǔn)確性上沒有明顯的優(yōu)勢,但廣泛的學(xué)術(shù)研究和低成本使其具有吸引力。
雙目3D目標(biāo)檢測:雙目3D目標(biāo)檢測方法的靈感來自雙目視覺的視差分析。精確的深度值可以通過雙目中心和相關(guān)像素對之間的距離來計算。Disp-RCNN、OC Stereo添加分割模塊,對來自雙目相機(jī)的圖像進(jìn)行配對,以誘導(dǎo)精確的關(guān)聯(lián)。YOLOSTREO3D提供了一個輕量級的模型,優(yōu)于大量基于復(fù)雜視差卷積運(yùn)算的雙目方法,并顯著縮短了訓(xùn)練和測試時間??傊?,基于雙目的方法可以避免單目圖像的不適定問題,并且便于制造商在IVs中部署和維護(hù),但基線上的精確測量、雙目匹配的時間成本以及圖像預(yù)處理的要求給研究人員帶來了挑戰(zhàn)。
基于激光雷達(dá)的3D目標(biāo)檢測
基于激光雷達(dá)3D目標(biāo)檢測方法從激光雷達(dá)捕獲的點(diǎn)云數(shù)據(jù)中識別目標(biāo)的3D特性。作者將其分為體素檢測和點(diǎn)檢測。
逐體素目標(biāo)檢測:逐體素的目標(biāo)檢測方法表示鳥瞰圖(BEV)中的點(diǎn)云特征,并且BEV圖被手動劃分為獨(dú)雙目素的s系列。這種類型的檢測網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計源于點(diǎn)云分割框架,如PointNet和PointNet++,它們適合輸入或輸出端的檢測任務(wù),其整體架構(gòu)需要平衡性能和效率。以經(jīng)典的VoxelNet和PointPillar為例,VoxelNet在映射點(diǎn)云后對體素進(jìn)行歸一化,然后使用多個體素特征編碼(VFE)層對每個非空體素應(yīng)用局部特征提取。通過3D卷積中間層(增加感受野并學(xué)習(xí)幾何空間表示)進(jìn)一步提取體素特征,最后,使用具有位置回歸的區(qū)域建議網(wǎng)絡(luò)(RPN)對目標(biāo)進(jìn)行檢測和分類。
點(diǎn)式目標(biāo)檢測:[68,69]等點(diǎn)式目標(biāo)檢測受到PointNet的啟發(fā),PointNet是一種使用點(diǎn)云進(jìn)行室內(nèi)6D姿態(tài)估計的經(jīng)典網(wǎng)絡(luò)。點(diǎn)-RCNN[68]是一個兩階段的點(diǎn)云檢測框架,包括第一階段的語義分割分析和第二階段的位置修正。VoteNet[70]將2D檢測結(jié)構(gòu)擴(kuò)展到3D框架,以建立點(diǎn)云的通用檢測框架。它基本上遵循PointNet++來減少點(diǎn)云轉(zhuǎn)換中的信息損失。VoteNet還引入了一種受霍夫變換啟發(fā)的新穎投票機(jī)制,與其他3D網(wǎng)絡(luò)相比,該機(jī)制可以定位目標(biāo)的中心,而不是表面上的點(diǎn)。值得注意的是,在點(diǎn)云檢測中,應(yīng)充分考慮丟棄點(diǎn)的數(shù)量和由于距離而產(chǎn)生的模態(tài)差異。
基于融合的3D目標(biāo)檢測:
激光雷達(dá)、雷達(dá)和相機(jī)被廣泛部署在用于感知任務(wù)的IVs中,這些類型的傳感器的組合可以使車輛變得堅固,并能夠全時檢測目標(biāo)。然而,這并不意味著基于融合的方法將優(yōu)于使用單個傳感器的方法?;谌诤系姆椒ǖ娜秉c(diǎn)主要有兩個原因。1) 網(wǎng)絡(luò)填補(bǔ)各種傳感器的模態(tài)缺口是一項(xiàng)挑戰(zhàn);2) 系統(tǒng)誤差和測量誤差(如校準(zhǔn)和同步)很難消除,它們會在網(wǎng)絡(luò)中傳播和放大。大多數(shù)研究人員提出了解決這些困難的方案,并取得了一些有競爭力的結(jié)果。在本節(jié)中,作者根據(jù)傳感器的類型對基于融合的目標(biāo)檢測任務(wù)進(jìn)行分類。
相機(jī)和激光雷達(dá):相機(jī)和激光DAR是AD的兩個關(guān)鍵傳感器,研究人員首先關(guān)注融合并行方法,該方法同時提取點(diǎn)云和圖像信息。MV3D[77]和AVOD[76]利用點(diǎn)云上的共享3D anchor和相應(yīng)的圖像。ContFuse[80]和MMF[81]采用具有連續(xù)融合層的緊密耦合融合方法。3D-CVF引入了一種跨視圖空間特征融合方法來融合圖像和點(diǎn)云。此外,EPNet[83]專注于點(diǎn)云系統(tǒng),并在幾何空間上采用基于點(diǎn)的策略將圖像投影到點(diǎn)云系統(tǒng)上。與并行方法相比,順序方法是可讀的和可部署的,因?yàn)椴恍枰腙P(guān)聯(lián)結(jié)構(gòu)來減少差距。F-PointNet[75]和F-ConvNet[74]試圖通過在2D候選者內(nèi)生成3D邊界框來減少搜索區(qū)域。PointPainting[84]輸出語義信息,并將每個點(diǎn)投影到相應(yīng)的點(diǎn)上,以提高3D目標(biāo)檢測精度。CLOCs[73]融合獨(dú)立提取器之后的數(shù)據(jù),并在KITTI上實(shí)現(xiàn)競爭結(jié)果。DVF[72]采用2D真相作為指導(dǎo),然后通過點(diǎn)云提取3D屬性。
相機(jī)和雷達(dá):將雷達(dá)的圖像和數(shù)據(jù)結(jié)合起來,可以有效地降低成本并保持準(zhǔn)確性。[86]將雷達(dá)檢測結(jié)果投影到圖像空間,并利用它們來提高對遠(yuǎn)處目標(biāo)的目標(biāo)檢測精度。CRF Net[87]開發(fā)了一種垂直展示的方法。
激光雷達(dá)和雷達(dá):這種類型的融合側(cè)重于極端惡劣的天氣條件和明顯的目標(biāo)。雷達(dá)網(wǎng)[88]通過一種新穎的早期融合方法融合雷達(dá)和激光雷達(dá)數(shù)據(jù)。它通過基于注意力的融合利用了雷達(dá)的遙感范圍。MVDNet[89]從兩個傳感器生成建議,然后融合多模態(tài)傳感器流之間的區(qū)域特征,以改進(jìn)最終檢測結(jié)果。ST MVDNet[90]通過強(qiáng)制輸出來開發(fā)結(jié)構(gòu)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間的一致性,以及在一種類型的數(shù)據(jù)丟失時引入丟失的模式來解決退化問題。
相機(jī)、激光雷達(dá)和雷達(dá):在這種融合類型中,研究人員試圖在不同的天氣條件下設(shè)計一個強(qiáng)大的感知系統(tǒng)。[91]通過將圖像直接投影到點(diǎn)云上來獲得具有PointNet[64]架構(gòu)的目標(biāo)檢測輸出。與前一幀平行,對來自雷達(dá)的點(diǎn)云進(jìn)行處理以預(yù)測速度,然后將速度與最終檢測輸出相關(guān)聯(lián)。RVF-Net[92]融合了輸入過程中的所有數(shù)據(jù),并在nuScenes[93]數(shù)據(jù)集上獲得了令人滿意的結(jié)果。
其他:超聲波雷達(dá)通過聲音在空中傳播的時間來判斷障礙物的距離,其精度可以達(dá)到5米以內(nèi)的厘米級。該傳感器主要用于自動停車場景。一種帶有紅外燈的紅外相機(jī)可以捕捉紅外光譜特性,達(dá)到夜視成像的效果。此外,對事件攝像機(jī)的研究也是當(dāng)前的熱點(diǎn)之一。事件攝影機(jī)基于管道時間戳處理數(shù)據(jù),而不是處理幀平面中的單個像素。由于數(shù)據(jù)具有時序性質(zhì),傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)無法處理數(shù)據(jù),因此如何與其他傳感器融合將是未來的研究重點(diǎn)之一。KITTI[85]中不同傳感器類型的各種組合的3D目標(biāo)檢測方法的性能如下表II所示。這里,KITTI通過幀的復(fù)雜性將整個數(shù)據(jù)劃分為三個評估場景(簡單、中等和硬),并計算3D-AP,這是2D-AP[94]對這三個場景的擴(kuò)展方法。

作者總結(jié)道:
1)采用融合策略可以在3D目標(biāo)檢測任務(wù)中獲得競爭的結(jié)果,主要是因?yàn)橐肓烁嗟某跏夹畔?。但這種方法需要研究人員消除或減少模態(tài)差異。
2) 由于傳感器的特性、相機(jī)的分辨率有限以及KITTI中參考系統(tǒng)的定義,基于視覺的方法的性能弱于基于激光雷達(dá)的方法。然而,基于可視化的方法由于其可維護(hù)性、經(jīng)濟(jì)性和易于部署而吸引了許多研究者。
3) 自注意機(jī)制(Transformer結(jié)構(gòu))和BEV方法[71,78,79]可以提高跨模態(tài)融合、特征提取等的準(zhǔn)確性。此外,為了解決數(shù)據(jù)饑餓和模型魯棒性問題,目前的研究在unScenes[93]、Waymo[95]等附加數(shù)據(jù)上訓(xùn)練和測試模型。
C.場景理解
作者在論文中將場景理解定義為每個像素或點(diǎn)的多個輸出,而不是每個目標(biāo)。在本節(jié)中,作者將其分為三個子部分,分割、深度和流量估計。作者只專注于AD領(lǐng)域的學(xué)術(shù)研究和應(yīng)用。
1) 自動駕駛中的分割:
語義分割的目標(biāo)是將場景劃分為幾個有意義的部分,通常通過用語義標(biāo)記圖像中的每個像素(語義分割),通過同時檢測目標(biāo)并將每個像素與每個目標(biāo)區(qū)分開來(實(shí)例分割),或者通過結(jié)合語義和實(shí)例分割(全景分割)[96]。分割是計算機(jī)視覺中的關(guān)鍵任務(wù)之一,研究人員在ADE20K[97]、Pascal-VOC[94]、CityScape[98]等平臺上評估了他們的模型。然而,在AD場景中,經(jīng)典的3D CV區(qū)域,很難獨(dú)立完成感知任務(wù)。它通常涉及車道檢測、駕駛區(qū)域檢測、視覺界面模塊,或與點(diǎn)云結(jié)合提供語義信息。作者將簡要介紹基于分割的一般背景,然后重點(diǎn)介紹AD的分割研究。
1.1)語義分割:全卷積網(wǎng)絡(luò)(FCN)[99]是一種流行的語義分割結(jié)構(gòu),它采用卷積層來恢復(fù)輸出圖的大小。一些工作通過引入改進(jìn)的編碼器-解碼器[100]、擴(kuò)展卷積[101]、CRFs[102]、收縮空間金字塔池(ASPP)[103]來擴(kuò)展FCN。此外,由于池化和膨脹卷積運(yùn)算,上述方法涉及固定的正方形上下文區(qū)域。關(guān)系上下文方法[104]提取像素之間的關(guān)系。[105]通過信道級聯(lián)和跳過連接來追求高分辨率,尤其是在醫(yī)療領(lǐng)域。在AD領(lǐng)域,語義分割網(wǎng)絡(luò)可能熟悉常見的結(jié)構(gòu),研究人員應(yīng)該更多地關(guān)注特殊類別和遮擋,并在道路場景的數(shù)據(jù)集上評估他們的模型[98]。為了在數(shù)據(jù)集上實(shí)現(xiàn)SOTA結(jié)果,研究人員引入了多尺度注意力機(jī)制[106],邊界感知分割模塊[107]。此外,由于缺乏AD場景的標(biāo)記數(shù)據(jù),一些研究側(cè)重于道路上目標(biāo)的屬性,如考慮跨類目標(biāo)之間的內(nèi)在相關(guān)性[108]或半監(jiān)督分割機(jī)制。
1.2)實(shí)例分割:實(shí)例分割是為每個目標(biāo)實(shí)例預(yù)測一個掩碼及其對應(yīng)的類別。早期的方法[115]設(shè)計了一種架構(gòu)來真實(shí)化目標(biāo)檢測和分割任務(wù)。掩碼-RCNN[115]擴(kuò)展了更快的RCNN,以通過二進(jìn)制分割識別每個像素的類別,并根據(jù)區(qū)域建議網(wǎng)絡(luò)(RPN)匯集感興趣區(qū)域(RoI)的圖像特征。一些研究人員通過引入系數(shù)網(wǎng)絡(luò)[116]、每個掩碼的IoU分?jǐn)?shù)和形狀先驗(yàn)來改進(jìn)預(yù)測,從而開發(fā)了基本結(jié)構(gòu)。與2D目標(biāo)檢測方法類似,[117]取代了檢測器采用單級結(jié)構(gòu)。[118]試圖避免檢測的影響并實(shí)現(xiàn)顯著的性能。為了在AD數(shù)據(jù)集上獲得有競爭力的分割結(jié)果,研究人員專注于3D空間上的幾何信息[119]、邊界識別[120]、結(jié)合語義分割(全景分割)[121]或入侵多幀(視頻庫)[122]。
1.3)泛光學(xué)分割:泛光學(xué)分割是為了統(tǒng)一像素級和實(shí)例級的語義分割[123],[124]設(shè)計了一個不同的分支來回歸語義和實(shí)例分割結(jié)果。泛光學(xué)FCN[125]旨在在統(tǒng)一的全卷積流水線中表示和預(yù)測前景事物和背景事物。Panoptic SegFormer[126]介紹了一種使用變換器進(jìn)行全景分割的簡潔有效的框架。對于AD場景,TASC[110]提出了一種新的可微分方法,以減少訓(xùn)練過程中兩個子任務(wù)之間的差距。Axial DeepLab[109]構(gòu)建了一個具有全局感受野和位置敏感注意力層的獨(dú)立注意力模型,以低計算成本捕獲位置信息。此外,研究人員通過引入一種新的作物感知邊界盒回歸損失和樣本方法[127]來解決道路上的多尺度問題,并通過組合優(yōu)化策略捕獲目標(biāo)的邊界。這些方法在CityScape[98]或Mapillary Vistas[128]的任務(wù)中取得了有競爭力的結(jié)果。
2) 自動駕駛中的深度估計
這類任務(wù)是在相機(jī)平面上呈現(xiàn)深度信息,這是增強(qiáng)基于視覺的3D目標(biāo)檢測的有效方法,也是連接激光雷達(dá)和相機(jī)的潛在橋梁。深度完成任務(wù)是深度估計的一個子問題[129]。在稀疏到密集深度完成問題中,研究人員通過計算方法或來自傳感器的多個數(shù)據(jù)從稀疏深度圖推斷3D場景的密集深度圖。
主要困難包括:
1)稀疏深度中的不規(guī)則間隔模式,
2)多傳感器模態(tài)的融合方法(可選)
3)一些數(shù)據(jù)和現(xiàn)實(shí)世界缺乏密集的像素級真值(可選)。
深度估計是測量每個像素相對于相機(jī)的距離的任務(wù)。深度值是通過有監(jiān)督(通過深度完成獲得的密集圖)[130]、無監(jiān)督[131]、激光雷達(dá)制導(dǎo)[132]或雙目計算[133]從單目或雙目圖像中提取的。一些方法[134135]引入了CRF模塊、多任務(wù)結(jié)構(gòu)、全局提取器和分段平面性優(yōu)先級,以在流行的基準(zhǔn)測試(如KITTI[85]和NYUv2[136])中實(shí)現(xiàn)有競爭力的性能。模型通常根據(jù)RMS度量進(jìn)行評估[85]。對于室外單目深度估計,DORN[137]采用多尺度網(wǎng)絡(luò)結(jié)構(gòu)來捕獲上下文信息。MultiDepth[114]利用深度區(qū)間分類作為輔助任務(wù)。HGR[138]提出了一種層次指導(dǎo)和正則化學(xué)習(xí)框架來估計深度。SDNet[113]通過利用涉及深度和語義的雙重獨(dú)立估計頭來改進(jìn)結(jié)果。VNL[112]設(shè)計了一種新穎的結(jié)構(gòu),該結(jié)構(gòu)包括多個階段的局部平面引導(dǎo)層。[139]使用由隨機(jī)采樣的三個點(diǎn)確定的法線方向的幾何約束來提高深度預(yù)測精度。BANet[111]引入了雙向注意力模塊,該模塊采用前饋特征圖并結(jié)合全局信息來消除歧義。無監(jiān)督方法[140]吸引了大量研究人員,因?yàn)樗梢詼p少對標(biāo)記數(shù)據(jù)的要求,并消除過度擬合問題。此外,由于存在不適定問題,純單目深度估計只能獲得相對深度值,而雙目制導(dǎo)方法可以獲得絕對深度值。[141]介紹了變壓器結(jié)構(gòu),以獲得有競爭力的結(jié)果。雙目深度估計方法可以在雙目視差估計任務(wù)中找到。
3) 自動駕駛中的流量估計:
與分割和深度估計任務(wù)類似,流量估計側(cè)重于圖像平面,它呈現(xiàn)數(shù)據(jù)幀期間的像素移動。它現(xiàn)在引起了人們的興趣,其研究可以用于事件相機(jī)方法。
3.1)光流估計:光流是指像素在成像系統(tǒng)中的移動,包括水平和垂直兩個方向。與基于無監(jiān)督視頻的深度估計類似,可以通過最小化目標(biāo)圖像和源圖像之間的差異來推斷像素運(yùn)動[142]。SPyNet[143]提出了一種輕量級框架,該框架采用經(jīng)典的空間金字塔公式進(jìn)行光流估計。此外,它還試圖估計大位移運(yùn)動和精確的亞像素流。PWC Net[144]包括三個子網(wǎng),即特征金字塔提取器、翹曲層和成本體積層,以提高光流的質(zhì)量。
3.2)場景流估計:場景流估計表示一個3D運(yùn)動場,可以視為光流的擴(kuò)展。因此,它是3D場景中光流和深度估計的結(jié)合。在場景流的整體訓(xùn)練步驟中,很少使用單目圖像,該結(jié)構(gòu)以雙目視頻為輸入來回歸視差以恢復(fù)尺度。DRISF[145]將高斯牛頓(GN)的推理步驟視為遞歸神經(jīng)網(wǎng)絡(luò)(RNN),這意味著它可以用端到端的方法進(jìn)行訓(xùn)練。FD-Net[146]進(jìn)一步擴(kuò)展了無監(jiān)督深度估計,并將全流分解為目標(biāo)流(目標(biāo)像素)和剛性流(背景像素),以分別評估特征,從而能夠避免由于遮擋和截斷而導(dǎo)致的扭曲模糊。競爭協(xié)作(CC)[147]將場景流量估計設(shè)置為具有三個玩家的游戲。其中兩人爭奪資源,最后一人擔(dān)任主持人。GeoNet[148]由兩個模塊組成,一個是具有6 DoF自我運(yùn)動估計的單目深度,另一個是用于學(xué)習(xí)目標(biāo)光流的殘差網(wǎng)絡(luò)。
CityScape和KITTI的全景分割和深度估計性能如下表III所示。PQ、SQ、RQ分別指[123]中的全景分割、分割質(zhì)量和識別質(zhì)量,對于深度估計,SILog(比例不變對數(shù)誤差)、sqErrorRel(相對平方誤差)和iRMSE(均方根逆深度的平方誤差)是KITTI中的經(jīng)典度量。與檢測類似,研究人員引入了自注意機(jī)制、額外的訓(xùn)練數(shù)據(jù)和新的網(wǎng)絡(luò)單元,以提高場景理解任務(wù)的準(zhǔn)確性。作者提到,上述任務(wù)并沒有直接向AD中的規(guī)劃和控制等下游任務(wù)提供輸出。在實(shí)際任務(wù)中,語義分割、深度估計和光流估計將相互結(jié)合,以提供更豐富的像素語義信息,從而提高跨模態(tài)數(shù)據(jù)融合的準(zhǔn)確性,運(yùn)動目標(biāo)的空間檢測和跟蹤。

預(yù)測

基于模型的方法:
這些方法預(yù)測智能體的行為,如變道、左轉(zhuǎn)等。預(yù)測車輛行為概率分布的最簡單方法之一是自主多模型(AMM)算法。該算法計算每個代理的最大概率軌跡。2) 數(shù)據(jù)驅(qū)動方法:這些方法主要由神經(jīng)網(wǎng)絡(luò)組成。在感知數(shù)據(jù)集上訓(xùn)練后,模型對下一個行為進(jìn)行預(yù)測。DESIRE提出了一種編碼器-解碼器框架,該框架創(chuàng)新地結(jié)合了場景上下文和流量代理之間的交互。SIMP離散輸出空間,計算車輛目的地的分布,并預(yù)測估計的到達(dá)時間和空間偏移。FaF開創(chuàng)了基于激光雷達(dá)點(diǎn)云的檢測和短期運(yùn)動預(yù)測的統(tǒng)一。預(yù)測模塊有時與感知分離,主要是因?yàn)橄掠我?guī)劃模塊接收感知和預(yù)測結(jié)果。未來對預(yù)測的研究將側(cè)重于廣義規(guī)則的制定、場景的普遍性和模塊的簡單性。E.跟蹤跟蹤問題從一系列車載傳感器數(shù)據(jù)開始。根據(jù)神經(jīng)網(wǎng)絡(luò)是否嵌入跟蹤框架,作者將其分為傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)方法。1) 傳統(tǒng)方法:卡爾曼濾波器是一種著名的算法,尤其是在跟蹤代理方面。由于計算成本低,即使在簡單場景中的低規(guī)格硬件上,基于卡爾曼的方法也具有快速響應(yīng)時間。跟蹤問題也可以顯示為圖搜索問題。與基于卡爾曼的方法相比,基于圖的方法最重要的優(yōu)點(diǎn)是它更適合于多跟蹤問題。[155]利用基于圖的方法,使用最小成本方法來解決跟蹤問題。
神經(jīng)網(wǎng)絡(luò)方法:
在給定相關(guān)且數(shù)量充足的訓(xùn)練數(shù)據(jù)的情況下,神經(jīng)網(wǎng)絡(luò)具有能夠?qū)W習(xí)重要且穩(wěn)健的特征的優(yōu)勢。CNN被廣泛用于特工追蹤。[156]使用來自卷積層的值的組合來處理多代理跟蹤。為從淺卷積層提取的信息提出了適當(dāng)?shù)臑V波器,與更深的層或多層的組合相比,實(shí)現(xiàn)了相同水平的魯棒性。RNN還為解決跟蹤任務(wù)中的時間相干問題提供了一種智能的方法。[158]使用基于LSTM的分類器在多個時間幀上跟蹤代理。與CNN方法相比,基于LSTM的方法更適合于去除和重新插入候選觀測值,尤其是當(dāng)目標(biāo)離開或重新進(jìn)入場景的可見區(qū)域時。在這兩項(xiàng)任務(wù)中,聯(lián)合感知和跟蹤可以實(shí)現(xiàn)SOTA結(jié)果。在現(xiàn)實(shí)中,穩(wěn)定的跟蹤可以降低系統(tǒng)對實(shí)時檢測的要求,也可以校正檢測結(jié)果。目前,聯(lián)合任務(wù)學(xué)習(xí)策略受到越來越多研究者的青睞。
規(guī)劃
規(guī)劃模塊負(fù)責(zé)為ego車輛的低級別控制器找到要跟蹤的局部軌跡。規(guī)劃模塊負(fù)責(zé)為ego車輛的低級控制器找到要跟蹤的局部軌跡。這里,“局部”是指所得軌跡在其空間或時間范圍內(nèi)較短;否則ego車輛不能對超出傳感器范圍的風(fēng)險做出反應(yīng)。規(guī)劃模塊通常包含三個功能,即全局路線規(guī)劃、局部行為規(guī)劃和局部軌跡規(guī)劃。全局路線規(guī)劃在全局地圖上提供從起點(diǎn)到目的地的道路級路徑;局部行為規(guī)劃決定接下來幾秒鐘的駕駛行為類型(例如,跟車、輕推、側(cè)傳、讓行和超車),而局部軌跡規(guī)劃基于所決定的行為類型生成短期軌跡。本節(jié)回顧了與規(guī)劃模塊中的三個功能相關(guān)的技術(shù),如下圖5所示。

全局路線規(guī)劃
全局路線規(guī)劃負(fù)責(zé)在道路網(wǎng)絡(luò)中找到最佳道路級路徑,該路徑以包含數(shù)百萬條邊和節(jié)點(diǎn)的有向圖的形式呈現(xiàn)。路線規(guī)劃器在有向圖中搜索,以找到連接起點(diǎn)和終點(diǎn)節(jié)點(diǎn)的最小成本序列。這里,成本是基于查詢時間、預(yù)處理來定義的考慮了復(fù)雜性、內(nèi)存占用率和/或解決方案穩(wěn)健性。全局路線規(guī)劃技術(shù)的發(fā)展歷史比自動駕駛汽車技術(shù)要長得多,因?yàn)槿致肪€規(guī)劃也為手動駕駛汽車服務(wù)。如所示,現(xiàn)有的全局路由規(guī)劃方法分為目標(biāo)導(dǎo)向方法、基于分離器的方法、層次方法、有界跳方法及其組合。
局部行為/軌跡規(guī)劃
局部行為規(guī)劃和局部軌跡規(guī)劃功能協(xié)同工作,沿著識別的全局路線輸出局部軌跡,如下圖6所示。

由于產(chǎn)生的軌跡是局部的,除非全局目的地不遠(yuǎn),否則這兩個功能必須以后退的方式實(shí)現(xiàn)。值得強(qiáng)調(diào)的是,這兩個功能的輸出應(yīng)該是軌跡而不是路徑,否則自車需要額外的努力來躲避環(huán)境中的移動障礙。從廣義上講,這兩項(xiàng)職能將以兩種不同的方式發(fā)揮作用。一種是端到端的方式,即開發(fā)一個集成系統(tǒng),從機(jī)載傳感器接收原始數(shù)據(jù)并直接輸出本地軌跡。另一種方法是依次實(shí)現(xiàn)局部行為規(guī)劃和局部軌跡規(guī)劃功能。
1) 端到端方法
與下一小節(jié)中回顧的順序規(guī)劃解決方案相比,端到端解決方案名義上更有效地處理車輛環(huán)境交互,因?yàn)楦兄鸵?guī)劃模塊之間沒有外部間隙。端到端系統(tǒng)的輸入是機(jī)載傳感器獲得的大量原始數(shù)據(jù),而輸出是局部軌跡。由于輸入和輸出之間的關(guān)系過于復(fù)雜,無法概括為完整的規(guī)則,因此通常使用機(jī)器學(xué)習(xí)方法,其中大多數(shù)方法分為基于模仿學(xué)習(xí)和基于強(qiáng)化學(xué)習(xí)的方法。一種基于模仿學(xué)習(xí)的方法基于訓(xùn)練樣本構(gòu)建神經(jīng)網(wǎng)絡(luò)。挑戰(zhàn)在于如何收集一致的大量訓(xùn)練樣本,以及如何保證學(xué)習(xí)效率(例如,不存在過度擬合)?;趶?qiáng)化學(xué)習(xí)的方法通過試錯操作獲得知識,因此它們較少依賴外部訓(xùn)練樣本的質(zhì)量和數(shù)量。端到端方法仍然不成熟,因此大多數(shù)方法都是在模擬中訓(xùn)練/測試的,而不是在現(xiàn)實(shí)世界中。最近的研究工作集中在如何提高學(xué)習(xí)的可解釋性、安全性和效率上。
2) 基于順序規(guī)劃的方法
與上述端到端解決方案相反,在過去十年中,順序應(yīng)用局部行為規(guī)劃和軌跡規(guī)劃函數(shù)是一種常見的傳統(tǒng)選擇。然而,局部行為規(guī)劃和軌跡規(guī)劃之間的界限相當(dāng)模糊,例如,一些行為規(guī)劃人員所做的不僅僅是識別行為類型。為了便于理解,本文沒有嚴(yán)格區(qū)分這兩種函數(shù),將相關(guān)方法簡單地視為軌跡規(guī)劃方法。名義上,軌跡規(guī)劃是通過解決最優(yōu)控制問題(OCP)來完成的,該問題在滿足多種類型的硬約束的情況下最小化預(yù)定義的成本函數(shù)。OCP的解決方案表示為時間連續(xù)控制和狀態(tài)分布,其中所需軌跡由狀態(tài)分布(的一部分)反映。由于這種OCP的分析解決方案通常不可用,因此需要兩種類型的操作來構(gòu)建軌跡。具體地,第一種類型的操作是識別狀態(tài)網(wǎng)格序列,而第二種類型是在相鄰的狀態(tài)網(wǎng)格之間生成基元。
2.1 狀態(tài)網(wǎng)格識別:狀態(tài)網(wǎng)格識別可以通過搜索、選擇、優(yōu)化或潛在的小型化來完成?;谒阉鞯姆椒▽⑴c上述OCP相關(guān)的連續(xù)狀態(tài)空間抽象成圖,并在那里找到狀態(tài)的鏈接。流行的基于搜索的方法包括A*搜索和動態(tài)編程(DP)?;谶x擇的方法通過尋找具有最優(yōu)成本/回報函數(shù)值的候選者來決定下一步或幾個步驟中的狀態(tài)網(wǎng)格。貪婪選擇和馬爾可夫決策過程(MDP)系列方法通常屬于這一類。一種基于優(yōu)化的方法將原始OCP離散化為數(shù)學(xué)程序(MP),其解為高分辨率狀態(tài)網(wǎng)格。MP解算器進(jìn)一步分為基于梯度的解算器和非基于梯度的求解器;基于梯度的求解器通常求解非線性規(guī)劃、二次規(guī)劃、二階約束二次規(guī)劃或混合整數(shù)規(guī)劃;基于非梯度的解算器通常由元啟發(fā)式方法表示。基于勢最小化的方法通過模擬它們被力或啟發(fā)式勢場排斥或吸引的過程來調(diào)整狀態(tài)網(wǎng)格的位置。這一類別中流行的方法包括彈性帶(EB)系列、人工勢場方法和力平衡模型。
每種狀態(tài)網(wǎng)格識別方法的能力不同。例如,基于梯度優(yōu)化和基于潛在最小化的方法通常比典型的基于搜索/選擇的方法更靈活和穩(wěn)定,但基于搜索/選取的方法更有效地全局探索整個狀態(tài)空間。不同的方法可以聯(lián)合起來作為一種從粗到細(xì)的策略,正如許多研究所實(shí)施的那樣。
2.2 原始生成:原始生成通常通過閉式規(guī)則、模擬、插值和運(yùn)算來完成。閉式規(guī)則是指通過具有閉式解決方案的分析方法生成基元的方法。典型的方法包括Dubins/Reed-Shepp曲線、多項(xiàng)式和理論最優(yōu)控制方法。基于仿真的方法通過前向仿真生成軌跡/路徑基元,由于沒有自由度,因此運(yùn)行速度快?;诓逯档姆椒ㄓ蓸訔l曲線或參數(shù)化多項(xiàng)式表示。基于優(yōu)化的方法在數(shù)值上解決了連接兩個狀態(tài)網(wǎng)格的小規(guī)模OCP。
狀態(tài)網(wǎng)格識別和基元生成是構(gòu)造軌跡的兩個必要操作。這兩種操作可以以各種方式組織。例如,在迭代循環(huán)中集成兩個運(yùn)算;在在線狀態(tài)網(wǎng)格識別之前離線構(gòu)建基元的圖;在生成連接基元之前識別狀態(tài)網(wǎng)格。
如果規(guī)劃者只找到了一條路徑而不是一條軌跡,那么作為后處理步驟,應(yīng)該在規(guī)劃的路徑上附加一個時間進(jìn)程。這種策略被稱為路徑速度分解(PVD),之所以被廣泛使用,是因?yàn)樗鼘⒁粋€3D問題轉(zhuǎn)換為兩個二維問題,這在很大程度上促進(jìn)了求解過程。相反,非PVD方法直接規(guī)劃軌跡,這具有提高解決方案最優(yōu)性的潛在優(yōu)點(diǎn)。
該研究領(lǐng)域的最新研究包括如何開發(fā)特別適合特定場景/任務(wù)的特定規(guī)劃者,以及如何在上游/下游模塊不完善的情況下規(guī)劃安全軌跡。
結(jié)論
在本文中,作者對AD和IVs中的感知和規(guī)劃里程碑的研究發(fā)展進(jìn)行了廣泛的介紹。此外,還為這兩項(xiàng)任務(wù)提供了一些實(shí)驗(yàn)結(jié)果和獨(dú)特的見解。結(jié)合其他兩個部分,希望整個工作將為研究人員和初學(xué)者帶來新穎而多樣的見解,并成為連接過去和未來的橋梁。
參考
[1].Milestones in Autonomous Driving and Intelligent Vehicles Part II: Perception and Planning
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺融合、多傳感器標(biāo)定、多傳感器融合、3D目標(biāo)檢測、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習(xí)視頻(掃碼免費(fèi)學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國內(nèi)首個自動駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動駕駛之心】技術(shù)交流群
自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測、語義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測、BEV感知、Occupancy、多傳感器融合、大模型、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)
