智能汽車:自動駕駛算法篇-大模型助力,自動駕駛有望迎來奇點
報告出品方:開源證券
以下為報告原文節(jié)選
------
1、 自動駕駛——數(shù)據(jù)驅動下的算法迭代
1.1、 自動駕駛算法是感知、預測、規(guī)劃、控制的結合體
自動駕駛算法反應了工程師們根據(jù)人的思維模式,對自動駕駛所需處理過程的思考。通常包含感知、預測、規(guī)劃模塊,同時輔助一些地圖、定位等模塊,實現(xiàn)自動駕駛功能的落地。
1.1.1、 感知:感知外部世界
感知模塊主要解決四類任務:(1)檢測:找出物體在環(huán)境中的位置;(2)分類:明確對象是什么,如分辨不同類別交通標志;(3)跟蹤:隨著時間的推移觀察移動物體,通常采用跨幀追蹤對象(將不同幀中檢測到的對象進行匹配)、BEV 加入時序信息等實現(xiàn);(4)語義分割:將圖像中的每個像素與語義類別匹配,如道路、天空、汽車等,用于盡可能詳細了解環(huán)境。
以 Apollo 感知算法框架為例,其算法包含預處理、神經網(wǎng)絡模型、后處理等模塊。首先圖像預處理主要是對圖像進行調整、畸變校正等,使之更符合機器學習的要求。其次分別對紅綠燈、車道線、障礙物等特征進行檢測,其中紅綠燈通過檢測邊框、顏色等進行進一步的識別;障礙物則經過 2D 到 3D 的轉換,得出真實的信息坐標,再融合車道線檢測信息、外部傳感器信息等得出真實世界的障礙物信息。該部分通常采用全卷積神經網(wǎng)絡或者 YOLO 等算法實現(xiàn)。
1.1.2、 預測:理解外部環(huán)境和當前狀態(tài)
預測模塊實際上是算法對外部環(huán)境和自車狀態(tài)的理解。預測模塊首先收集感知模塊輸入的車道線、障礙物、紅綠燈、地圖、定位等信息對主車的狀況進行判斷。
其次場景感知模塊對外部障礙物的優(yōu)先級、路權等外部環(huán)境對主車的影響進行感知。
評估器則會根據(jù)場景信息和障礙物信息判斷出障礙物的軌跡或意圖。預測器則根據(jù)短期的預測軌跡和意圖判斷障礙物等外部環(huán)境相對長期的軌跡。這將為未來汽車的規(guī)劃提供重要的參考。算法層面通常以 RNN 為主。
1.1.3、 規(guī)劃:思考如何行動
規(guī)劃指找到合理路徑來到達目的地。規(guī)劃通常分為全局路徑規(guī)劃、行為規(guī)劃與運動規(guī)劃幾個部分。其中,全局路徑規(guī)劃指智能汽車依靠地圖規(guī)劃出理想狀態(tài)下到達目的地的路徑。行為規(guī)劃則是主車在實際行駛的過程中,面臨實時的交通環(huán)境,做出的各類駕駛行為,如跟車、換道、避讓等。運動規(guī)劃生成與駕駛行為對應的駕駛軌跡,包含路徑規(guī)劃和速度規(guī)劃。最后再采用一些優(yōu)化方式讓變道加速等行為變得平順以滿足舒適性要求。算法層面,通常采用基于規(guī)則的規(guī)劃決策算法,前沿的玩家也開始引入機器學習等方式,以提升決策效能。
1.2、 數(shù)據(jù):算法的養(yǎng)料,現(xiàn)實與虛擬的交織
算法、算力和數(shù)據(jù)是人工智能的三大要素,數(shù)據(jù)在模型訓練中擁有不可忽視的影響。一方面,Transformer 等大模型在大體量數(shù)據(jù)集訓練下才能表現(xiàn)更佳的特性帶來其對訓練端數(shù)據(jù)的要求激增,特斯拉在 2022 年 AI DAY 上曾表示,訓練其占用網(wǎng)絡采用了 14 億幀圖像數(shù)據(jù)。另一方面,由于自動駕駛面臨的場景紛繁復雜,諸多長尾問題需要在現(xiàn)實或虛擬場景中獲取。因此數(shù)據(jù)閉環(huán)在自動駕駛領域彌足重要。毫末智行將數(shù)據(jù)作為“自動駕駛能力函數(shù)”的自變量,認為是決定能力發(fā)展的關鍵,Momenta 也曾表示,L4 要實現(xiàn)規(guī)?;?,至少要做到人類司機的安全水平,最好比人類司機水平高一個數(shù)量級,因此需要至少千億公里的測試,解決百萬長尾問題。
數(shù)據(jù)挖掘和針對性的訓練能顯著減少 Corner Case。以特斯拉為例,在面臨一個
看起來像臨時停車但實際上是永久停車的場景時,最初算法會將其判定為臨時停車。
當特斯拉通過數(shù)據(jù)挖掘在訓練集中增加了 1.4 萬個類似場景的視頻并訓練模型后,神
經網(wǎng)絡便理解了這輛車里面沒有司機,將其判別為永久停車。
2、 大模型橫空出世,自動駕駛奇點來臨
早期自動駕駛方案采用激光雷達+高精度地圖為主。早期市場以傳統(tǒng)計算機視覺和專家系統(tǒng)為基礎構建輔助駕駛功能,隨后人工智能的蓬勃發(fā)展讓深度學習在自動駕駛領域被廣泛使用,以 waymo 為代表的自動駕駛先驅玩家開創(chuàng)了激光雷達+高精度地圖的感知范式,Cruise、百度等巨頭紛紛效仿。該方案中,對道路結構、車道線等靜態(tài)環(huán)境元素的感知強依賴高精度地圖,而實時的動靜態(tài)障礙物信息則強依賴激光雷達。高精地圖成為一項“基礎設施”,將很多在線難以解決的問題提前存儲到地圖數(shù)據(jù)中,行車時作為一項重要的感知數(shù)據(jù)來源,減輕傳感器和控制器的壓力。由于該方案只能在有圖地區(qū)行駛,也被一些人形象的稱為“有軌電車”。
高昂的單車成本和高精度地圖成為自動駕駛大規(guī)模推廣瓶頸。Robotaxi 成本高昂(Yole 統(tǒng)計早期 Waymo 為代表的的自動駕駛汽車改裝成本約為 20 萬美元),高精度地圖采集制作以及合規(guī)要求繁雜(量產落地過程中,高精度地圖面臨:采集成本高;人工修圖制圖費時費力;地圖鮮度不足;國內法規(guī)嚴格等困難),帶來該方案的泛化性較差。經過數(shù)十年的發(fā)展,Robotaxi 的使用范圍仍被限制在特定區(qū)域,使用對象也僅局限在商用車領域。市場亟待出現(xiàn)一種單車性能強大、成本低廉的自動駕駛解決方案。
2.1、 BEV+Transformer 橫空出世,大模型推動自動駕駛邁向普及
2021 年特斯拉推出 BEV+transformer、重感知輕地圖的自動駕駛解決方案,開啟了自動駕駛行業(yè)新的篇章。
2.1.1、 BEV 感知助力成為感知外部世界標準范式
BEV 全稱為 Bird’s Eye-View(鳥瞰圖),即通過神經網(wǎng)絡將各個攝像頭和傳感器獲取的信息進行融合,生成基于俯視的“上帝視角”的鳥瞰圖,同時加入時序信息,動態(tài)的對周邊環(huán)境進行感知輸出,便于后續(xù)預測規(guī)劃模塊使用。正如人類一樣,駕駛行為需要將各處觀察到的信息綜合到統(tǒng)一的空間中,來判別什么地方是可以行駛的區(qū)域。究其原因,駕駛行為是在 3D 空間中的行為,而鳥瞰圖則是將 2D 的透視空間圖像轉換為 3D 空間,不存在距離尺度問題和遮擋問題,使得算法可以直觀的判斷車輛在空間中的位置以及與其他障礙物之間的關系。
2.1.2、 Transformer 大模型為構建 BEV 空間提供最優(yōu)解
2021 年特斯拉在 AI Day 上第一次將 BEV+transformer 的算法形式引入到自動駕駛,開啟了自動駕駛的嶄新時代。首先 BEV 空間的構建,實際上就是尋找一種恰當?shù)姆绞?,將多個 2D 的圖像和傳感器信息綜合轉化成為一個 3D 的向量空間。經過多次嘗試,特斯拉最終引入了 Transformer 大模型來實現(xiàn)這一轉換。
Transformer 大模型是近年人工智能領域的熱門算法,其主要通過注意力機制來分析關注元素之間的關系進而理解外部世界。早年被應用于自然語言處理領域,后續(xù)延展到計算機視覺等多個方向。算法的優(yōu)勢顯著:
? 具有更好的全局信息感知能力:Transformer 模型更關注圖像特征之間的關系,因此會跟多關注整個圖像的信息,卷積神經網(wǎng)絡更多關注固定大小區(qū)域的局部信息,因此 Transformer 在面對圖像中長程依賴性的問題擁有更好的表現(xiàn)。
? 天花板高企適用于大規(guī)模數(shù)據(jù)訓練場景:在圖像識別能力方面,Transformer擁有更高的上限,隨著訓練數(shù)據(jù)量的增長,傳統(tǒng) CNN 模型識別能力呈現(xiàn)飽和態(tài)勢,而 Transformer 則在數(shù)據(jù)量越大的情況下?lián)碛懈玫谋憩F(xiàn)。而自動駕駛洽洽為面向海量的數(shù)據(jù)場景,要求有足夠好的精度的場景。
? 擁有多模態(tài)感知能力:Transformer 可實現(xiàn)多模態(tài)數(shù)據(jù)的處理,應對圖像分類、目標檢測、圖像分割功能,并實現(xiàn)對 3D 點云、圖像等數(shù)據(jù)的融合處理。
? 靈活、較好的泛化性能:Transformer 可適用于不同大小的輸入圖像,同時外部環(huán)境包含擾動的情況下仍能保持較好的檢測性能。
但 CNN 網(wǎng)絡在提取底層特征和視覺結構方面有比較大的優(yōu)勢,而在高層級的視覺語義理解方面,需要判別這些特征和結構之間的如何關聯(lián)而形成一個整體的物體,采用 Transformer 更加自然和有效。同時 CNN 也擁有更好的效率,可以采用更低的算力實現(xiàn)效果。因此業(yè)界通常會將 CNN 和 Transformer 結合來進行物體識別。
2.1.3、 特斯拉引領打開自動駕駛天花板
特斯拉的自動駕駛算法結構中,首先將攝像頭信息無損采集,送入卷積神經網(wǎng)絡 Regnet 來提取不同尺度的圖像特征,接著使用 BiFPN 進行特征融合,然后將這些特征送入 Transformer 模塊,利用 Transformer 中的多頭注意力機制來實現(xiàn) 2D 圖像特征到三維向量空間的轉換和多攝像頭特征系信息的融合,之后接入不同的“頭”如交通標志檢測、障礙物檢測等,來實現(xiàn)不同任務的處落地,形成一套優(yōu)雅的,可完美實現(xiàn)數(shù)據(jù)驅動的感知算法。由于不同的“頭”之間采用了共享的特征提取網(wǎng)絡,因此被特斯拉起名為“九頭蛇”算法架構。
特斯拉的 BEV+Transformer 算法中兩個環(huán)節(jié)尤為關鍵:
(1)2D 圖像到 3D 空間的轉換以及圖像融合:
在 2D 圖像到 3D 向量空間轉換的環(huán)節(jié),特斯拉在行業(yè)內首次引入了 Transformer。
具體而言,先構建一個想要輸出的三維的柵格空間,并對其進行位置編碼成為查詢向量(Query),然后將每個圖像和自己的特征輸出相應的查詢鍵碼(Key)和值(Value),最終輸入到注意力機制中輸出想要的結果。類似于每個圖像中的特征都廣播自己是什么物體的一部分,而每個輸出空間的位置像素像拼圖一樣,尋找對應的特征,最終構建出希望輸出的向量空間。(Query、Key、Value 分別為 Transformer 算法中的參數(shù),通過將外部世界轉化為參數(shù)而實現(xiàn)信息處理和任務輸出)
(2)加入時序信息,讓算法擁有“記憶”:
為了讓自動駕駛算法擁有類似一段時間內“記憶”的能力,特斯拉在感知網(wǎng)絡架構中加入了時空序列特征層。通過引入慣性導航傳感器獲取的包含速度和加速度等自車運動的信息,算法模型可獲取時間和空間的記憶能力。具體而言,特斯拉給算法加入特征隊列模塊(Feature Queue),他會緩存一些特征值(包含歷史幀的 BEV特征、慣導傳感器信息等),便于了解車輛行動,這個序列包含時間和空間記憶。然后引入視頻模塊(Video Module)使用空間循環(huán)神經網(wǎng)絡(Spatial RNN)/transformer等算法將前述緩存的特征進行融合,關聯(lián)前后時刻信息,使得模型具有記憶能力,讓自動駕駛汽車將同時能夠記住上一段時間和上一段位置的檢測信息。
2.1.4、 BEV+Transformer 大模型提供遠強于傳統(tǒng)自動駕駛算法的感知能力
(1)改善 2D-3D 空間轉換過程中深度預測難點,感知性能大幅提升
引入 BEV+Transformer 后,模型對于 2D 空間向 3D 空間轉換的精度大幅提高。
構建 BEV 模型一大重要任務是實現(xiàn) 2D 圖片到 3D 空間的轉換,通常業(yè)內有四大類方式實現(xiàn) 2D-3D 視角轉換:早期通常以基于相機內外參數(shù)(焦距、光芯、俯仰角、偏航角和地面高度)的幾何變換的 IPM(逆透視變換)實現(xiàn),由于該方式基于地面純平、俯仰角一定的假設,約束條件實現(xiàn)難度高;后續(xù)英偉達推出 BEV 行業(yè)的開山之作LSS算法,但由于其計算量龐大以及精度仍然有限,難以支撐BEV的真正落地;其后學界業(yè)界探索了眾多方案,包含基于神經網(wǎng)絡,通過監(jiān)督學習數(shù)據(jù)驅動實現(xiàn) BEV空間構建等方式,但深度估計的精度均不盡人意。2021 年,特斯拉首次將 Transformer應用于 BEV 空間的構建,在多攝像頭視角下,相比傳統(tǒng)感知方式,大幅提升了感知精度,該方案推出后也迅速被業(yè)界廣泛追捧。
(2)完美實現(xiàn)多攝像頭、多傳感器的信息融合,極大方便后續(xù)規(guī)控任務BEV+Transformer 實際上引入“特征級融合”(中融合)方式。通常自動駕駛汽車擁有 6-8 個攝像頭以及其他多種傳感器,在感知過程中,需要將各類傳感器的信息進行融合。傳感器融合大體可分為幾大類:
? 數(shù)據(jù)級融合(前融合):直接將傳感器采集的數(shù)據(jù)如圖像和點云融合。該方案優(yōu)勢在于數(shù)據(jù)損失少,融合效果好,但時間同步、空間同步要求達到像素級別,難度較高,需要對每個像素計算,對算力消耗大,目前少有使用。
? 目標級融合(后融合):將每個傳感器采集信息并處理后的目標進行融合。
該方案是此前自動駕駛主流采用的方案,被廣泛應用于攝像頭之間、不同傳感器之間的信息融合。優(yōu)勢在于算法簡單、解耦性好即插即用。但也存在致命問題,由于融合前的處理損失了大量關鍵信息,影響感知精度,融合結果容易沖突或錯誤。此外后融合中的融合算法仍然基于規(guī)則,無法進行數(shù)據(jù)驅動,存在局限性。
? 特征級融合(中融合):則將原始傳感器采集的數(shù)據(jù)經過特征提取后再將特征向量進行融合。該方案的優(yōu)勢在于,數(shù)據(jù)損失少、將目標“分解”為特征,更容易在不同相機和傳感器之間關聯(lián),融合效果好。在 BEV+transformer算法中實際上均采用中融合的方式。
--- 報告摘錄結束 更多內容請閱讀報告原文 ---
報告合集專題一覽 X 由【報告派】定期整理更新
(特別說明:本文來源于公開資料,摘錄內容僅供參考,不構成任何投資建議,如需使用請參閱報告原文。)
精選報告來源:報告派
新能源 / 汽車 / 儲能
新能源汽車 | 儲能 | 鋰電池 | 燃料電池 | 動力電池 | 動力電池回收 | 氫能源 | 充電樁 | 互聯(lián)網(wǎng)汽車 | 智能駕駛 | 自動駕駛 | 汽車后市場 | 石油石化 | 煤化工 | 化工產業(yè) | 磷化工 | 基礎化工 | 加油站 | 新材料 | 石墨烯 | 高分子 | 耐火材料 | PVC | 聚氯乙烯 | 綠色能源 | 清潔能源 | 光伏 | 風力發(fā)電 | 海上發(fā)電