最新綜述一覽!自動(dòng)駕駛中基于Transformer的模型和硬件加速分析
今天自動(dòng)駕駛之心為大家分享自動(dòng)駕駛中基于Transformer的模型和硬件加速分析的最新綜述!如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!
論文作者?|?Juan Zhong
編輯 | 自動(dòng)駕駛之心
論文鏈接:https://arxiv.org/abs/2304.10891
近年來(lái),Transformer架構(gòu)在各種自動(dòng)駕駛應(yīng)用中表現(xiàn)出了良好的性能。另一方面,其在便攜式計(jì)算平臺(tái)上的專用硬件加速已成為在實(shí)際自動(dòng)駕駛汽車中實(shí)際部署的下一個(gè)關(guān)鍵步驟。我們這篇調(diào)查論文提供了基于Transformer的模型的全面概述、基準(zhǔn)和分析,這些模型專門(mén)為自動(dòng)駕駛?cè)蝿?wù)(如車道檢測(cè)、分割、跟蹤、規(guī)劃和決策)量身定制。我們回顧了用于組織Transformer輸入和輸出的不同架構(gòu),如編碼器-解碼器和僅編碼器結(jié)構(gòu),并探討了它們各自的優(yōu)缺點(diǎn)。此外深入討論了與Transformer相關(guān)的運(yùn)算符及其硬件加速方案,并考慮了量化和運(yùn)行時(shí)間等關(guān)鍵因素。我們還特別說(shuō)明了卷積神經(jīng)網(wǎng)絡(luò)、Swin Transformer和Transformer與4D編碼器的層之間的操作員級(jí)比較。該論文還強(qiáng)調(diào)了基于Transformer的模型的挑戰(zhàn)、趨勢(shì)和當(dāng)前見(jiàn)解,在長(zhǎng)期自動(dòng)駕駛應(yīng)用的背景下解決了它們的硬件部署和加速問(wèn)題。
Transformer模型和任務(wù)
注意力機(jī)制和Transformer架構(gòu)的發(fā)展歷史可以通過(guò)一系列關(guān)鍵的發(fā)展和里程碑論文來(lái)追溯,如圖2所示。Bahdanau等人首先在神經(jīng)機(jī)器翻譯的背景下引入了注意機(jī)制,提出了源序列和目標(biāo)序列之間的動(dòng)態(tài)對(duì)齊方法。這種方法克服了早期序列到序列模型中固定長(zhǎng)度上下文向量的局限性。Luong等人通過(guò)呈現(xiàn)局部和全局注意力,進(jìn)一步完善了注意力機(jī)制,前者關(guān)注較小的源序列子集,后者考慮所有源詞進(jìn)行可變長(zhǎng)度對(duì)齊上下文計(jì)算。

Vaswani等人首次介紹了Transformer體系結(jié)構(gòu),這是該領(lǐng)域的一個(gè)里程碑。這一創(chuàng)新顯著提高了各種NLP任務(wù)的性能。隨后,Devlin等人提出了BERT(來(lái)自Transformer的雙向編碼器表示),這是一種使用Transformer架構(gòu)的雙向表示的預(yù)訓(xùn)練模型。當(dāng)對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí),BERT在NLP任務(wù)中獲得了前所未有的性能。在另一個(gè)研究領(lǐng)域,Radford等人提出了GPT(Generative Pre-trained Transformer)模型,該模型采用單向Transformer架構(gòu)進(jìn)行語(yǔ)言模型預(yù)訓(xùn)練。在特定任務(wù)上微調(diào)GPT產(chǎn)生了實(shí)質(zhì)性的性能改進(jìn),隨后的迭代(GPT-2、GPT-3和GPT-4)繼續(xù)推進(jìn)最先進(jìn)的技術(shù)。最近,Dosovitskiy等人用視覺(jué)轉(zhuǎn)換器(ViT)模型證明了Transformer架構(gòu)對(duì)計(jì)算機(jī)視覺(jué)任務(wù)的適用性。通過(guò)將圖像劃分為不重疊的補(bǔ)丁并使用線性嵌入,作者在圖像分類任務(wù)中獲得了與傳統(tǒng)CNN模型相比具有競(jìng)爭(zhēng)力的結(jié)果。ViT也是圖像處理任務(wù)中后續(xù)基于Transformer的模型的基本架構(gòu)之一。
A.圖像處理的基礎(chǔ)模型
作為基于Transformer的圖像處理模型的先驅(qū)架構(gòu),ViT用自注意力層取代了傳統(tǒng)CNN的卷積層。如圖3所示,它將圖像劃分為一系列不重疊的補(bǔ)丁,然后將這些補(bǔ)丁輸入Transformer編碼器,以學(xué)習(xí)圖像的表示。Transformer編碼器由幾個(gè)自注意層和前饋層組成。自注意力機(jī)制允許網(wǎng)絡(luò)關(guān)注圖像中的相關(guān)補(bǔ)丁,而忽略不相關(guān)的補(bǔ)丁。為了使ViT適用于更大的圖像,作者引入了一種將卷積層與自注意力層相結(jié)合的混合方法。卷積層用于降低圖像的空間分辨率,而自注意力層則捕獲了補(bǔ)丁之間的長(zhǎng)程依賴關(guān)系。

受ViT的啟發(fā),Swin Transformer引入了一種新的層次結(jié)構(gòu),將自注意力機(jī)制組織成多層次結(jié)構(gòu),其中每個(gè)層次由一組不重疊的補(bǔ)丁組成。這種方法的動(dòng)機(jī)是觀察到,由于自注意力機(jī)制的二次復(fù)雜性,ViT的可擴(kuò)展性有限。Swin Transformer的主要?jiǎng)?chuàng)新是使用了移位窗口,這使得補(bǔ)丁能夠照顧到它們的鄰居,同時(shí)避免與相鄰的補(bǔ)丁重疊。這減少了計(jì)算自注意力所需的計(jì)算次數(shù),并使架構(gòu)能夠擴(kuò)展到更大的圖像大小。它還引入了一種新的標(biāo)記化方案,將圖像劃分為固定大小的不重疊補(bǔ)丁,然后在層次結(jié)構(gòu)的每個(gè)級(jí)別將補(bǔ)丁遞歸分組為更大的“宏補(bǔ)丁”。這種方法有助于保存空間信息,并使模型能夠捕捉局部和全局上下文。許多感知模型使用Swin Transformer作為主干來(lái)獲得圖像特征,例如BEVFusion和BEVerse。
在自動(dòng)駕駛應(yīng)用中,基于Transformer的架構(gòu)已被廣泛用于各種子任務(wù),包括目標(biāo)檢測(cè)、車道檢測(cè)和分割、跟蹤和定位、路徑規(guī)劃和決策。此外,最近的研究探索了Transformer在構(gòu)建自動(dòng)駕駛端到端深度學(xué)習(xí)模型中的應(yīng)用。這些模型利用注意力機(jī)制,進(jìn)一步提高其關(guān)注相關(guān)信息的能力,并在復(fù)雜的現(xiàn)實(shí)世界駕駛場(chǎng)景中有效執(zhí)行。在本節(jié)的其余部分中,我們根據(jù)任務(wù)回顧了基于Transformer的模型,如表I所示。我們主要將任務(wù)分為三類:3D和一般感知任務(wù)(包括目標(biāo)檢測(cè)、跟蹤和3D分割);2D和平面任務(wù)(包括車道檢測(cè)、分割和高清(HD)地圖生成);以及其他任務(wù)(包括軌跡預(yù)測(cè)、行為預(yù)測(cè)和端到端任務(wù))。

B.3D和一般感知任務(wù)
第一類任務(wù)是3D和一般感知,包括目標(biāo)檢測(cè)、跟蹤和3D分割任務(wù)。這是過(guò)去幾年中開(kāi)發(fā)的基于Transformer的模型最受歡迎的研究領(lǐng)域之一。這類任務(wù)旨在分割、識(shí)別和跟蹤物體,如車輛、行人和環(huán)境中的其他元素。在各種基于Transformer的模型中,DETR是一個(gè)早期的重要模型,它啟發(fā)了許多后續(xù)工作,盡管它最初是為2D檢測(cè)而設(shè)計(jì)的。DETR將對(duì)象檢測(cè)視為使用預(yù)生成框的預(yù)測(cè)問(wèn)題,并消除了傳統(tǒng)的錨點(diǎn)。它采用了基于匈牙利算法的二分匹配方法來(lái)直接預(yù)測(cè)一對(duì)一的對(duì)象集。已經(jīng)提出了可變模型,如可變形DETR,通過(guò)引入可變形注意力來(lái)提高模型的收斂速度和解決查詢模糊性。在DETR架構(gòu)的基礎(chǔ)上,DETR3D將Transformer應(yīng)用于多個(gè)相機(jī),用于鳥(niǎo)瞰(BEV)空間中的3D對(duì)象檢測(cè)。它首先將點(diǎn)云數(shù)據(jù)(來(lái)自激光雷達(dá))轉(zhuǎn)換為3D體素表示,然后將其輸入到修改的DETR架構(gòu)中,該架構(gòu)使用多尺度特征融合來(lái)捕獲全局和局部上下文信息。FUTR在架構(gòu)上也類似于DETR,但使用了多傳感器(圖像+激光雷達(dá)+雷達(dá))。多模態(tài)輸入被融合成純電動(dòng)汽車特征,然后被提升以實(shí)現(xiàn)3D BBOX。在FUTR的基礎(chǔ)上,F(xiàn)UTR3D將3D目標(biāo)檢測(cè)擴(kuò)展到多模式融合。它在結(jié)構(gòu)上與DETR3D類似,但增加了模態(tài)不可知特征采樣器(MAFS),能夠處理各種傳感器配置并融合不同的模態(tài),包括2D相機(jī)、3D激光雷達(dá)、3D雷達(dá)和4D成像雷達(dá)。
PETR是將位置嵌入變換用于多視圖3D檢測(cè)的另一個(gè)最新發(fā)展。它將三維坐標(biāo)位置信息編碼為圖像特征,產(chǎn)生三維位置感知特征。在推理過(guò)程中,3D位置坐標(biāo)可以離線生成,并用作額外的輸入位置嵌入。CrossDTR結(jié)合了PETR和DETR3D的優(yōu)勢(shì),創(chuàng)建了一個(gè)跨視圖和深度引導(dǎo)的框架,該框架實(shí)現(xiàn)了與其他方法相當(dāng)?shù)木龋瑫r(shí)由于解碼器層較少而提供了快速的處理時(shí)間。BEV公式采用了不同的方法,采用時(shí)空變換器架構(gòu)進(jìn)行統(tǒng)一的BEV表示,以提高性能,而不依賴于多模態(tài)輸入。它融合了空間和時(shí)間融合,利用歷史信息提高了性能。BEVFormer采用時(shí)間自注意模塊從歷史BEV特征中提取特征,用于運(yùn)動(dòng)目標(biāo)速度估計(jì)和遮擋目標(biāo)檢測(cè),并在垂直方向上擴(kuò)展空間交叉注意,用于BEV Z方向上的柱狀查詢。相反,UVTR專注于通過(guò)使用圖像和激光雷達(dá)輸入之間的跨模態(tài)交互來(lái)增強(qiáng)深度推斷,在沒(méi)有高度壓縮的情況下為BEV中的每個(gè)模態(tài)生成單獨(dú)的體素空間,然后通過(guò)知識(shí)轉(zhuǎn)移和模態(tài)融合融合多模態(tài)信息。這種方法為擴(kuò)展三維占有率研究提供了一個(gè)很有前途的方向。
在3D分割任務(wù)中,TPVFormer通過(guò)將體積轉(zhuǎn)換為三個(gè)BEV平面來(lái)解決基于Transformer的方法的效率問(wèn)題,顯著減少了計(jì)算負(fù)擔(dān),同時(shí)有效地預(yù)測(cè)了空間中所有體素的語(yǔ)義占用。VoxFormer使用2D圖像通過(guò)深度預(yù)測(cè)生成3D體素查詢建議,然后根據(jù)這些建議從2D圖像特征中執(zhí)行可變形的交叉關(guān)注查詢。之后,它應(yīng)用掩碼自動(dòng)編碼器通過(guò)自關(guān)注傳播信息,并通過(guò)上采樣網(wǎng)絡(luò)細(xì)化體素以生成語(yǔ)義占用結(jié)果。SurroundOcc從多視圖和多尺度2D圖像特征中執(zhí)行3D BEV特征查詢,向Transformer層添加3D卷積,并逐步對(duì)體積特征進(jìn)行上采樣。當(dāng)產(chǎn)生多級(jí)BEV特征時(shí),其3D卷積網(wǎng)絡(luò)可以將這些特征組合起來(lái),以產(chǎn)生密集的空間占用。
在3D跟蹤任務(wù)中,大多數(shù)現(xiàn)有的方法都依賴于使用空間和外觀相似性的啟發(fā)式策略。然而,它們往往無(wú)法有效地對(duì)時(shí)間信息進(jìn)行建模。最近基于Trasnformer的模型旨在緩解這一問(wèn)題。例如,MOTR擴(kuò)展了DETR模型,并構(gòu)建了多目標(biāo)跟蹤(MOT)框架。它引入了一種“跟蹤查詢”來(lái)對(duì)整個(gè)視頻中被跟蹤的實(shí)例進(jìn)行建模,旨在利用視頻序列中的時(shí)間變化,隱式學(xué)習(xí)目標(biāo)的長(zhǎng)期時(shí)間變化,從而避免了對(duì)顯式啟發(fā)式策略的需要。與依賴于基于運(yùn)動(dòng)和基于外觀的相似性啟發(fā)式和后處理技術(shù)的傳統(tǒng)方法不同,MOTR在不需要軌跡NMS或IoU匹配的情況下處理目標(biāo)跟蹤。MUTR3D通過(guò)采用基于空間和外觀相似性的跨相機(jī)和跨幀目標(biāo)關(guān)聯(lián),同時(shí)執(zhí)行檢測(cè)和跟蹤。這種方法利用3D軌跡查詢來(lái)直接建模目標(biāo)的3D狀態(tài)和外觀特征隨時(shí)間的變化以及跨多個(gè)相機(jī)的變化。在每一幀期間,3D軌跡查詢對(duì)所有可見(jiàn)相機(jī)的特征進(jìn)行采樣,并學(xué)會(huì)啟動(dòng)、跟蹤或終止軌跡。
基于Transformer的方法在3D和一般感知任務(wù)方面取得了令人印象深刻的進(jìn)展,強(qiáng)調(diào)了在更復(fù)雜和逼真的自動(dòng)駕駛場(chǎng)景中為更廣泛的感知任務(wù)開(kāi)發(fā)專門(mén)的注意力機(jī)制的潛力。
C. 2D和平面任務(wù)
與3D任務(wù)類別相反,我們將第二個(gè)任務(wù)類別分類為2D和平面任務(wù),其中模型主要處理車道檢測(cè)、分割和HD地圖生成等任務(wù)。
對(duì)于車道檢測(cè)任務(wù),我們進(jìn)一步將模型分為兩組。第一組模型生成BEV特征,然后是CNN語(yǔ)義分割和檢測(cè)頭。例如,BEVSegFormer使用交叉注意力機(jī)制來(lái)查詢多視圖2D圖像特征。在Transformer之后添加了語(yǔ)義解碼器,將查詢解碼為BEV道路語(yǔ)義分割結(jié)果。PersFormer使用CNN提取圖像特征,并將其分為兩條路徑。第一路徑連接到基于CNN的2D車道檢測(cè)頭,而第二路徑使用逆透視映射(IPM)方法將透視圖(PV)視圖特征轉(zhuǎn)換為純電動(dòng)汽車視圖特征,連接到Transformer網(wǎng)絡(luò)用于純電動(dòng)汽車特征查詢和增強(qiáng)。第二組模型使用多項(xiàng)式、關(guān)鍵點(diǎn)、向量和多段線等各種表示直接查詢和生成道路結(jié)構(gòu)。例如,LSTR用二階或三階多項(xiàng)式近似平面單車道道路標(biāo)線。Transformer查詢用于更新多項(xiàng)式的參數(shù),匈牙利匹配損失優(yōu)化了路徑相關(guān)的回歸損失。LSTR采用了輕量級(jí)的Transformer架構(gòu),以實(shí)現(xiàn)更高效的查詢。CurveFormer通過(guò)直接從2D圖像中生成車道線而無(wú)需進(jìn)行特征視圖轉(zhuǎn)換,從而加快了推理速度。它采用了Transformer解碼器,使用曲線查詢將3D車道檢測(cè)公式轉(zhuǎn)換為曲線傳播問(wèn)題,并使用曲線交叉點(diǎn)關(guān)注模塊計(jì)算曲線查詢與圖像特征之間的相似性。
除了車道檢測(cè),Transformer架構(gòu)也用于分割任務(wù)。例如,TIiM提出了一種用于瞬時(shí)映射的序列到序列模型,該模型將圖像和視頻轉(zhuǎn)換為開(kāi)銷映射或BEV表示。通過(guò)假設(shè)圖像中的垂直掃描線和俯視圖中的射線之間的一一對(duì)應(yīng),TIiM被認(rèn)為是一種數(shù)據(jù)高效和空間感知的方法。Panoptic SegFormer提出了一種結(jié)合語(yǔ)義和實(shí)例分割的全景分割框架。它提出了監(jiān)督掩碼解碼器和查詢解耦策略來(lái)執(zhí)行有效的分割。
對(duì)于HD地圖生成任務(wù),STSU將車道表示為BEV坐標(biāo)中的有向圖,并基于簡(jiǎn)單多層感知器(MLP)學(xué)習(xí)貝塞爾控制點(diǎn)和圖連通性。它采用了DETR類型的查詢方法,將前視圖攝像機(jī)圖像轉(zhuǎn)換為BEV道路結(jié)構(gòu)。VectorMapNet是第一個(gè)實(shí)現(xiàn)高精度地圖端到端矢量化的Transformer網(wǎng)絡(luò),使用BEV視圖中的稀疏折線基元對(duì)幾何形狀進(jìn)行建模。它采用了兩階段流水線,包括用于檢測(cè)粗略關(guān)鍵點(diǎn)的集合預(yù)測(cè)和用于預(yù)測(cè)地圖元素的下一點(diǎn)的序列生成。MapTR開(kāi)發(fā)了一個(gè)在線矢量化高精度地圖生成框架,該框架將地圖元素建模為具有一組等效包絡(luò)的點(diǎn)集。它引入了一種分層查詢嵌入方案來(lái)靈活地對(duì)實(shí)例級(jí)和點(diǎn)級(jí)信息進(jìn)行編碼,并學(xué)習(xí)了地圖元素的結(jié)構(gòu)化二分匹配。這些模型已被證明可以有效地將多視圖特征合并到統(tǒng)一的BEV視圖中,促進(jìn)端到端的在線高精度地圖構(gòu)建,這對(duì)其他下游任務(wù)至關(guān)重要。
D.預(yù)測(cè)與決策
除了2D/3D感知任務(wù)外,Transformer架構(gòu)還用于預(yù)測(cè)、規(guī)劃和決策等其他任務(wù)。此外,最近的研究探索了Transformer在構(gòu)建整個(gè)自動(dòng)駕駛管道的端到端DNN模型中的應(yīng)用,旨在將感知、規(guī)劃和控制統(tǒng)一到一個(gè)集成系統(tǒng)中。
對(duì)于軌跡或行為預(yù)測(cè),標(biāo)準(zhǔn)CNN模型的特征提取存在實(shí)際挑戰(zhàn),尤其是其建模長(zhǎng)程交互的能力有限。然后開(kāi)發(fā)基于Transformer的模型來(lái)解決這個(gè)問(wèn)題。開(kāi)發(fā)VectorNet是為了將這些幾何形狀(來(lái)自道路標(biāo)記或車輛軌跡)轉(zhuǎn)換為矢量格式輸入。它引入了一種層次圖神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用向量表示對(duì)HD地圖和代理軌跡進(jìn)行編碼,還利用了各個(gè)道路組成部分的空間局部性并對(duì)其相互作用進(jìn)行了建模。TNT基于每條軌跡的端點(diǎn)定義了車輛模式,并通過(guò)將其轉(zhuǎn)換為端點(diǎn)預(yù)測(cè)問(wèn)題來(lái)簡(jiǎn)化軌跡預(yù)測(cè)。然而,作為一種基于錨點(diǎn)的技術(shù),TNT在預(yù)測(cè)端點(diǎn)之前需要啟發(fā)式錨點(diǎn)定義。DenseTNT的開(kāi)發(fā)是為了通過(guò)直接預(yù)測(cè)端點(diǎn)的概率分布來(lái)克服這一限制,從而實(shí)現(xiàn)無(wú)錨預(yù)測(cè)。mmTransformer提出了一種堆疊的Transformer架構(gòu),用一組固定的獨(dú)立建議在特征級(jí)別對(duì)多模態(tài)進(jìn)行建模。然后制定了一項(xiàng)基于區(qū)域的培訓(xùn)戰(zhàn)略,以促使所產(chǎn)生的建議具有多模式性。該策略降低了運(yùn)動(dòng)預(yù)測(cè)的復(fù)雜性,同時(shí)確保了多模式行為輸出。AgentFormer允許一個(gè)代理在特定時(shí)間的狀態(tài)直接影響另一個(gè)代理的未來(lái)狀態(tài),從而消除了對(duì)單個(gè)維度中編碼的中間特征的需求。這種方法能夠同時(shí)學(xué)習(xí)時(shí)間信息和交互關(guān)系。它還確保了代理的當(dāng)前關(guān)系通過(guò)不同時(shí)間的關(guān)系來(lái)反映,減輕了在傳統(tǒng)的Transformer注意力機(jī)制中,在輸入元素狀態(tài)相同的情況下通常發(fā)生的時(shí)間和代理信息的損失。對(duì)于更復(fù)雜的情況,其中輸入包含靜態(tài)和動(dòng)態(tài)數(shù)據(jù)(例如,道路幾何形狀、車道連通性、紅綠燈等),標(biāo)準(zhǔn)Transformer對(duì)廣泛的多維序列建模是具有挑戰(zhàn)性的,因?yàn)樗鼘?duì)自注意和昂貴的位置前饋網(wǎng)絡(luò)的輸入序列長(zhǎng)度具有二次依賴性。WayFormer通過(guò)分析輸入的預(yù)融合、后融合和層次融合來(lái)緩解這一問(wèn)題,并保持效率和質(zhì)量之間的平衡。該方法避免了設(shè)計(jì)模態(tài)特定模塊的復(fù)雜過(guò)程,使模型更容易擴(kuò)展和擴(kuò)展。
最后,端到端模型被廣泛歸類為規(guī)劃和決策任務(wù),因?yàn)槎说蕉巳蝿?wù)的最終目標(biāo)是輸出決策信號(hào)。在過(guò)去幾年中出現(xiàn)了一些工作,例如,TransFuser使用多個(gè)Transformer模塊進(jìn)行數(shù)據(jù)處理、中間數(shù)據(jù)融合和特征圖生成。在整個(gè)特征提取器中以多個(gè)分辨率(64×64、32×32、16×16和8×8)應(yīng)用數(shù)據(jù)融合,從圖像和激光雷達(dá)BEV流中產(chǎn)生512維特征向量輸出,然后通過(guò)元素求和將其組合。該方法考慮了ego車輛前方32m和兩側(cè)16m范圍內(nèi)的傳感區(qū)域,從而包括32m×32m的BEV網(wǎng)格。網(wǎng)格被劃分為0.125m×0.125m的塊,得到256×256像素的分辨率。NEAT提出了一種對(duì)場(chǎng)景的語(yǔ)義、空間和時(shí)間結(jié)構(gòu)進(jìn)行有效推理的表示。它構(gòu)建了一個(gè)連續(xù)函數(shù),將BEV場(chǎng)景坐標(biāo)中的位置映射到路點(diǎn)和語(yǔ)義,使用中間注意力映射將高維2D圖像特征迭代壓縮為緊湊表示?;赥ransFuser架構(gòu),InterFuser提出了一種單階段架構(gòu)來(lái)融合來(lái)自多模式多視圖傳感器的信息,并獲得了更好的性能。該框架通過(guò)開(kāi)發(fā)安全控制濾波器來(lái)約束Transformer輸出動(dòng)作,增強(qiáng)了端到端模型的安全性。模型的安全不敏感輸出包括10個(gè)航路點(diǎn)路徑,而安全敏感輸出包括交通規(guī)則信息和具有車輛、行人和自行車等物體七個(gè)特征的物體密度圖。這些輸出是通過(guò)融合多視圖圖像輸入和激光雷達(dá)點(diǎn)云數(shù)據(jù)產(chǎn)生的,該數(shù)據(jù)覆蓋了ego車輛前方28米和側(cè)面14米的區(qū)域。
總之,最近的Transformer模型被設(shè)計(jì)為集成各種任務(wù),旨在實(shí)現(xiàn)更端到端的結(jié)構(gòu)。預(yù)計(jì)未來(lái)對(duì)端到端Transformer模型的研究更有可能迅速發(fā)展,重點(diǎn)關(guān)注其效率和多功能性。
E.Transformer模型基準(zhǔn)
我們?cè)贜VIDIA GPU 3090上對(duì)基于Transformer的主要模型進(jìn)行基準(zhǔn)測(cè)試,考慮輸入大小、運(yùn)行時(shí)間、準(zhǔn)確性和數(shù)據(jù)集等指標(biāo)。如表II所示,對(duì)于使用Nuscenes數(shù)據(jù)集的3D檢測(cè)任務(wù),DETR3D和FUTR3D由于其相似的結(jié)構(gòu)而表現(xiàn)出相當(dāng)?shù)男阅堋EVFormer通過(guò)生成BEV特征并根據(jù)這些特征查詢3D對(duì)象而優(yōu)于DETR3D。PETR和CrossDTR使用CNN網(wǎng)絡(luò)將2D特征轉(zhuǎn)換為3D特征,加快了查詢過(guò)程,并產(chǎn)生了比DETR3D更好的性能。與ResNet50相比,ResNet101的精度更高,這可歸因于其可變形的卷積機(jī)制和增加的卷積深度,盡管代價(jià)是運(yùn)行時(shí)速度較慢。另一方面,基于Transformer的道路元素檢測(cè)研究表現(xiàn)出更大的變化,對(duì)2D車道(TuSimple)、3D車道(OpenLane)和局部地圖(Nuscenes)等任務(wù)具有不同的模型和評(píng)估標(biāo)準(zhǔn)。車道和局部地圖Transformer查詢比對(duì)象檢測(cè)更快,這是因?yàn)楦俚年P(guān)鍵點(diǎn)查詢和更小的CNN骨干網(wǎng)利用了較淺的層特征。如表底部所示,端到端Transformer是一個(gè)新興的研究領(lǐng)域。然而,它主要依賴于CARLA等不切實(shí)際的模擬器平臺(tái)中的模擬數(shù)據(jù),這限制了它在現(xiàn)實(shí)世界場(chǎng)景和實(shí)際實(shí)現(xiàn)中的適用性。

Transformer結(jié)構(gòu)、算子和硬件加速
本節(jié)重點(diǎn)介紹Transformer組件、操作員和硬件加速分析。我們首先分析編碼器-解碼器結(jié)構(gòu),強(qiáng)調(diào)其在處理輸入數(shù)據(jù)和生成輸出預(yù)測(cè)中的作用。討論了關(guān)鍵組件,包括層歸一化、矩陣乘法和softmax。然后,我們探索了提高Transformer模型計(jì)算效率的方法,詳細(xì)介紹了應(yīng)用于softmax、層歸一化、激活函數(shù)和矩陣乘法等運(yùn)算符的定點(diǎn)算法的硬件加速技術(shù)。
A.Encoder-Decoder涉及
盡管Transformer模型在自動(dòng)駕駛應(yīng)用中實(shí)現(xiàn)了最先進(jìn)的性能,但其可觀的存儲(chǔ)和計(jì)算開(kāi)銷對(duì)便攜式或邊緣設(shè)備上的部署和高效推理提出了挑戰(zhàn)。
感知任務(wù)的Transformer模型主要利用BEV特征,編碼器負(fù)責(zé)生成這些特征(圖4(b)和(d))。編碼器將BEV特征擴(kuò)展為長(zhǎng)度為Channel的H X W矩陣,用作Transformer中的查詢。這些特征是使用相機(jī)外部矩陣從多視圖相機(jī)的2D特征導(dǎo)出的。為了保留2D空間信息,位置嵌入被添加到查詢中,然后作為編碼器的輸入(圖4(b))。為了更快地收斂,Encoder迭代以前的BEV特性,并將當(dāng)前Query作為自關(guān)注的輸入。此外,車輛的位置姿態(tài)信息在前框架和后框架的像素級(jí)別上匹配(圖4(d))。

在感知任務(wù)中,CNN頭被Transformer塊取代,以使用查詢生成障礙物的3D邊界框,以及2D/3D車道線和局部地圖(圖4(a)、(c)、(e)、(f))。三維障礙感知任務(wù)有兩種類型的查詢:顯式和隱式。顯式查詢依賴于BEV特征(圖4(e)),而隱式查詢直接使用多視圖相機(jī)的2D特征(圖四(a))。隱式查詢降低了編碼器的計(jì)算要求。為了進(jìn)一步減少Transformer上的計(jì)算負(fù)載,可以在使用CNN架構(gòu)從相機(jī)透視圖轉(zhuǎn)換為2D/3D BEV后查詢轉(zhuǎn)換后的BEV特征(圖4(c))。車道和局部地圖任務(wù)主要利用BEV特征進(jìn)行查詢,車道和局部圖的物理關(guān)鍵點(diǎn)作為查詢對(duì)象,其特征(xyz,屬性)作為向量。與障礙物任務(wù)相比,道路信息查詢需要對(duì)純電動(dòng)汽車特征進(jìn)行更高程度的網(wǎng)格細(xì)化;然而,純電動(dòng)汽車特征所需的距離范圍較低。車輛同時(shí)關(guān)注周圍的道路信息(通常為60米 x 30米)和障礙物(通常為100米 x 100米),以及高速場(chǎng)景中的遠(yuǎn)處障礙物。由于道路信息是靜態(tài)的,因此可以使用具有歷史信息的前視圖攝像機(jī)來(lái)構(gòu)建道路信息,而動(dòng)態(tài)障礙物則需要側(cè)面攝像機(jī)的參與。因此,Transformer的交叉注意機(jī)制可以根據(jù)這些要求,針對(duì)不同的應(yīng)用進(jìn)行靈活設(shè)計(jì)和優(yōu)化。
B.不同結(jié)構(gòu)中的算子
在上一節(jié)中,分析了Transformer用于感知任務(wù)的編碼器和解碼器的一般框架,其中最復(fù)雜的組件是編碼器結(jié)構(gòu)(圖4(d))。BEVformer中采用的這種結(jié)構(gòu)在空間和時(shí)間上分別融合了多視圖相機(jī)和歷史信息,使其成為自動(dòng)駕駛應(yīng)用的復(fù)雜開(kāi)源Transformer。我們現(xiàn)在根據(jù)運(yùn)算符分解編碼器,以獲得詳細(xì)的模型,供后續(xù)硬件加速參考。
在本節(jié)中,我們特別比較了算子級(jí)別的三種主要架構(gòu)的層:ResNet、Swin Transformer和BEVFormer的編碼器。如圖5(a)所示,ResNet具有一個(gè)稱為瓶頸的基本單元,由包含類似瓶頸網(wǎng)絡(luò)的多個(gè)階段組成。這些網(wǎng)絡(luò)包括3x3卷積、1x1卷積、批量歸一化(BN)和激活函數(shù)(ReLU,校正線性單元),要求適度的計(jì)算并行性和芯片內(nèi)存。在自動(dòng)駕駛?cè)蝿?wù)中,ResNet通常用于2D相機(jī)圖像特征提取,作為骨干網(wǎng)絡(luò)。

圖5(b)顯示了包含多個(gè)階段單元的Swin Transformer,包括數(shù)據(jù)重排、層歸一化(LN)、矩陣乘法(32x32)、Softmax、全連接(FC)層和激活函數(shù)(GELU,高斯誤差線性單元)。與ResNet相比,Swin Transformer表現(xiàn)出更大的算子多樣性和更大的矩陣乘法維數(shù)。Softmax和FC層通常是CNN網(wǎng)絡(luò)中的最后一層,在每個(gè)Swin Transformer階段都有,因此需要在單元內(nèi)加速。盡管Swin Transformer可以取代ResNet成為自動(dòng)駕駛?cè)蝿?wù)中的骨干組件,但由于增益和加速性能之間的權(quán)衡,CNN網(wǎng)絡(luò)在部署的產(chǎn)品中仍然是主流。作為一個(gè)基本的Transformer網(wǎng)絡(luò),Swin Transformer可作為各種NPU制造商硬件加速的初始參考,實(shí)現(xiàn)3 FPS/TOPS或更高的性能水平。
為自動(dòng)駕駛加速Transformer階段都有的主要挑戰(zhàn)源于編碼器和解碼器模型,這些模型包含自注意力和交叉注意力模塊。交叉注意力將向量從一個(gè)空間(PV)轉(zhuǎn)換到另一個(gè)空間,比自注意力更復(fù)雜。如圖7所示,我們以BEVFormer的編碼器為另一個(gè)例子,它包括時(shí)間自注意力、空間交叉注意力、LN和FFN。LN和FFN結(jié)構(gòu)類似于Swin-Transformer,但具有更大的輸入和輸出特征尺寸,需要更大的計(jì)算能力。時(shí)間自注意力模塊中的可變形注意力采用可學(xué)習(xí)的注意力像素地址,需要從數(shù)據(jù)緩存中的相應(yīng)位置獲取數(shù)據(jù)。這個(gè)過(guò)程涉及大矩陣乘法(512*128)和對(duì)大量矩陣的操作,使其比Swin Transformer的自注意力更復(fù)雜。時(shí)間自注意力模塊使用自注意力機(jī)制融合當(dāng)前和歷史BEV特征??臻g交叉注意力模塊與時(shí)間交叉注意力模塊有相似之處,但由于大量的數(shù)據(jù)操作和更大的矩陣乘法維度(512*256),檢索多相機(jī)和多尺度特征的注意力像素地址變得更加復(fù)雜。自動(dòng)駕駛中感知任務(wù)的模型復(fù)雜性顯著高于Swin Transformer和傳統(tǒng)CNN骨干網(wǎng)絡(luò),這導(dǎo)致對(duì)算子加速和芯片存儲(chǔ)的需求增加。

此外,在圖6中,我們展示了一個(gè)用于在便攜式硬件上實(shí)現(xiàn)Transformer架構(gòu)的操作員列表示例。整個(gè)過(guò)程分為26個(gè)特定于操作員的步驟,每個(gè)步驟都報(bào)告了各種指標(biāo),如操作類型、多頭數(shù)量、重復(fù)次數(shù)和操作員時(shí)間(以微秒為單位)??梢钥闯觯?-5項(xiàng)(Q、K、V和注意力矩陣計(jì)算)、第11項(xiàng)(注意力解決頭部矩陣計(jì)算),第21項(xiàng)(解決FFN矩陣計(jì)算)和第23項(xiàng)(線性矩陣計(jì)算)占據(jù)了操作計(jì)數(shù)的大部分。

C.算子加速分析
Transformer架構(gòu)包含大量矩陣乘法運(yùn)算符和對(duì)應(yīng)的數(shù)據(jù)承載運(yùn)算符、Softmax運(yùn)算符、激活函數(shù)和LN運(yùn)算符。量化權(quán)重和輸入可以通過(guò)將浮點(diǎn)運(yùn)算調(diào)整為整數(shù)、來(lái)加快推理。我們已經(jīng)在一個(gè)定點(diǎn)上設(shè)計(jì)了這些算子的硬件加速。
1)Softmax:Softmax函數(shù)在深度學(xué)習(xí)中被廣泛使用,經(jīng)常出現(xiàn)在輸出層。

為了防止分母中的多項(xiàng)式求和溢出,需要在硬件加速期間執(zhí)行數(shù)值穩(wěn)定的處理,我們定義m=max(x)并執(zhí)行低精度,將底部e替換為2以獲得

在在線操作過(guò)程中,我們專注于并行化和存儲(chǔ)優(yōu)化,并觀察到整個(gè)過(guò)程的時(shí)間復(fù)雜度為3 O(n),空間復(fù)雜度為S(n+1)。該方法需要三個(gè)循環(huán)并存儲(chǔ)N+1個(gè)中間結(jié)果。為了進(jìn)一步優(yōu)化過(guò)程,將全局最大值替換為局部最大值,使計(jì)算能夠在兩個(gè)循環(huán)中完成。這將時(shí)間復(fù)雜性降低到2 O(n),并減少了中間結(jié)果的存儲(chǔ)。
2)Layer Normalization:LN與BN的不同之處在于,它跨通道而非批量進(jìn)行規(guī)范化,解決了Transformer模型在通道方向上的大量計(jì)算。這種規(guī)范化技術(shù)有效地緩解了Transformer模型中的梯度消失和解釋問(wèn)題。此外,層歸一化涉及除法、平方和平方根等運(yùn)算,層歸一化的替換以及整數(shù)Transformer中的注意力完全支持INT8推理。層歸一化的原始計(jì)算公式為:



根據(jù)量化公式:

導(dǎo)出后,層歸一化計(jì)算公式可以表示為:

我們?cè)u(píng)估了兩個(gè)不同測(cè)試數(shù)據(jù)集(稱為案例1和案例2)的性能,并在表III中報(bào)告了結(jié)果(第4行至第5行)。最大誤差百分比主要出現(xiàn)在序列的最小值處。盡管絕對(duì)誤差值仍然很小,但由于Golden值相對(duì)較小,誤差百分比似乎更大。孤立地評(píng)估層歸一化算子表明,使用8位輸入可能會(huì)帶來(lái)一些風(fēng)險(xiǎn)。然而,必須全面評(píng)估對(duì)整個(gè)模型的影響,以確定其整體效果。

3)激活函數(shù):激活函數(shù)調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中神經(jīng)元之間的信號(hào)傳輸,包括線性(例如,x=f(x))和非線性函數(shù)(例如,Sigmoid、Tanh、Relu)。非線性函數(shù)對(duì)于解決復(fù)雜問(wèn)題是必不可少的,因?yàn)閱为?dú)的線性函數(shù)只會(huì)產(chǎn)生輸入的線性組合。因此,神經(jīng)網(wǎng)絡(luò)采用了非線性函數(shù)來(lái)更有效地建模和處理復(fù)雜的非線性問(wèn)題。本研究開(kāi)發(fā)了各種激活函數(shù)的定點(diǎn)表示,如GELU、Relu、Leaky Relu、ELU、SELU、Sigmoid和Tanh。GELU是討論激活函數(shù)的硬件定點(diǎn)設(shè)計(jì)的一個(gè)示例。
GELU的原始計(jì)算公式定義為:

類似地,使用逆量化公式,我們可以將GELU計(jì)算轉(zhuǎn)換為:

按照與Softmax中類似的方式,我們對(duì)分母執(zhí)行低精度替換,將基數(shù)e更改為基數(shù)2,我們得到:

經(jīng)過(guò)一些推導(dǎo),我們可以得到GELU的近似公式:

我們基于近似公式開(kāi)發(fā)了GELU函數(shù)的定點(diǎn)實(shí)現(xiàn)。測(cè)試結(jié)果如表III所示(最后三行)。對(duì)于16位輸入和輸出,平均誤差低于1%。然而,由于某些值接近零,因此最大誤差不適用。當(dāng)我們將輸入更改為8位時(shí),平均誤差增加到5%。進(jìn)一步將輸出減少到8位導(dǎo)致大約28%的平均誤差,表明輸出位寬顯著影響了結(jié)果的準(zhǔn)確性。
4) 矩陣乘法:矩陣乘法構(gòu)成了Transformer的重要組成部分,占其計(jì)算負(fù)載的80%以上。我們分析了各種公開(kāi)可用的感知算法模型,發(fā)現(xiàn)了這種高比例。
在Transformer中,乘法累加運(yùn)算發(fā)生在通道方向,每個(gè)通道都需要完成。通道長(zhǎng)度可達(dá)256,因此在設(shè)計(jì)過(guò)程中必須考慮定點(diǎn)計(jì)算和溢出問(wèn)題。我們的電路設(shè)計(jì)為INT4、INT8和INT16提供了定點(diǎn)運(yùn)算,使用INT4乘法-累加作為基本單元。通過(guò)采用移位運(yùn)算,我們?yōu)镮NT8使用2個(gè)INT4單元,為INT16實(shí)現(xiàn)使用4個(gè)INT4單位。此外,我們使用2個(gè)INT4單元和旁路設(shè)計(jì)實(shí)現(xiàn)了FP8,包括用于乘法累加運(yùn)算的E4M3和E5M2格式。FP8,一種IEEE浮點(diǎn)格式,已經(jīng)證明了與16位精度相當(dāng)?shù)挠?xùn)練精度,同時(shí)為T(mén)ransformer和計(jì)算機(jī)視覺(jué)應(yīng)用提供了顯著的加速。中間結(jié)果使用FP16/FP32或Int32格式,部分和使用與比例因子組合的浮點(diǎn)格式。
矩陣乘法加速不僅需要定點(diǎn)設(shè)計(jì),而且需要精確的量化設(shè)計(jì)。我們?cè)噲D通過(guò)針對(duì)特定數(shù)據(jù)和模型定制量化設(shè)計(jì)來(lái)解決這個(gè)問(wèn)題,因?yàn)樗鼈儗?duì)應(yīng)的量化值范圍和范圍不同。這種方法有助于防止溢出,這種溢出很容易發(fā)生,因?yàn)槌朔ɡ奂舆\(yùn)算的維數(shù)很大。
5)章節(jié)總結(jié):采用了各種優(yōu)化技術(shù)來(lái)改進(jìn)基于Transformer的模型。數(shù)據(jù)重組運(yùn)算符,如重新整形、置換、拆分、連接和轉(zhuǎn)置,用于處理不規(guī)則數(shù)據(jù),依賴片上存儲(chǔ)器進(jìn)行中間結(jié)果存儲(chǔ)。軟件編譯器優(yōu)化,包括運(yùn)算符合并和運(yùn)算符映射,被用來(lái)優(yōu)化這些運(yùn)算符。模型量化是加速模型推理的關(guān)鍵技術(shù),它用整數(shù)多項(xiàng)式逼近方法或函數(shù)逼近方法取代了Transformer網(wǎng)絡(luò)中的非線性算子。對(duì)于矩陣乘法加速,還考慮了替代量化方法,如指數(shù)量化。模型結(jié)構(gòu)的改進(jìn),如使用有效的注意力機(jī)制或輕量級(jí)結(jié)構(gòu),有助于進(jìn)一步優(yōu)化。
還研究了模型壓縮方法,如裁剪和知識(shí)蒸餾。裁剪涉及從訓(xùn)練有素的模型中刪除不重要的參數(shù)或連接,各種方法側(cè)重于多頭自注意(MHSA)、通道、令牌或整體Transformer結(jié)構(gòu)。知識(shí)蒸餾將知識(shí)從大的教師模型轉(zhuǎn)移到小的學(xué)生模型。將模型量化與知識(shí)蒸餾相結(jié)合,減少了內(nèi)存開(kāi)銷,提高了性能。視覺(jué)Transformer蒸餾技術(shù)檢查了特征圖和注意力,特征圖蒸餾將地圖劃分為補(bǔ)丁,并使用額外的蒸餾令牌進(jìn)行注意力蒸餾以進(jìn)行知識(shí)轉(zhuǎn)移。
對(duì)Transformer硬件加速的研究主要集中在NLP模型(如BERT)和視覺(jué)Transformer模型(如ViT)上。2022年,Transformer在自動(dòng)駕駛領(lǐng)域的應(yīng)用迅速發(fā)展,這導(dǎo)致人們對(duì)其實(shí)施的興趣增加。然而,自動(dòng)駕駛Transformer算法的硬件加速仍處于起步階段。NPU制造商現(xiàn)有的基準(zhǔn)測(cè)試揭示了Swin Transformer和Vision Transformer算法的加速性能,但關(guān)于DETR3D、PETR和BEVFormer等較新算法的加速公開(kāi)信息有限。隨著Transformer在自動(dòng)駕駛領(lǐng)域的不斷發(fā)展,主要的NPU制造商和研究機(jī)構(gòu)正在積極探索這些算法的加速技術(shù),旨在將其部署在量產(chǎn)車中。在這項(xiàng)工作中,我們剖析了典型的自動(dòng)駕駛模型,并為結(jié)果運(yùn)算符開(kāi)發(fā)了定點(diǎn)實(shí)現(xiàn)。
挑戰(zhàn)和未來(lái)趨勢(shì)
基于Transformer的深度學(xué)習(xí)方法已顯示出改進(jìn)自動(dòng)駕駛系統(tǒng)的潛力,但它們面臨著收集高質(zhì)量訓(xùn)練數(shù)據(jù)、確保安全和提供可解釋性等挑戰(zhàn)。多模態(tài)融合和可解釋性是該領(lǐng)域的發(fā)展趨勢(shì),而感知和預(yù)測(cè)任務(wù)已經(jīng)成功地使用基于Transformer的模型完全完成。前景包括優(yōu)化實(shí)時(shí)處理和開(kāi)發(fā)端到端學(xué)習(xí)模型。然而,應(yīng)對(duì)挑戰(zhàn)并利用趨勢(shì)和前景需要持續(xù)的研究努力。
Transformer模型已經(jīng)從最初用于3D障礙感知任務(wù)發(fā)展到各種感知任務(wù)。自動(dòng)駕駛的未來(lái)需要更大的系統(tǒng)安全性和確定性,單模態(tài)視覺(jué)感知在邊際增益方面已經(jīng)達(dá)到飽和。多模式融合需要提高邊際增益,這對(duì)于高水平的自動(dòng)駕駛至關(guān)重要。為了滿足這一需求,未來(lái)可能會(huì)生成具有4D時(shí)空輸入/輸出的更大尺寸、多模態(tài)和多任務(wù)的Transformer模型。這對(duì)模型訓(xùn)練和加速提出了新的挑戰(zhàn),需要在算法設(shè)計(jì)、硬件架構(gòu)和系統(tǒng)集成方面取得進(jìn)展。
自動(dòng)駕駛中的跟蹤、規(guī)劃和決策任務(wù)也開(kāi)始從傳統(tǒng)的DNN模型轉(zhuǎn)變?yōu)榛赥ransformer的模型。考慮到Transformer模型日益復(fù)雜,這可能需要更好的硬件加速方案來(lái)提高硬件部署中的模型推理效率。一種很有前途的方法是將多個(gè)級(jí)別和類型的Transformer模型級(jí)聯(lián)到一個(gè)端到端系統(tǒng)中。然而,這在加速整個(gè)系列模型方面提出了挑戰(zhàn),因?yàn)槊總€(gè)模型可能都有獨(dú)特的硬件需求。在基于感知的模型中,主要輸入是圖像或雷達(dá)數(shù)據(jù),這些數(shù)據(jù)通過(guò)CNN進(jìn)行處理以提取特征。然后將這些特征輸入到BEV Transformer模型中,用于BEV的障礙物和靜態(tài)地面標(biāo)記檢測(cè)。BEV感知結(jié)果與高精度地圖相結(jié)合,被進(jìn)一步編碼為網(wǎng)格格式,并輸入到類似NLP的Transformer模型中,以完成預(yù)測(cè)和規(guī)劃任務(wù)。
除了基本模型的激活函數(shù)、LN、Softmax和大矩陣乘法加速度外,自動(dòng)駕駛?cè)蝿?wù)中的Transformer模型還有一個(gè)特殊的可變形注意力算子。其可學(xué)習(xí)的位置參數(shù)會(huì)導(dǎo)致與每個(gè)查詢相關(guān)的數(shù)據(jù)出現(xiàn)一些不規(guī)則性,這增加了圖像數(shù)據(jù)硬件上的緩存壓力,并使并行加速變得困難。除了優(yōu)化軟件編譯器調(diào)度之外,還需要為此類模型專門(mén)設(shè)計(jì)硬件。Transformer模型的混合精度量化是加速模型的一項(xiàng)重要任務(wù),它直接影響計(jì)算能力和存儲(chǔ),是未來(lái)的主要研究方向之一。高bit量化確保了高精度,但需要更大的內(nèi)存使用量和計(jì)算資源,而低bit量化提供了較低的精度,但減少了內(nèi)存和計(jì)算需求。固定比特量化無(wú)法實(shí)現(xiàn)精度和計(jì)算能力之間的細(xì)粒度權(quán)衡,因此必須使用混合精度量化(MPQ)進(jìn)行有效的模型壓縮。MPQ采用了各種量化位寬,包括8位、16位、32位,甚至4位和2位。除了成熟的線性量化方法外,還考慮了其他方法,如基于FP8的對(duì)數(shù)量化,其中基于FP8量化和加速是一個(gè)突出的研究領(lǐng)域。
Transformer的注意力機(jī)制在將空間序列轉(zhuǎn)換為另一個(gè)空間序列方面發(fā)揮了優(yōu)勢(shì),因?yàn)槲覀冎谰仃嚦朔梢詫⑾蛄繌囊粋€(gè)空間轉(zhuǎn)換到另一空間,大矩陣可以進(jìn)行多維空間轉(zhuǎn)換,并且這些矩陣中的參數(shù)是可學(xué)習(xí)的。經(jīng)過(guò)空間轉(zhuǎn)換,信息關(guān)系查詢變得更加容易。然后,注意力中的網(wǎng)格樣本可以從相關(guān)像素中收集所需的特征,并且網(wǎng)格樣本的位置也是可學(xué)習(xí)的。矩陣變換和網(wǎng)格采樣使Transformer非常適合于需要將多視圖數(shù)據(jù)轉(zhuǎn)換為BEV格式的自動(dòng)駕駛?cè)蝿?wù)。Transformer模型的參數(shù)和計(jì)算能力遠(yuǎn)遠(yuǎn)超過(guò)了CNN網(wǎng)絡(luò),使其更適合在大型數(shù)據(jù)集上推廣各種corner case和過(guò)擬合。然而,這也增加了模型的復(fù)雜性,并需要仔細(xì)優(yōu)化以確保高效性能。因此,有必要為自動(dòng)駕駛中的Transforme模型開(kāi)發(fā)更好的可解釋和可解釋技術(shù),因?yàn)檫@些技術(shù)對(duì)于確保安全和建立對(duì)系統(tǒng)的信任至關(guān)重要。例如,基于注意力的顯著性圖可以用于在視覺(jué)上突出輸入數(shù)據(jù)中最重要的區(qū)域,例如相機(jī)或激光雷達(dá)輸入,該模型用于做出駕駛決策。這將為模型的決策過(guò)程提供見(jiàn)解,使工程師和用戶能夠更好地理解和信任該系統(tǒng)。
結(jié)論
本文全面概述了專門(mén)為自動(dòng)駕駛?cè)蝿?wù)定制的基于Transformer的模型。我們研究了用于組織Transformer輸入和輸出的不同架構(gòu),并評(píng)估了它們各自的優(yōu)缺點(diǎn)。深入探討了Transformer相關(guān)算子及其硬件加速分析,并考慮了量化和定點(diǎn)運(yùn)行時(shí)間等關(guān)鍵因素。為任務(wù)和算子級(jí)別的定點(diǎn)測(cè)試提供了基準(zhǔn)比較。最后,我們強(qiáng)調(diào)了基于Transformer的模型的挑戰(zhàn)、趨勢(shì)和當(dāng)前前景,并在現(xiàn)實(shí)世界應(yīng)用中長(zhǎng)期部署Transformer的背景下討論了它們的硬件部署和加速問(wèn)題。
論文
[1] Transformer-based models and hardware acceleration analysis in autonomous driving: A survey
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺(jué)融合、多傳感器標(biāo)定、多傳感器融合、3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼免費(fèi)學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門(mén)、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動(dòng)駕駛之心】技術(shù)交流群
自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、Occupancy、多傳感器融合、大模型、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)
