主打一個(gè)通用!UniDistill:用于BEV 3D檢測(cè)的通用跨模態(tài)蒸餾框架!
點(diǎn)擊進(jìn)入→自動(dòng)駕駛之心【BEV感知】技術(shù)交流群流群
論文作者?|?Shengchao Zhou
筆者的個(gè)人理解
目前,基于純視覺(jué)的3D感知模型已經(jīng)取得了非常不錯(cuò)的成績(jī),其性能指標(biāo)逐漸向使用激光雷達(dá)作為輸入的感知模型看齊。但是!雖然純視覺(jué)的感知算法已經(jīng)取得了非常好的效果,但是由于相機(jī)采集到的是2D圖像信息,物體在3D坐標(biāo)系下的深度信息會(huì)在相機(jī)的成像過(guò)程中消失,這就導(dǎo)致純視覺(jué)的感知模型對(duì)深度的估計(jì)還有待進(jìn)一步的加強(qiáng)。而現(xiàn)在比較流行的一種技術(shù)路線是借助激光雷達(dá)傳感器采集到的點(diǎn)云信息對(duì)視覺(jué)模型進(jìn)行監(jiān)督;其中一種監(jiān)督方式就是利用知識(shí)蒸餾的思想,讓激光雷達(dá)模型作為教師模型,視覺(jué)模型作為學(xué)生模型,利用激光雷達(dá)能夠更加準(zhǔn)確表達(dá)物體幾何和位置的能力對(duì)視覺(jué)模型進(jìn)行跨模態(tài)蒸餾監(jiān)督。 今天介紹的一篇是來(lái)自曠視的自動(dòng)駕駛感知論文,并且中稿了今年的
CVPR 2023
視覺(jué)頂會(huì)。該文章的主要貢獻(xiàn)點(diǎn)是提出了一種通用的跨模態(tài)知識(shí)蒸餾框架去提升單模態(tài)的感知模型能力,是一篇很不錯(cuò)的將知識(shí)蒸餾技術(shù)應(yīng)用到自動(dòng)駕駛感知任務(wù)的論文。 UniDistill算法模型整體結(jié)構(gòu)
由于自動(dòng)駕駛的車輛上配備了不同的傳感器采集數(shù)據(jù),如相機(jī)采集到的圖像數(shù)據(jù),激光雷達(dá)采集到的點(diǎn)云數(shù)據(jù),所以會(huì)收集到不同模態(tài)的數(shù)據(jù)表示。而這篇文章提供了一種通用的跨模態(tài)蒸餾思路,如下圖所示。
其中圖中的(a)和(b)主要是指知識(shí)蒸餾中的教師模型和學(xué)生模型采用相同的數(shù)據(jù)模態(tài),如(a)的圖像數(shù)據(jù),或者(b)的點(diǎn)云數(shù)據(jù)。而文章的創(chuàng)新點(diǎn)是提出了(c)跨模態(tài)蒸餾,可以讓激光雷達(dá)或者視覺(jué)模型分別充當(dāng)教師或者學(xué)生模型進(jìn)行蒸餾,從而實(shí)現(xiàn)了通用意義上的蒸餾框架。而論文中所提出的蒸餾框架整體結(jié)構(gòu)圖如下。
其中框架圖的上方代表該知識(shí)蒸餾網(wǎng)絡(luò)的教師模型(數(shù)據(jù)輸入可以采用激光雷達(dá)的點(diǎn)云數(shù)據(jù)或者相機(jī)采集的圖像數(shù)據(jù)),框架圖的下方代表知識(shí)蒸餾網(wǎng)絡(luò)的學(xué)生模型(數(shù)據(jù)輸入同教師模型)。 通過(guò)整個(gè)算法框圖可以看出文章的創(chuàng)新點(diǎn)主要包括三部分的蒸餾子模塊
Feature Distillation
(Low-Level級(jí)蒸餾):對(duì)應(yīng)上圖中的綠色部分,將教師和學(xué)生模型的主干網(wǎng)絡(luò)提取出來(lái)的低級(jí)語(yǔ)義特征進(jìn)行蒸餾,這部分是蒸餾框架中的第一層蒸餾
Relation Distillation
(High-Level級(jí)蒸餾):對(duì)應(yīng)上圖中的藍(lán)色部分,將教師和學(xué)生模型的BEV Encoder提取出來(lái)的高級(jí)語(yǔ)義特征進(jìn)行蒸餾,這部分是蒸餾框架中的第二層蒸餾
Response Distillation
(Response級(jí)蒸餾):對(duì)應(yīng)上圖中的粉色部分,將教師和學(xué)生模型的Head的輸出結(jié)果特征進(jìn)行蒸餾,這部分是蒸餾框架中的第三層蒸餾 接下來(lái)就詳細(xì)介紹一下上述三部分蒸餾子模塊具體的工作流程~ Feature Distillation(Low-Level級(jí)蒸餾) 因?yàn)榫W(wǎng)絡(luò)模型淺層可以提取到物體較為豐富的語(yǔ)義特征,文章中就將教師和學(xué)生模型主干網(wǎng)絡(luò)提取到的特征進(jìn)行了Low-Level級(jí)的蒸餾,用于對(duì)二者的特征進(jìn)行對(duì)齊。論文中也有提到,一種比較直覺(jué)的特征蒸餾方法就是進(jìn)行點(diǎn)對(duì)點(diǎn)的特征蒸餾,但是由于
不同模態(tài)背景之間的差異性將會(huì)弱化蒸餾的性能
,所以文章中的解決方案是
選擇只對(duì)前景區(qū)域進(jìn)行蒸餾
。除此之外,由于
大類目標(biāo)的前景區(qū)域要比小類目標(biāo)的前景區(qū)域在BEV空間上占的面積要多,從而會(huì)導(dǎo)致模型更多的關(guān)注對(duì)大類目標(biāo)的前景蒸餾
,而忽略對(duì)小類目標(biāo)蒸餾的學(xué)習(xí),所以文章中的解決方案是無(wú)論是大類目標(biāo)還是小類目標(biāo),都只選擇九個(gè)關(guān)鍵點(diǎn)(對(duì)應(yīng)整體結(jié)構(gòu)中的九個(gè)紅色的點(diǎn))進(jìn)行蒸餾,從而使得模型進(jìn)行均等的學(xué)習(xí)。 所以,針對(duì)上述提到的不同模態(tài)背景區(qū)域差異以及不同類目標(biāo)對(duì)蒸餾的貢獻(xiàn)度不同的問(wèn)題,論文針對(duì)
Feature Distillation
蒸餾子模塊提出的蒸餾損失如下
但是作者進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),由于教師模型和學(xué)生模型的模態(tài)是不相同的,從而導(dǎo)致兩種模態(tài)的特征之間存在語(yǔ)義gap問(wèn)題,弱化最終的蒸餾學(xué)習(xí)效果。在這里作者是采用了1x1的卷積層充當(dāng)Adaption Layer來(lái)縮短兩種模態(tài)間的語(yǔ)義gap。
注意
:這里提到的Adaption Layer只會(huì)在訓(xùn)練的過(guò)程中用到,模型在推理的過(guò)程中就會(huì)去除掉Adaption Layer。
Relation Distillation(High-Level級(jí)蒸餾)
在這里同樣會(huì)出現(xiàn)Feature Distillation中提到的不同模態(tài)之間的語(yǔ)義gap問(wèn)題,所以作者還是采用了一個(gè)另外的1x1卷積充當(dāng)Adaption Layer緩解不同模態(tài)之間的語(yǔ)義差距。
Response Distillation(Response級(jí)蒸餾)
論文實(shí)驗(yàn)結(jié)果
首先給出UniDistill和其他自動(dòng)駕駛感知算法的比較實(shí)驗(yàn),實(shí)驗(yàn)中給出了UniDistill在不同模態(tài)的情況下的nuScenes的test數(shù)據(jù)集的結(jié)果。
其中L代表激光雷達(dá)的點(diǎn)云數(shù)據(jù),C代表相機(jī)的圖像數(shù)據(jù)。通過(guò)實(shí)驗(yàn)結(jié)果可以看出相比于其他的蒸餾算法,無(wú)論學(xué)生模型使用哪種模態(tài),教師模型通過(guò)UniDistill框架均能提高學(xué)生模型的各類性能指標(biāo),從而凸顯了UniDistill框架的通用性能。 同時(shí)針對(duì)上文提到的,為了縮減學(xué)生模型和教師模型兩類不同模態(tài)之間的語(yǔ)義gap而引入的adaption layer,作者也進(jìn)行了相關(guān)的消融實(shí)驗(yàn),結(jié)果如下圖所示。
通過(guò)實(shí)驗(yàn)結(jié)果可以看出,當(dāng)采用了1x1的卷積層充當(dāng)adaption layer來(lái)緩解不同模態(tài)語(yǔ)義的gap之后,教師模型可以更加準(zhǔn)確的指導(dǎo)學(xué)生模型的學(xué)習(xí)過(guò)程(無(wú)論是Low-Level級(jí)的蒸餾還是High-Level級(jí)的蒸餾),除此之外,論文中還使用了訓(xùn)練過(guò)程中的檢測(cè)損失,進(jìn)一步的說(shuō)明adaption layer的重要作用。
可以較為明顯的看出,在采用了adaption layer后,學(xué)生模型的學(xué)習(xí)過(guò)程更加容易,無(wú)論是High-Level級(jí)的蒸餾還是Low-Level級(jí)的蒸餾,都有更低的代價(jià)損失。 最后論文作者也放出了使用了UniDistill框架的檢測(cè)結(jié)果對(duì)比圖,如下。
其中圖中的紅色框代表檢測(cè)結(jié)果,綠色框代表真值結(jié)果??梢钥闯觯ㄟ^(guò)教師模型引導(dǎo)學(xué)生模型的學(xué)習(xí)后,蒸餾后的學(xué)生模型要明顯優(yōu)于未經(jīng)教師模型指導(dǎo)的模型,有更多準(zhǔn)確的檢測(cè)結(jié)果,同時(shí)具有更少的虛警。
總結(jié)
目前,雖然基于純視覺(jué)的自動(dòng)駕駛感知算法已經(jīng)取得了非常大的進(jìn)步,但是由于相機(jī)自身的成像機(jī)理,純視覺(jué)的檢測(cè)模型對(duì)于深度的估計(jì)依舊是一個(gè)痛點(diǎn)問(wèn)題。而激光雷達(dá)的點(diǎn)云數(shù)據(jù)可以非常好的描述一個(gè)物體的空間和幾何結(jié)構(gòu),所以激光雷達(dá)作為教師模型,視覺(jué)圖像作為學(xué)生模型的蒸餾路線是一個(gè)比較火的研究方向。本文就是對(duì)曠視的一項(xiàng)發(fā)表在CVPR 2023的跨模態(tài)蒸餾論文進(jìn)行了介紹,希望對(duì)大家有所幫助。 文章的鏈接和官方開(kāi)源倉(cāng)庫(kù)鏈接如下: 論文鏈接:https://arxiv.org/abs/2303.15083 代碼鏈接:https://github.com/megvii-research/CVPR2023-UniDistill
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺(jué)融合
、
多傳感器標(biāo)定
、
多傳感器融合
、
多模態(tài)3D目標(biāo)檢測(cè)
、
點(diǎn)云3D目標(biāo)檢測(cè)
、
目標(biāo)跟蹤
、
Occupancy、cuda與TensorRT模型部署
、
協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)
等多個(gè)方向?qū)W習(xí)視頻(
掃碼即可學(xué)習(xí)
)
視頻官網(wǎng):www.zdjszx.com
② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,
這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻
,期待交流!
③【自動(dòng)駕駛之心】技術(shù)交流群
自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū),聚焦
目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動(dòng)駕駛、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流
等方向。掃碼添加汽車人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)
④【自動(dòng)駕駛之心】平臺(tái)矩陣,歡迎聯(lián)系我們!