散文網(wǎng) » 科技 »學(xué)習(xí) » 主打一個(gè)通用！UniDistill：用于BEV 3D檢測(cè)的通用跨模態(tài)蒸餾框架！

主打一個(gè)通用！UniDistill：用于BEV 3D檢測(cè)的通用跨模態(tài)蒸餾框架！

2023-10-30 12:07 作者:自動(dòng)駕駛之心 0人讀過(guò) | 我要投稿

點(diǎn)擊進(jìn)入→自動(dòng)駕駛之心【BEV感知】技術(shù)交流群流群

論文作者?|?Shengchao Zhou

筆者的個(gè)人理解

目前，基于純視覺(jué)的3D感知模型已經(jīng)取得了非常不錯(cuò)的成績(jī)，其性能指標(biāo)逐漸向使用激光雷達(dá)作為輸入的感知模型看齊。但是！雖然純視覺(jué)的感知算法已經(jīng)取得了非常好的效果，但是由于相機(jī)采集到的是2D圖像信息，物體在3D坐標(biāo)系下的深度信息會(huì)在相機(jī)的成像過(guò)程中消失，這就導(dǎo)致純視覺(jué)的感知模型對(duì)深度的估計(jì)還有待進(jìn)一步的加強(qiáng)。而現(xiàn)在比較流行的一種技術(shù)路線是借助激光雷達(dá)傳感器采集到的點(diǎn)云信息對(duì)視覺(jué)模型進(jìn)行監(jiān)督；其中一種監(jiān)督方式就是利用知識(shí)蒸餾的思想，讓激光雷達(dá)模型作為教師模型，視覺(jué)模型作為學(xué)生模型，利用激光雷達(dá)能夠更加準(zhǔn)確表達(dá)物體幾何和位置的能力對(duì)視覺(jué)模型進(jìn)行跨模態(tài)蒸餾監(jiān)督。今天介紹的一篇是來(lái)自曠視的自動(dòng)駕駛感知論文，并且中稿了今年的

CVPR 2023

視覺(jué)頂會(huì)。該文章的主要貢獻(xiàn)點(diǎn)是提出了一種通用的跨模態(tài)知識(shí)蒸餾框架去提升單模態(tài)的感知模型能力，是一篇很不錯(cuò)的將知識(shí)蒸餾技術(shù)應(yīng)用到自動(dòng)駕駛感知任務(wù)的論文。 UniDistill算法模型整體結(jié)構(gòu)

由于自動(dòng)駕駛的車輛上配備了不同的傳感器采集數(shù)據(jù)，如相機(jī)采集到的圖像數(shù)據(jù)，激光雷達(dá)采集到的點(diǎn)云數(shù)據(jù)，所以會(huì)收集到不同模態(tài)的數(shù)據(jù)表示。而這篇文章提供了一種通用的跨模態(tài)蒸餾思路，如下圖所示。

其中圖中的(a)和(b)主要是指知識(shí)蒸餾中的教師模型和學(xué)生模型采用相同的數(shù)據(jù)模態(tài)，如(a)的圖像數(shù)據(jù)，或者(b)的點(diǎn)云數(shù)據(jù)。而文章的創(chuàng)新點(diǎn)是提出了(c)跨模態(tài)蒸餾，可以讓激光雷達(dá)或者視覺(jué)模型分別充當(dāng)教師或者學(xué)生模型進(jìn)行蒸餾，從而實(shí)現(xiàn)了通用意義上的蒸餾框架。而論文中所提出的蒸餾框架整體結(jié)構(gòu)圖如下。

其中框架圖的上方代表該知識(shí)蒸餾網(wǎng)絡(luò)的教師模型（數(shù)據(jù)輸入可以采用激光雷達(dá)的點(diǎn)云數(shù)據(jù)或者相機(jī)采集的圖像數(shù)據(jù)），框架圖的下方代表知識(shí)蒸餾網(wǎng)絡(luò)的學(xué)生模型（數(shù)據(jù)輸入同教師模型）。通過(guò)整個(gè)算法框圖可以看出文章的創(chuàng)新點(diǎn)主要包括三部分的蒸餾子模塊

Feature Distillation

（Low-Level級(jí)蒸餾）：對(duì)應(yīng)上圖中的綠色部分，將教師和學(xué)生模型的主干網(wǎng)絡(luò)提取出來(lái)的低級(jí)語(yǔ)義特征進(jìn)行蒸餾，這部分是蒸餾框架中的第一層蒸餾

Relation Distillation

（High-Level級(jí)蒸餾）：對(duì)應(yīng)上圖中的藍(lán)色部分，將教師和學(xué)生模型的BEV Encoder提取出來(lái)的高級(jí)語(yǔ)義特征進(jìn)行蒸餾，這部分是蒸餾框架中的第二層蒸餾

Response Distillation

（Response級(jí)蒸餾）：對(duì)應(yīng)上圖中的粉色部分，將教師和學(xué)生模型的Head的輸出結(jié)果特征進(jìn)行蒸餾，這部分是蒸餾框架中的第三層蒸餾接下來(lái)就詳細(xì)介紹一下上述三部分蒸餾子模塊具體的工作流程~ Feature Distillation（Low-Level級(jí)蒸餾）因?yàn)榫W(wǎng)絡(luò)模型淺層可以提取到物體較為豐富的語(yǔ)義特征，文章中就將教師和學(xué)生模型主干網(wǎng)絡(luò)提取到的特征進(jìn)行了Low-Level級(jí)的蒸餾，用于對(duì)二者的特征進(jìn)行對(duì)齊。論文中也有提到，一種比較直覺(jué)的特征蒸餾方法就是進(jìn)行點(diǎn)對(duì)點(diǎn)的特征蒸餾，但是由于

不同模態(tài)背景之間的差異性將會(huì)弱化蒸餾的性能

，所以文章中的解決方案是

選擇只對(duì)前景區(qū)域進(jìn)行蒸餾

。除此之外，由于

大類目標(biāo)的前景區(qū)域要比小類目標(biāo)的前景區(qū)域在BEV空間上占的面積要多，從而會(huì)導(dǎo)致模型更多的關(guān)注對(duì)大類目標(biāo)的前景蒸餾

，而忽略對(duì)小類目標(biāo)蒸餾的學(xué)習(xí)，所以文章中的解決方案是無(wú)論是大類目標(biāo)還是小類目標(biāo)，都只選擇九個(gè)關(guān)鍵點(diǎn)（對(duì)應(yīng)整體結(jié)構(gòu)中的九個(gè)紅色的點(diǎn)）進(jìn)行蒸餾，從而使得模型進(jìn)行均等的學(xué)習(xí)。所以，針對(duì)上述提到的不同模態(tài)背景區(qū)域差異以及不同類目標(biāo)對(duì)蒸餾的貢獻(xiàn)度不同的問(wèn)題，論文針對(duì)

Feature Distillation

蒸餾子模塊提出的蒸餾損失如下

但是作者進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)，由于教師模型和學(xué)生模型的模態(tài)是不相同的，從而導(dǎo)致兩種模態(tài)的特征之間存在語(yǔ)義gap問(wèn)題，弱化最終的蒸餾學(xué)習(xí)效果。在這里作者是采用了1x1的卷積層充當(dāng)Adaption Layer來(lái)縮短兩種模態(tài)間的語(yǔ)義gap。

注意

：這里提到的Adaption Layer只會(huì)在訓(xùn)練的過(guò)程中用到，模型在推理的過(guò)程中就會(huì)去除掉Adaption Layer。

Relation Distillation（High-Level級(jí)蒸餾）

在這里同樣會(huì)出現(xiàn)Feature Distillation中提到的不同模態(tài)之間的語(yǔ)義gap問(wèn)題，所以作者還是采用了一個(gè)另外的1x1卷積充當(dāng)Adaption Layer緩解不同模態(tài)之間的語(yǔ)義差距。

Response Distillation（Response級(jí)蒸餾）

論文實(shí)驗(yàn)結(jié)果

首先給出UniDistill和其他自動(dòng)駕駛感知算法的比較實(shí)驗(yàn)，實(shí)驗(yàn)中給出了UniDistill在不同模態(tài)的情況下的nuScenes的test數(shù)據(jù)集的結(jié)果。

其中L代表激光雷達(dá)的點(diǎn)云數(shù)據(jù)，C代表相機(jī)的圖像數(shù)據(jù)。通過(guò)實(shí)驗(yàn)結(jié)果可以看出相比于其他的蒸餾算法，無(wú)論學(xué)生模型使用哪種模態(tài)，教師模型通過(guò)UniDistill框架均能提高學(xué)生模型的各類性能指標(biāo)，從而凸顯了UniDistill框架的通用性能。同時(shí)針對(duì)上文提到的，為了縮減學(xué)生模型和教師模型兩類不同模態(tài)之間的語(yǔ)義gap而引入的adaption layer，作者也進(jìn)行了相關(guān)的消融實(shí)驗(yàn)，結(jié)果如下圖所示。

通過(guò)實(shí)驗(yàn)結(jié)果可以看出，當(dāng)采用了1x1的卷積層充當(dāng)adaption layer來(lái)緩解不同模態(tài)語(yǔ)義的gap之后，教師模型可以更加準(zhǔn)確的指導(dǎo)學(xué)生模型的學(xué)習(xí)過(guò)程（無(wú)論是Low-Level級(jí)的蒸餾還是High-Level級(jí)的蒸餾），除此之外，論文中還使用了訓(xùn)練過(guò)程中的檢測(cè)損失，進(jìn)一步的說(shuō)明adaption layer的重要作用。

可以較為明顯的看出，在采用了adaption layer后，學(xué)生模型的學(xué)習(xí)過(guò)程更加容易，無(wú)論是High-Level級(jí)的蒸餾還是Low-Level級(jí)的蒸餾，都有更低的代價(jià)損失。最后論文作者也放出了使用了UniDistill框架的檢測(cè)結(jié)果對(duì)比圖，如下。

其中圖中的紅色框代表檢測(cè)結(jié)果，綠色框代表真值結(jié)果?？梢钥闯觯ㄟ^(guò)教師模型引導(dǎo)學(xué)生模型的學(xué)習(xí)后，蒸餾后的學(xué)生模型要明顯優(yōu)于未經(jīng)教師模型指導(dǎo)的模型，有更多準(zhǔn)確的檢測(cè)結(jié)果，同時(shí)具有更少的虛警。

總結(jié)

目前，雖然基于純視覺(jué)的自動(dòng)駕駛感知算法已經(jīng)取得了非常大的進(jìn)步，但是由于相機(jī)自身的成像機(jī)理，純視覺(jué)的檢測(cè)模型對(duì)于深度的估計(jì)依舊是一個(gè)痛點(diǎn)問(wèn)題。而激光雷達(dá)的點(diǎn)云數(shù)據(jù)可以非常好的描述一個(gè)物體的空間和幾何結(jié)構(gòu)，所以激光雷達(dá)作為教師模型，視覺(jué)圖像作為學(xué)生模型的蒸餾路線是一個(gè)比較火的研究方向。本文就是對(duì)曠視的一項(xiàng)發(fā)表在CVPR 2023的跨模態(tài)蒸餾論文進(jìn)行了介紹，希望對(duì)大家有所幫助。文章的鏈接和官方開(kāi)源倉(cāng)庫(kù)鏈接如下：論文鏈接：https://arxiv.org/abs/2303.15083 代碼鏈接：https://github.com/megvii-research/CVPR2023-UniDistill

① 全網(wǎng)獨(dú)家視頻課程

BEV感知、毫米波雷達(dá)視覺(jué)融合

、

多傳感器標(biāo)定

、

多傳感器融合

、

多模態(tài)3D目標(biāo)檢測(cè)

、

點(diǎn)云3D目標(biāo)檢測(cè)

、

目標(biāo)跟蹤

、

Occupancy、cuda與TensorRT模型部署

、

協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)

等多個(gè)方向?qū)W習(xí)視頻（

掃碼即可學(xué)習(xí)

）

視頻官網(wǎng)：www.zdjszx.com

② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)

近2000人的交流社區(qū)，涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線，想要了解更多自動(dòng)駕駛感知（2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì)）、自動(dòng)駕駛定位建圖（SLAM、高精地圖、局部在線地圖）、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布，歡迎掃描下方二維碼，加入自動(dòng)駕駛之心知識(shí)星球，

這是一個(gè)真正有干貨的地方，與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題，日常分享論文+代碼+視頻

，期待交流！

③【自動(dòng)駕駛之心】技術(shù)交流群

自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū)，聚焦

目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動(dòng)駕駛、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流

等方向。掃碼添加汽車人助理微信邀請(qǐng)入群，備注：學(xué)校/公司+方向+昵稱（快速入群方式）