單目下的3D感知全棧教程(3D檢測(cè)+BEV+Occupancy)
盡管基于點(diǎn)云的3D目標(biāo)檢測(cè)算法性能不斷提升,在KITTI和Nuscenes等榜單上碾壓視覺(jué)方案。但是激光雷達(dá)相對(duì)高昂的造價(jià)和對(duì)各種復(fù)雜天氣情況的敏感性限制激光雷達(dá)的應(yīng)用范圍,使得研究人員更多的探索基于視覺(jué)的3D檢測(cè)。
純視覺(jué)的3D檢測(cè)輸入一般是單目圖像或多目圖像,只需要安裝攝像頭,標(biāo)定相對(duì)簡(jiǎn)單,適合大規(guī)模的商業(yè)部署。而且,圖像包含豐富的場(chǎng)景的顏色和紋理信息,有利于模型的檢測(cè)和分類。目前量產(chǎn)方案中,像地平線,Mobileye和stradvision都是基于視覺(jué)的3D感知方案,而單目方案由于價(jià)格更具有優(yōu)勢(shì),被廣泛量產(chǎn)于各類車輛的L2~L4方案上。

純視覺(jué)3D的學(xué)習(xí)路線
當(dāng)前純視覺(jué)3D方案主要包括多目BEV方案和單目3D/BEV方案。通常認(rèn)為,視覺(jué)3D檢測(cè)的發(fā)展路徑是:2D車輪檢測(cè)+地平假設(shè)->單目3D檢測(cè)->BEV檢測(cè)和occupancy檢測(cè)。
如果想要更全面學(xué)習(xí)和理解純視覺(jué)3D檢測(cè),需要認(rèn)真將整個(gè)流程走一遍。
2D車輪檢測(cè)+地平假設(shè),需要了解成熟的2D檢測(cè)器,faster rcnn和CenterNet等,以及圖像坐標(biāo)系到相機(jī)坐標(biāo)系再到車身坐標(biāo)系的轉(zhuǎn)換。
單目3D檢測(cè),需要學(xué)習(xí)CenterNet3D,FCOS3D和DD3D等單目3D檢測(cè)算法,單目3D的核心是如何通過(guò)相機(jī)的幾何投影模型和3D投影點(diǎn)等先驗(yàn),得到準(zhǔn)確深度估計(jì)。另外,像DD3D等算法,借助lidar數(shù)據(jù)預(yù)訓(xùn)練使得模型具有深度感知能力。
單目BEV檢測(cè),需要學(xué)習(xí)PETR,BEVDET和CaDNN等算法,學(xué)習(xí)如何把2D特征3D化,像CaDDN和BEVDET是借助深度估計(jì)網(wǎng)絡(luò)。而PETR和BEVFormer是借助transformer來(lái)隱式做特征轉(zhuǎn)換。
單目Occupancy檢測(cè)。需要學(xué)習(xí)VoxFormer, FB-OCC和MonoNeRD等算法。Occupancy模型輸出3D空間的每個(gè)網(wǎng)格是否被占用。由于是在3D空間做運(yùn)算,計(jì)算量大,如何設(shè)計(jì)輕量化的Occupancy網(wǎng)絡(luò)值得研究。另外,現(xiàn)在的occupancy的標(biāo)簽是通過(guò)高線速的激光雷達(dá),通過(guò)多幀疊加生成的,難以大規(guī)模商用,如何生成Occupancy的監(jiān)督信號(hào)也是值得研究,像利用NeRF的3D重建來(lái)給Occupancy提供監(jiān)督信號(hào)也是很好的方法。
由于涉及的內(nèi)容較多,時(shí)間線較長(zhǎng),即使是已經(jīng)有工作年限的同學(xué),也很少能夠完整的走一遍,更別說(shuō)未有工作經(jīng)驗(yàn)的同學(xué)。
如何學(xué)習(xí)?
針對(duì)領(lǐng)域主流的單目3D,單目BEV和單目Occupancy算法,我們自研了一套同時(shí)面向工程界和學(xué)術(shù)界的教程,針對(duì)目前常用的大模型自動(dòng)標(biāo)注、點(diǎn)云模型蒸餾視覺(jué)3D模型、CaDDN+BEVDet單目BEV方案、PETR單目BEV方案、單目Occupancy方案OccupancyM3D等展開詳細(xì)介紹,重點(diǎn)關(guān)注應(yīng)用上的難點(diǎn),同時(shí)也介紹了目前大火的BEV自動(dòng)標(biāo)注方案,真正能夠帶大家從0到1梳理清楚視覺(jué)3D方案的路線及核心內(nèi)容點(diǎn),最適合工作上需要進(jìn)階的同學(xué)以及剛?cè)腴T的小白,大綱如下:

主講老師
Wind, 就職于某頭部自動(dòng)駕駛公司,6年感知算法經(jīng)驗(yàn),主要關(guān)注視覺(jué)3D檢測(cè)相關(guān)研發(fā)工作,致力于純視覺(jué)3D感知和NeRF的學(xué)習(xí)和研究。曾在KITTI和Nuscenes上獲得3D檢測(cè)任務(wù)第一名,并在AAAI和WACV等頂會(huì)上發(fā)表論文多篇。
需要具備的基礎(chǔ)
具有一定的python和pyTorch基礎(chǔ),熟悉深度學(xué)習(xí)常用的一些基礎(chǔ)算法;
對(duì)BEV感知和單目3D、Occupancy的應(yīng)用和基礎(chǔ)方案有一定了解;
一定的線性代數(shù)和矩陣論基礎(chǔ);
電腦需要自帶GPU,能夠通過(guò)CUDA加速(顯存至少6GB);
學(xué)后收獲
對(duì)量產(chǎn)級(jí)的單目3D方案有著深入理解,在數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)和優(yōu)化上有較大提升;
熟悉自動(dòng)駕駛感知算法與方案的發(fā)展路線,從更高的角度上看待整個(gè)行業(yè);
能夠精通自動(dòng)駕駛通用算法,理論實(shí)踐并重,無(wú)論是學(xué)術(shù)界抑或工業(yè)界都能直接復(fù)用;
學(xué)完本課程能夠達(dá)到1年左右的視覺(jué)3D感知算法工程師的水平;
能夠結(jié)識(shí)許多行業(yè)從業(yè)人員與學(xué)習(xí)合作伙伴!
開課時(shí)間與學(xué)習(xí)方式
2023.9.25號(hào)正式開始學(xué)習(xí),歷經(jīng)兩個(gè)月,離線視頻授課。主講老師在微信學(xué)習(xí)群內(nèi)答疑,對(duì)課程中的算法、代碼、環(huán)境配置等問(wèn)題一一解惑!
課程咨詢

掃碼學(xué)習(xí)課程

咨詢小助理更多