ICCV 2023 自動駕駛精選19篇論文分享!涵蓋3D目標(biāo)檢測、語義分割、點(diǎn)云等方向
ICCV 2023榜單上月已出,今年共收錄了2160篇論文,具體解析可以看學(xué)姐之前的文章《ICCV 2023 錄用論文分享!進(jìn)來看CV最新熱門研究方向!》。
這次是精選了今年ICCV 2023 會議中自動駕駛相關(guān)的最新論文來和大家分享,涵蓋了3D目標(biāo)檢測、BEV感知、目標(biāo)檢測、語義分割、點(diǎn)云等方向,共19篇。
掃碼添加小享,回復(fù)“ICCV自動駕駛”
免費(fèi)獲取全部論文+代碼合集

1、Segment Anything
標(biāo)題:分割一切
內(nèi)容:作者介紹了“分割任何物體”(Segment Anything,SA)項(xiàng)目:這是一個新的圖像分割任務(wù)、模型和數(shù)據(jù)集。通過在數(shù)據(jù)收集循環(huán)中使用我們的高效模型,作者構(gòu)建了迄今為止最大的分割數(shù)據(jù)集,包含超過10億個掩膜和1100萬個受許可和尊重隱私的圖像。該模型被設(shè)計(jì)和訓(xùn)練為可提示性,因此可以在新的圖像分布和任務(wù)中進(jìn)行零樣本遷移。作者在許多任務(wù)上評估其能力,并發(fā)現(xiàn)其零樣本性能令人印象深刻,通常與甚至優(yōu)于先前的完全監(jiān)督結(jié)果相競爭。

2、SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection
標(biāo)題:將多模態(tài)稀疏表示融合用于多傳感器3D物體檢測
內(nèi)容:通過識別現(xiàn)有激光雷達(dá)-攝像頭三維物體檢測方法的四個重要組成部分(激光雷達(dá)和攝像頭候選框、變換和融合輸出),作者觀察到所有現(xiàn)有方法要么尋找密集的候選框,要么生成密集的場景表示。然而,考慮到物體僅占整個場景的一小部分,尋找密集的候選框和生成密集的表示是噪聲和低效的。本論文提出了SparseFusion,一種新穎的多傳感器三維檢測方法,專門使用稀疏的候選框和稀疏的表示。具體而言,SparseFusion利用激光雷達(dá)和攝像頭模態(tài)中并行檢測器的輸出作為融合的稀疏候選框。作者通過解開對象表示將攝像頭候選框轉(zhuǎn)換為激光雷達(dá)坐標(biāo)空間,然后可以通過輕量級自注意模塊在統(tǒng)一的三維空間中融合多模態(tài)候選框。為了減輕模態(tài)之間的負(fù)面?zhèn)鬟f,作者提出了新穎的語義和幾何跨模態(tài)傳遞模塊,這些模塊應(yīng)用于模態(tài)特定檢測器之前。SparseFusion在nuScenes基準(zhǔn)上取得了最先進(jìn)的性能,同時運(yùn)行速度最快,甚至超越了使用更強(qiáng)骨干網(wǎng)絡(luò)的方法。

3、Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection
標(biāo)題:Ada3D:利用自適應(yīng)推理來挖掘空間冗余,實(shí)現(xiàn)高效的3D物體檢測
內(nèi)容:基于體素的方法在自動駕駛中的3D物體檢測取得了最先進(jìn)的性能,然而其顯著的計(jì)算和內(nèi)存成本對于資源受限的車輛應(yīng)用構(gòu)成了挑戰(zhàn)。其中一個原因是在激光雷達(dá)點(diǎn)云中存在大量冗余的背景點(diǎn),導(dǎo)致3D體素和BEV(鳥瞰圖)地圖表示中存在空間冗余。為了解決這個問題,作者提出了一種自適應(yīng)推理框架,稱為Ada3D,專注于減少空間冗余以壓縮模型的計(jì)算和內(nèi)存成本。Ada3D通過輕量級重要性預(yù)測器和激光雷達(dá)點(diǎn)云的獨(dú)特屬性,自適應(yīng)地過濾冗余輸入。此外,通過引入保持BEV特征固有稀疏性的稀疏保留批歸一化,作者保持了BEV特征的稀疏性。通過Ada3D,在不犧牲準(zhǔn)確性的前提下,將3D體素減少了40%,將2D BEV特征圖的密度從100%降低到20%。Ada3D將模型的計(jì)算和內(nèi)存成本降低了5倍,并分別實(shí)現(xiàn)了3D和2D主干網(wǎng)絡(luò)的1.52倍/1.45倍端到端GPU延遲和1.5倍/4.5倍GPU峰值內(nèi)存優(yōu)化。

4、PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
標(biāo)題:PETRv2:基于多攝像頭圖像的三維感知統(tǒng)一框架
內(nèi)容:在本文中,作者提出了PETRv2,這是一個針對多視角圖像的三維感知統(tǒng)一框架。基于PETR [24],PETRv2探索了時間建模的有效性,利用先前幀的時間信息提升三維物體檢測性能。具體而言,作者在PETR的基礎(chǔ)上擴(kuò)展了三維位置嵌入(3D PE)以進(jìn)行時間建模。3D PE實(shí)現(xiàn)了不同幀的物體位置的時間對齊。此外,作者還引入了特征引導(dǎo)的位置編碼器,進(jìn)一步提高了3D PE的數(shù)據(jù)適應(yīng)性。為了支持多任務(wù)學(xué)習(xí)(例如BEV分割和三維車道檢測),PETRv2通過引入在不同空間下初始化的任務(wù)特定查詢,提供了一個簡單而有效的解決方案。PETRv2在三維物體檢測、BEV分割和三維車道檢測方面實(shí)現(xiàn)了最先進(jìn)的性能。此外,論文還對PETR框架進(jìn)行了詳細(xì)的魯棒性分析。希望PETRv2能夠成為三維感知領(lǐng)域的強(qiáng)大基準(zhǔn)模型。

5、Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
標(biāo)題:跨模態(tài)Transformer:實(shí)現(xiàn)快速和穩(wěn)健的三維物體檢測
內(nèi)容:在本文中,作者提出了一種名為Cross Modal Transformer(CMT)的穩(wěn)健三維檢測器,用于端到端的三維多模態(tài)檢測。CMT在沒有明確的視圖轉(zhuǎn)換的情況下,將圖像和點(diǎn)云令牌作為輸入,并直接輸出精確的三維邊界框。通過將3D點(diǎn)編碼為多模態(tài)特征,實(shí)現(xiàn)了多模態(tài)令牌的空間對齊。CMT的核心設(shè)計(jì)相當(dāng)簡單,但性能令人印象深刻。在nuScenes測試集上,它以74.1%的NDS(單模型最先進(jìn)水平)實(shí)現(xiàn)了優(yōu)異性能,并保持了更快的推理速度。此外,即使缺少LiDAR數(shù)據(jù),CMT也具有很強(qiáng)的魯棒性。

6、DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection
標(biāo)題:DQS3D:密集匹配的量化感知半監(jiān)督三維檢測
內(nèi)容:本文研究半監(jiān)督三維物體檢測問題,考慮到雜亂的三維室內(nèi)場景的高標(biāo)注成本,該問題具有重要意義。作者采用了自我教學(xué)的穩(wěn)健和有原則的框架,這在最近的半監(jiān)督學(xué)習(xí)中取得了顯著進(jìn)展。雖然這種范式在圖像級或像素級預(yù)測方面是自然的,但將其應(yīng)用于檢測問題面臨著提案匹配的挑戰(zhàn)。以前的方法基于兩階段流程,在第一階段啟發(fā)式地選擇提案,并在第一階段生成的提案之間進(jìn)行匹配,導(dǎo)致空間上稀疏的訓(xùn)練信號。相比之下,論文提出了第一個能以單階段方式工作并允許空間密集訓(xùn)練信號的半監(jiān)督三維檢測算法。這種新設(shè)計(jì)的一個基本問題是由點(diǎn)到體素離散化引起的量化誤差,這不可避免地導(dǎo)致體素域中兩個變換視圖之間的不對齊。為此,作者推導(dǎo)并實(shí)現(xiàn)了即時補(bǔ)償這種不對齊的封閉規(guī)則。實(shí)驗(yàn)結(jié)果是顯著的,例如,使用20%的注釋將ScanNet mAP@0.5從35.2%提升到48.5%。

7、StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
標(biāo)題:StreamPETR:探索面向物體的時間建模,用于高效的多視角三維物體檢測
內(nèi)容:本文提出了一種名為StreamPETR的長序列建模框架,用于多視角3D物體檢測。在PETR系列的稀疏查詢設(shè)計(jì)基礎(chǔ)上,我們系統(tǒng)地開發(fā)了一種面向物體的時間機(jī)制。該模型以在線方式執(zhí)行,通過逐幀傳播對象查詢來傳遞長期歷史信息。此外,作者引入了一種運(yùn)動感知的層歸一化來建模物體的移動。與單幀基準(zhǔn)相比,StreamPETR在幾乎沒有計(jì)算成本的情況下實(shí)現(xiàn)了顯著的性能提升。在標(biāo)準(zhǔn)的nuScenes基準(zhǔn)上,它是首個在線多視角方法,與基于激光雷達(dá)的方法實(shí)現(xiàn)了可比較的性能(67.6%的NDS和65.3%的AMOTA)。輕量級版本實(shí)現(xiàn)了45.0%的mAP和31.7幀/秒的速度,優(yōu)于最先進(jìn)方法(SOLOFusion)2.3%的mAP和1.8倍的速度。

8、SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving
標(biāo)題:SurroundOcc:用于自動駕駛的多攝像頭三維占據(jù)預(yù)測
內(nèi)容:3D場景理解在基于視覺的自動駕駛中起著至關(guān)重要的作用。盡管大多數(shù)現(xiàn)有方法專注于3D物體檢測,但難以描述任意形狀和無限類別的真實(shí)世界對象。為了更全面地感知3D場景,在本文中,作者提出了一種名為SurroundOcc的方法,用于通過多攝像頭圖像預(yù)測三維占據(jù)情況。首先為每個圖像提取多尺度特征,并采用空間2D-3D注意機(jī)制將它們提升到三維體積空間。然后,應(yīng)用三維卷積逐漸上采樣體積特征,并在多個層次上施加監(jiān)督。為了獲得密集的占據(jù)預(yù)測,作者設(shè)計(jì)了一個流程,以生成不需要大量標(biāo)注的密集占據(jù)地面真值。具體而言,分別融合動態(tài)物體和靜態(tài)場景的多幀激光雷達(dá)掃描。然后,采用Poisson重建填補(bǔ)空洞,并將網(wǎng)格體素化以獲得密集的占據(jù)標(biāo)簽。

9、Scene as Occupancy
標(biāo)題:將場景視為占據(jù)情況
內(nèi)容:之前的文獻(xiàn)主要關(guān)注單一的場景補(bǔ)全任務(wù),但作者認(rèn)為這種占據(jù)表示的潛力可能具有更廣泛的影響。在本文中,作者提出了OccNet,這是一個多視角以視覺為中心的管道,帶有級聯(lián)和時間體素解碼器,用于重建3D占據(jù)情況。在OccNet的核心是一種通用的占據(jù)嵌入,用于表示3D物理世界。這種描述符可以應(yīng)用于廣泛的駕駛?cè)蝿?wù),包括檢測、分割和規(guī)劃。為了驗(yàn)證這種新表示法和作者提出的算法的有效性。實(shí)證實(shí)驗(yàn)顯示,在多個任務(wù)中都存在明顯的性能提升,例如,運(yùn)動規(guī)劃的碰撞率可以減少15%-58%,證明了該方法的優(yōu)越性。

10、MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation
標(biāo)題:MetaBEV:解決BEV檢測和地圖分割的傳感器故障問題
內(nèi)容:在本文中,作者提出了一個名為MetaBEV的魯棒框架,用于應(yīng)對極端的真實(shí)世界環(huán)境,包括六種傳感器損壞情況和兩種極端的傳感器丟失情況。在MetaBEV中,來自多個傳感器的信號首先通過模態(tài)特定的編碼器進(jìn)行處理。隨后,初始化一組稱為元-BEV的密集BEV查詢。然后,這些查詢被BEV-Evolving解碼器迭代地處理,該解碼器有選擇地匯聚來自LiDAR、攝像頭或兩種模態(tài)的深度特征。更新后的BEV表示進(jìn)一步用于多個3D預(yù)測任務(wù)。此外,作者引入了一個新的M2oE結(jié)構(gòu),以減輕多任務(wù)聯(lián)合學(xué)習(xí)中不同任務(wù)的性能下降。最后,在nuScenes數(shù)據(jù)集上對MetaBEV進(jìn)行了評估,涵蓋了3D物體檢測和BEV地圖分割任務(wù)。實(shí)驗(yàn)結(jié)果顯示,MetaBEV在全模態(tài)和損壞模態(tài)上的性能都遠(yuǎn)遠(yuǎn)優(yōu)于以前的方法。

掃碼添加小享,回復(fù)“ICCV自動駕駛”
免費(fèi)獲取全部論文+代碼合集

11、TALL: Thumbnail Layout for Deepfake Video Detection
標(biāo)題:TALL:用于深偽造視頻檢測的縮略圖布局
內(nèi)容:本文引入了一種簡單而有效的策略,名為Thumbnail Layout(TALL),它將視頻剪輯轉(zhuǎn)化為預(yù)定義的布局,實(shí)現(xiàn)了空間和時間依賴性的保留。具體而言,連續(xù)的幀在每幀的固定位置被遮罩以改善泛化能力,然后被調(diào)整為子圖像并重新排列成預(yù)定義的縮略圖布局。TALL是與模型無關(guān)且極其簡單的,只需修改幾行代碼。受到視覺變換器的成功啟發(fā),作者將TALL引入到Swin Transformer中,形成了一種高效且有效的方法TALL-Swin。在數(shù)據(jù)集內(nèi)和跨數(shù)據(jù)集的廣泛實(shí)驗(yàn)驗(yàn)證了TALL和SOTA TALL-Swin的有效性和優(yōu)越性。

12、AlignDet: Aligning Pre-training and Fine-tuning in Object Detection
標(biāo)題:AlignDet:在目標(biāo)檢測中對預(yù)訓(xùn)練和微調(diào)進(jìn)行對齊
內(nèi)容:在目標(biāo)檢測中,作者提出了AlignDet,一個統(tǒng)一的預(yù)訓(xùn)練框架,通過解決現(xiàn)有實(shí)踐中預(yù)訓(xùn)練和微調(diào)過程之間的差異,顯著提升了檢測器的性能和泛化能力。

13、Cascade-DETR: Delving into High-Quality Universal Object Detection
標(biāo)題:Cascade-DETR:深入探討高質(zhì)量的通用目標(biāo)檢測
內(nèi)容:作者引入了Cascade-DETR,一種高質(zhì)量的通用目標(biāo)檢測方法,通過引入級聯(lián)注意層和重新評分策略,顯著提高了在不同領(lǐng)域的檢測性能。

14、Rethinking Range View Representation for LiDAR Segmentation
標(biāo)題:重新思考激光雷達(dá)分割的距離視圖表示方式
內(nèi)容:本研究探索了重新構(gòu)思激光雷達(dá)分割中的距離視圖表示方法,提出了RangeFormer框架,有效解決了多個關(guān)鍵問題,并在多個激光雷達(dá)分割基準(zhǔn)中實(shí)現(xiàn)了優(yōu)越性能。

15、FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
標(biāo)題:FreeCOS:基于分形和無標(biāo)簽圖像的自監(jiān)督學(xué)習(xí),用于曲線對象分割
內(nèi)容:本研究提出了FreeCOS方法,利用分形和無標(biāo)簽圖像進(jìn)行自監(jiān)督學(xué)習(xí),實(shí)現(xiàn)了高質(zhì)量的曲線對象分割,在多個公共數(shù)據(jù)集上表現(xiàn)優(yōu)于現(xiàn)有方法。

16、MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation
標(biāo)題:MARS: 無需額外監(jiān)督的模型不可知偏置對象移除,用于弱監(jiān)督語義分割
內(nèi)容:本研究提出了MARS框架,一種全自動/模型不可知的偏置對象移除方法,通過利用無監(jiān)督技術(shù)的語義一致特征在偽標(biāo)簽中消除偏置對象,在弱監(jiān)督語義分割任務(wù)中取得了顯著的性能提升,無需額外監(jiān)督。

17、DVIS: Decoupled Video Instance Segmentation Framework
標(biāo)題:DVIS:解耦式視頻實(shí)例分割框架
內(nèi)容:視頻實(shí)例分割中存在的挑戰(zhàn),包括復(fù)雜場景和長視頻,促使作者提出了解耦式視頻實(shí)例分割框架(DVIS),通過將任務(wù)分解為分割、跟蹤和優(yōu)化三個獨(dú)立子任務(wù),實(shí)現(xiàn)了新的最先進(jìn)性能,并在OVIS和VIPSeg等數(shù)據(jù)集上超越當(dāng)前方法。

18、Open-vocabulary Panoptic Segmentation with Embedding Modulation
標(biāo)題:使用嵌入調(diào)制的開放詞匯泛全景分割
內(nèi)容:作者提出了OPSNet框架,通過Embedding Modulation模塊實(shí)現(xiàn)分割模型與視覺-語言對齊的CLIP編碼器之間的信息交流,在開放和閉合詞匯設(shè)置下實(shí)現(xiàn)了優(yōu)越的全景分割性能,減少了對額外數(shù)據(jù)的需求。

19、Robo3D: Towards Robust and Reliable 3D Perception against Corruptions
標(biāo)題:Robo3D:面向抵御數(shù)據(jù)損壞的穩(wěn)健可靠的三維感知
內(nèi)容:Robo3D提出了首個綜合性基準(zhǔn),旨在探索3D檢測和分割模型在真實(shí)環(huán)境中的自然損壞下的魯棒性,揭示了現(xiàn)有模型在面對多種損壞時的脆弱性,并提出了提升魯棒性的訓(xùn)練框架和策略。

掃碼添加小享,回復(fù)“ICCV自動駕駛”
免費(fèi)獲取全部論文+代碼合集
