ICCV 2023開源 | 屠榜Waymo!超強(qiáng)3D目標(biāo)檢測范式DetZero!
3D目標(biāo)檢測方案分為Offboard檢測和Online檢測,主要區(qū)別是是否在線運(yùn)行。Online檢測又快又準(zhǔn),但是沒辦法在長序列中實(shí)現(xiàn)魯棒的目標(biāo)跟蹤,目標(biāo)軌跡容易出現(xiàn)碎片化。相較而言,Offboard檢測利用了多幀點(diǎn)云信息,可以學(xué)習(xí)長期連續(xù)點(diǎn)云的復(fù)雜表示。
作者:泡椒味的口香糖 ?| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復(fù)「原論文」即可獲取論文pdf和代碼。
添加微信:dddvisiona,備注:目標(biāo)檢測,拉你入群。文末附行業(yè)細(xì)分群。
Offboard檢測的精度很高,雖然無法實(shí)時(shí)運(yùn)行,但這種方案主要用途是實(shí)現(xiàn)長序列雷達(dá)點(diǎn)云的3D目標(biāo)標(biāo)注,其標(biāo)注精度甚至超越了手工標(biāo)注。但是目前Offboard檢測相關(guān)的文獻(xiàn)還特別少,比較經(jīng)典的就是2021 CVPR的工作3DAL。今天,筆者將帶領(lǐng)讀者閱讀最新的DetZero工作,其在Waymo上的精度實(shí)現(xiàn)了斷層式的第一,并且算法開源,可以用來做高精度的3D點(diǎn)云標(biāo)注。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)》。
這個表做的很有新意,以時(shí)間線來排列SOTA方案。從各個SOTA方案提出的時(shí)間線來看,DetZero無疑是實(shí)現(xiàn)了精度的斷層式增長。
實(shí)際運(yùn)行起來效果也很好,生成的3D目標(biāo)檢測和真值幾乎完全一致。
DetZero這項(xiàng)工作已經(jīng)開源了,感興趣的小伙伴可以追蹤一下作者的Github。
現(xiàn)有的offboard 3D探測器總是遵循模塊化的流水線設(shè)計(jì),以利用無限序列點(diǎn)云的優(yōu)勢。我們發(fā)現(xiàn),offboard 3D檢測器的全部潛力沒有被發(fā)掘,主要是由于兩個原因:( 1 ) onboard多目標(biāo)跟蹤器無法生成足夠完整的目標(biāo)軌跡;( 2 )目標(biāo)的運(yùn)動狀態(tài)對以目標(biāo)為中心的精煉階段利用長期的時(shí)間上下文表示提出了不可避免的挑戰(zhàn)。為了解決這些問題,我們提出了一種新的3D目標(biāo)檢測范式,命名為DetZero。具體來說,本文提出了一種結(jié)合多幀檢測器的離線跟蹤器,以關(guān)注生成的目標(biāo)軌跡的完整性。提出了一種注意力機(jī)制優(yōu)化模塊,以加強(qiáng)跨長期序列點(diǎn)云的上下文信息交互,用于使用分解回歸方法進(jìn)行目標(biāo)優(yōu)化。在Waymo Open Dataset數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,DetZero優(yōu)于所有最新的onboard和offboard 3D檢測方法。值得注意的是,DetZero以85.15 m APH ( L2 )的檢測性能在Waymo 3D目標(biāo)檢測排行榜1中名列第1。進(jìn)一步的實(shí)驗(yàn)驗(yàn)證了用這樣高質(zhì)量的結(jié)果來代替人類標(biāo)注的應(yīng)用。我們的實(shí)證研究導(dǎo)致了對慣例的反思和有趣的發(fā)現(xiàn),這些發(fā)現(xiàn)可以指導(dǎo)未來關(guān)于offboard 3D目標(biāo)檢測的研究。
常見的3D目標(biāo)檢測都是online檢測,又快又準(zhǔn),有什么問題?
主要還是一個連續(xù)性問題,在進(jìn)行長時(shí)間跟蹤時(shí),跟蹤軌跡很容易碎片化,同一個目標(biāo)的ID也很容易跟丟,而且會出現(xiàn)假陽性問題。這樣得到的檢測結(jié)果肯定沒辦法直接用,后面想利用其他網(wǎng)絡(luò)來優(yōu)化的話,也會因?yàn)樯舷挛男畔⒉煌暾鴶U(kuò)大誤匹配。
那么什么是Offboard 3D目標(biāo)檢測?
簡單總結(jié):就是在不關(guān)心模型尺寸和檢測速度的前提下,利用多幀點(diǎn)云信息提高3D檢測精度。其實(shí)就是同時(shí)輸入多幀雷達(dá)點(diǎn)云進(jìn)行3D目標(biāo)檢測和跟蹤,輸出幀間一致的3D目標(biāo)標(biāo)注結(jié)果。
之前的方案都是怎么做的?
Offboard 3D目標(biāo)檢測認(rèn)為多幀點(diǎn)云序列可以提供互補(bǔ)信息,但直接將單幀檢測擴(kuò)展到多幀會導(dǎo)致嚴(yán)重的性能下降。這是因?yàn)辄c(diǎn)云本身是無序的,直接堆疊多幀點(diǎn)云非常混亂。所以不再使用frame-centric的方案,而是使用object-centic的方案,就是將不同點(diǎn)云序列處理為object,再進(jìn)行融合。所以之前的方案基本都是先進(jìn)行多幀3D目標(biāo)檢測,獲得目標(biāo)的初始候選框,然后分配ID進(jìn)行目標(biāo)跟蹤,再對每個ID提取點(diǎn)云序列特征,進(jìn)行進(jìn)一步優(yōu)化,最后進(jìn)行實(shí)例化標(biāo)注。
這種方法的主要問題是,沒有利用目標(biāo)特征的共性。例如,對于動態(tài)目標(biāo)軌跡,當(dāng)目標(biāo)點(diǎn)稀疏時(shí),傳統(tǒng)優(yōu)化模型( a )無法利用t2幀的稠密點(diǎn)特征,在t1幀輸出的框尺寸并不準(zhǔn)確。而在DetZero( b )中,將目標(biāo)點(diǎn)合并(從原點(diǎn)O1到O2),然后從每一幀中的點(diǎn)可以有助于精確的尺寸預(yù)測。
DetZero這個方案具體有啥不同?
DetZero首先使用多幀目標(biāo)檢測和離線跟蹤模塊生成完整的目標(biāo)軌跡,然后引入基于注意力機(jī)制的優(yōu)化模塊,以利用長期的時(shí)間上下文信息來預(yù)測目標(biāo)屬性(尺寸、位置、置信度),最后進(jìn)行世界坐標(biāo)系到幀坐標(biāo)系的變化得到auto labeling檢測結(jié)果。DetZero強(qiáng)調(diào)在上游進(jìn)行高召回率的檢測和跟蹤,在下游進(jìn)行具有長期時(shí)間上下文的精細(xì)的高精度優(yōu)化。
目標(biāo)數(shù)據(jù)準(zhǔn)備這一塊,得到的是特定ID的目標(biāo)軌跡(點(diǎn)云、包圍盒序列、置信度),還需要進(jìn)行進(jìn)一步的優(yōu)化。以往的object-centric是使用基于狀態(tài)的策略來搞,但這樣會導(dǎo)致誤分類的傳播,而且會忽略目標(biāo)之間潛在的相似性。但DetZero這篇文章的作者發(fā)現(xiàn)了兩個現(xiàn)象:(1)剛性物體無論運(yùn)動狀態(tài)如何,在連續(xù)一段時(shí)間的幾何形狀不會發(fā)生明顯變化。(2)目標(biāo)的運(yùn)動狀態(tài)呈現(xiàn)出規(guī)則的模式,并在相鄰時(shí)刻具有很強(qiáng)的一致性。
基于這兩個觀察,作者提出使用注意力機(jī)制將上游任務(wù)獲得的邊界框分解為三個不同的模塊,分別預(yù)測物體的幾何形狀、位置、置信度。細(xì)化目標(biāo)的包圍框以后,再進(jìn)行坐標(biāo)變化,就可以得到最終的auto labeling結(jié)果。
DetZero在Waymo數(shù)據(jù)集上做了非常大量的實(shí)驗(yàn),使用的評估指標(biāo)包括AP(平均精度)、APH(加權(quán)平均精度),包含L1和L2兩個級別。L1評價(jià)包括具有5個以上LiDAR點(diǎn)云的物體,L2評價(jià)只包括至少具有1個且不超過5個LiDAR點(diǎn)的3D標(biāo)簽。注意,最重要的指標(biāo)是mAPH ( L2 )。這里也推薦「3D視覺工坊」新課程《面向自動駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)》。
相較于其他SOTA方案,DetZero的mAPH L2達(dá)到了85.15,在Vehicle上以5.93 ( L1 )和9.51 ( L2 ) mAPH超越了同類型的3DAL(2021 CVPR),表現(xiàn)出很強(qiáng)的利用長時(shí)間序列點(diǎn)云進(jìn)行3D目標(biāo)檢測的能力。
下面是其他SOTA方案和只包括上游部分和全部模塊的對比,有點(diǎn)像消融實(shí)驗(yàn)。得益于上游模塊生成的高質(zhì)量目標(biāo)軌跡,全模型得到了顯著改進(jìn):Vehicle為6.49 ( L1 )和7.68 ( L2 ) mAPH,Pedestrian為3.99 ( L1 )和4.67 ( L2 ) mAPH。
后面這個實(shí)驗(yàn)很有意思,說明DetZero標(biāo)注能力超越了人工標(biāo)注。
消融實(shí)驗(yàn),證明每個模塊的作用。
最后這個泛化實(shí)驗(yàn)感覺很重要,主要面向的就是最后的優(yōu)化模塊,作者將三個不同質(zhì)量的上游結(jié)果作為輸入進(jìn)行推理。low代表baseline優(yōu)化模塊,refine就是作者提出的模塊,improvement代表利用圖像信息進(jìn)一步提升上游候選框性能。
DetZero是一種使用長時(shí)間序列點(diǎn)云作為輸入的SOTA Offboard 3D檢測器,主要思想就是先使用多幀目標(biāo)檢測器和離線跟蹤器獲得目標(biāo)軌跡,然后利用交叉注意力機(jī)制對幾何、位置和置信度進(jìn)行優(yōu)化,獲得auto labeling結(jié)果。DetZero取得了Waymo數(shù)據(jù)集的第一,精度很好,可以用于3D目標(biāo)檢測標(biāo)注。最后,受于篇幅限制,并沒有將全部的實(shí)驗(yàn)結(jié)果貼上來,感興趣的讀者可以深入閱讀一下論文原文。