最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Neighbor-Vote:使用鄰近距離投票優(yōu)化單目3D目標(biāo)檢測(cè)(ACM MM2021)

2021-07-17 16:34 作者:3D視覺(jué)工坊  | 我要投稿

名字:Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting

作者:楚云|微信公眾號(hào):3D視覺(jué)工坊

注1:文末附有【3D目標(biāo)檢測(cè)】交流群加入方式哦~

注2:重磅!國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合系統(tǒng)課程:https://mp.weixin.qq.com/s/0-mb6M6HvKU3Uau0a4taTw

鏈接:https://arxiv.org/pdf/2107.02493.pdf

摘要:隨著攝像頭在自動(dòng)駕駛等新的應(yīng)用領(lǐng)域的應(yīng)用越來(lái)越廣泛,對(duì)單目圖像進(jìn)行3D目標(biāo)檢測(cè)成為視覺(jué)場(chǎng)景理解的重要任務(wù)。單目3D目標(biāo)檢測(cè)的最新進(jìn)展很多依賴(lài)于偽點(diǎn)云生成,即進(jìn)行單目深度估計(jì),將二維像素點(diǎn)提升為偽三維點(diǎn)。然而,單目圖像的深度估計(jì)精度不高,必然會(huì)導(dǎo)致偽點(diǎn)云在目標(biāo)內(nèi)的位置發(fā)生偏移。因此,預(yù)測(cè)的邊框可能存在不準(zhǔn)確的位置和形狀變形。在本文中,本文提出了一種新穎的鄰居投票方法,該鄰居預(yù)測(cè)有助于從嚴(yán)重變形的偽點(diǎn)云的改善目標(biāo)檢測(cè)。具體而言,每個(gè)特征點(diǎn)形成他們自己的預(yù)測(cè),然后通過(guò)投票來(lái)構(gòu)建“共識(shí)”。通過(guò)這種方式,本文可以有效地將鄰居的預(yù)測(cè)與局部預(yù)測(cè)的預(yù)測(cè)相結(jié)合,實(shí)現(xiàn)更準(zhǔn)確的3D檢測(cè)。為了進(jìn)一步放大ROI偽點(diǎn)和背景點(diǎn)之間的區(qū)別,本文還將2D前景像素點(diǎn)的ROI預(yù)測(cè)分?jǐn)?shù)編碼到相應(yīng)的偽3D點(diǎn)上。本文在KITTI基準(zhǔn)測(cè)試上驗(yàn)證本文提出的方法,在驗(yàn)證集上的鳥(niǎo)瞰檢測(cè)結(jié)果優(yōu)于目前的SOTA,特別是對(duì)于“困難”水平檢測(cè)。

1.引言

3D目標(biāo)檢測(cè)是依賴(lài)于理解3D世界中的上下文的應(yīng)用(例如自主駕駛)中最重要的任務(wù)之一。目前已出現(xiàn)很多基于點(diǎn)云的3D目標(biāo)檢測(cè)算法。盡管這些方法取得了優(yōu)異的性能,然而,激光雷達(dá)仍然太昂貴,不能裝備在每一輛車(chē)上。因此,廉價(jià)的替代品更受青睞,特別是相機(jī),因?yàn)樗鼈兊膬r(jià)格低,幀率高。

另一方面,由于深度信息的缺少,在RGB圖像,尤其是單眼圖像上進(jìn)行3D檢測(cè),仍然是艱巨的挑戰(zhàn)。為了解決這一挑戰(zhàn),目前已經(jīng)存在方法:首先從單目圖像估計(jì)深度信息,然后將2D像素轉(zhuǎn)換到偽3D。隨后3D目標(biāo)檢測(cè)器可以應(yīng)用于偽點(diǎn)云上。

與真實(shí)雷達(dá)點(diǎn)云相比,如上所述的偽點(diǎn)云存在一些問(wèn)題。首先,由于單目深度估計(jì)必然存在不準(zhǔn)確性,導(dǎo)致偽點(diǎn)云存在位置偏移和形狀變形,這可能會(huì)破壞3D邊框回歸。其次,遠(yuǎn)距離目標(biāo)深度估計(jì)的精度低于近距離目標(biāo)深度估計(jì)的精度,導(dǎo)致遠(yuǎn)目標(biāo)深度估計(jì)的失真明顯增大。這些變形的偽點(diǎn)云將導(dǎo)致大量誤檢框的產(chǎn)生。

本文提出了一種叫做Neighbor-Vote(鄰居投票)的方法。具體而言,本文認(rèn)為特征圖上的目標(biāo)周?chē)拿總€(gè)點(diǎn)都是“選民”。選民需要從自己的視角出發(fā)投票給一定數(shù)量的附近目標(biāo)。通過(guò)這個(gè)投票過(guò)程,誤檢目標(biāo)比真目標(biāo)的得票率要低得多,因此更容易被識(shí)別。

總之,本文做出了以下三點(diǎn)貢獻(xiàn):

  • 設(shè)計(jì)了一種高效的單目圖像3D檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要包括四個(gè)主要步驟:偽點(diǎn)云生成、2D ROI分?jǐn)?shù)關(guān)聯(lián)基于注意力的特征提取鄰局輔助預(yù)測(cè)。

  • 本文設(shè)計(jì)了一種鄰居投票方法,可以有效地消除偽點(diǎn)云預(yù)測(cè)中的誤檢框。本文可以自適應(yīng)地結(jié)合鄰居預(yù)測(cè)和局部預(yù)測(cè),從而大大提高邊框預(yù)測(cè)的精度。

  • 結(jié)果表明,本文的方法在KITTI BEV基準(zhǔn)上產(chǎn)生了最好的性能。

2. 鄰居投票系統(tǒng)設(shè)計(jì)

2.1概述

圖 1 Neighbor-Vote整體框架圖

本文提出一種基于偽點(diǎn)云的框架Neighbor-Vote,旨在通過(guò)鄰居特征的附加預(yù)測(cè)提升單目3D目標(biāo)檢測(cè)。如圖1所示,本文提出的Neighbor-Vote是單階段檢測(cè)器,并由以下四個(gè)主要步驟組成:

(1)偽點(diǎn)云生成。

(2)2D ROI分?jǐn)?shù)關(guān)聯(lián)。

(3)基于自注意力的特征提取。

(4)鄰居投票輔助目標(biāo)預(yù)測(cè)。

本文在圖1中展示了整個(gè)框架,并在下面逐一討論四個(gè)步驟。

2.2偽點(diǎn)云生成

2.3前景偽點(diǎn)云似然關(guān)聯(lián)

遠(yuǎn)距離目標(biāo)的深度估計(jì)精度遠(yuǎn)低于近距離目標(biāo),導(dǎo)致偽激光點(diǎn)在較遠(yuǎn)距離處的位置偏移較大。為了補(bǔ)償不準(zhǔn)確的深度估計(jì),在這一步中,本文盡力擴(kuò)大前景感興趣區(qū)域(ROI)和背景之間的差異,特別是遠(yuǎn)距離物體。為此,本文提出將每個(gè)前景2D像素的ROI得分與相應(yīng)的偽激光點(diǎn)相關(guān)聯(lián),用分?jǐn)?shù)來(lái)表示成為前景點(diǎn)的可能性。

本文發(fā)現(xiàn),在2D圖像中,一個(gè)遠(yuǎn)距離的物體雖然小且分辨率低,但通常仍保留一定程度的語(yǔ)義信息。事實(shí)上,就KITTI數(shù)據(jù)集的汽車(chē)類(lèi)別而言,在許多2D檢測(cè)器的iou閾值為0.7的困難水平目標(biāo)上,平均精度(AP)已達(dá)到75%以上,如FCOS,CenterNet,Cascad R-CNN。根據(jù)這一結(jié)果,本文提出用2D檢測(cè)器提取ROI區(qū)域,并將預(yù)測(cè)得分與相應(yīng)的偽激光點(diǎn)相關(guān)聯(lián)。

本文使用FCOS作為2D檢測(cè)器。邊界框中每個(gè)像素的得分被投影到3D空間中,然后,本文將該分?jǐn)?shù)編碼為偽點(diǎn)云的第四個(gè)通道,如下所示:

2.4自注意力特征提取

由于偽點(diǎn)云的嚴(yán)重位移和變形,需要依賴(lài)于目標(biāo)周?chē)卣鼽c(diǎn)的空間上下文信息,以更好地識(shí)別目標(biāo)的位置和形狀,這些信息需要提取相對(duì)遠(yuǎn)距離的特征。在每個(gè)位置上使用多層堆疊的、具有固定接收域的卷積運(yùn)算不能有效地提取足夠長(zhǎng)距離的特征。因此,本文在特征提取模塊中結(jié)合了自注意力機(jī)制。

2.5 結(jié)合鄰居投票的邊框預(yù)測(cè)

鄰居投票 如前所述,偽點(diǎn)云在描述目標(biāo)位置和形狀方面不如真實(shí)點(diǎn)云準(zhǔn)確。為了應(yīng)對(duì)這一挑戰(zhàn),本文提出利用目標(biāo)附近的特征點(diǎn)(本文稱(chēng)為“鄰居”),并讓它們協(xié)助判斷目標(biāo)的位置。具體來(lái)說(shuō),本文利用每個(gè)鄰居點(diǎn)的個(gè)體觀點(diǎn),并嘗試通過(guò)投票機(jī)制形成“共識(shí)”。考慮一個(gè)鳥(niǎo)瞰視角下的特征圖,其中和分別表示x和z方向上的特征圖的大小,??表示下采樣率??拷A(yù)測(cè)目標(biāo)的特征點(diǎn)被視為有投票權(quán)的鄰居或“投票者”。每個(gè)選民投兩票。也就是說(shuō),他們可以投票支持兩個(gè)最接近的目標(biāo),一個(gè)朝前和一個(gè)向后(在??方向上的相對(duì)定位)

其中P是預(yù)測(cè)目標(biāo)的列表。和是前面和后面的選定目標(biāo)。在這里,本文首先讓所有特征點(diǎn)參與投票,然后過(guò)濾掉那些投票超出一定距離的特征點(diǎn),這樣使得所有有投票權(quán)的鄰居確實(shí)在預(yù)測(cè)目標(biāo)附近,投票過(guò)程如圖2所示。

圖 2 投票過(guò)程說(shuō)明

3.實(shí)驗(yàn)

1.驗(yàn)證集上的比較結(jié)果。首先,本文與幾個(gè)最近的單目3D目標(biāo)檢測(cè)模型比較了鄰居投票的BEV和3D檢測(cè)精度:

表 1 kitti驗(yàn)證集上的性能比較?!邦~外信息”意味著除了3D邊框外的其他監(jiān)督,其中“mask”是指分割任務(wù)的標(biāo)簽。

2.消融實(shí)驗(yàn)。本文對(duì)模型進(jìn)行了消融實(shí)驗(yàn),以分析驗(yàn)證各模塊的作用,如表2所示。

表 2 KITTI驗(yàn)證集上的消融分析。本文量化了自注意力模塊(SA)、ROI分?jǐn)?shù)關(guān)聯(lián)(RA)、鄰居投票分支(V)和兩個(gè)分類(lèi)分支的融合(F)的影響。

3.Neighbor-Vote降低誤檢框的有效性。neighbor-vote背后的基本原理是,本文認(rèn)為大多數(shù)特征點(diǎn)會(huì)投票支持真正的目標(biāo)。因此,鄰居投票機(jī)制可以有效地過(guò)濾掉誤檢框預(yù)測(cè)。為了確認(rèn)這一原理,本文比較了baseline網(wǎng)絡(luò)(僅包含偽點(diǎn)云生成模塊和3D檢測(cè)器)和本文的網(wǎng)絡(luò)中不同IoU閾值的真陽(yáng)性和假陽(yáng)性的數(shù)量,如表3所示。具體來(lái)說(shuō),當(dāng)一個(gè)預(yù)測(cè)邊框和ground-truth之間的IoU大于預(yù)設(shè)的閾值,例如0.3、0.5或0.7,這個(gè)預(yù)測(cè)邊框被認(rèn)為是一個(gè)真正的目標(biāo)框(TP);否則就是誤檢框。接下來(lái),本文計(jì)算在baseline網(wǎng)絡(luò)中但不在本文網(wǎng)絡(luò)中的誤檢框(FP)的數(shù)量。這里,本文將判定兩個(gè)邊框重合的IoU閾值設(shè)為0.1——當(dāng)兩個(gè)邊框的IoU都大于0.1時(shí),認(rèn)為這兩個(gè)邊框指向一樣的目標(biāo)。通過(guò)這種方式,本文報(bào)告了被本文的網(wǎng)絡(luò)有效移除的誤檢框的下界。圖3的結(jié)果表明,本文的網(wǎng)絡(luò)消除了kitti驗(yàn)證集上73.8%(IoU = 0.5)和55.4%(IoU = 0.7)的誤檢框。

最后,本文還驗(yàn)證了本文的模型是否會(huì)同樣移除大量的真實(shí)目標(biāo)框(TP)。如圖3(b)所示,只有一小部分TPs會(huì)丟失,e.g. 在IoU=0.5和IoU=0.7時(shí)分別是6.4%和4.8%。

表 3 KITTI驗(yàn)證集上FP數(shù)量和TP數(shù)量的相對(duì)變化。

圖 3 本文在(a)中報(bào)告了baseline網(wǎng)絡(luò)中的FPs,以及在本文的網(wǎng)絡(luò)中成功移除的FPs;在(b)中展示baseline網(wǎng)絡(luò)中的TP的數(shù)量,以及意外刪除的TP的數(shù)量。

4.總結(jié)

在這項(xiàng)工作中,本文提出了鄰居投票的單目3D目標(biāo)檢測(cè)框架。與之前的工作的關(guān)鍵區(qū)別在于,本文考慮了目標(biāo)周?chē)従犹卣鼽c(diǎn)的預(yù)測(cè),以幫助改善嚴(yán)重變形的點(diǎn)云的檢測(cè)。通過(guò)投票,每個(gè)特征點(diǎn)的個(gè)體、噪聲預(yù)測(cè)可以共同形成一個(gè)有效的預(yù)測(cè)。此外,通過(guò)自適應(yīng)權(quán)值將鄰居預(yù)測(cè)與局部預(yù)測(cè)相結(jié)合,得到最終的預(yù)測(cè)結(jié)果。在KITTI數(shù)據(jù)集上的實(shí)驗(yàn)證明了該方法的有效性。

備注:作者也是我們「3D視覺(jué)從入門(mén)到精通」特邀嘉賓:一個(gè)超干貨的3D視覺(jué)學(xué)習(xí)社區(qū)

原創(chuàng)征稿

初衷 3D視覺(jué)工坊是基于優(yōu)質(zhì)原創(chuàng)文章的自媒體平臺(tái),創(chuàng)始人和合伙人致力于發(fā)布3D視覺(jué)領(lǐng)域最干貨的文章,然而少數(shù)人的力量畢竟有限,知識(shí)盲區(qū)和領(lǐng)域漏洞依然存在。為了能夠更好地展示領(lǐng)域知識(shí),現(xiàn)向全體粉絲以及閱讀者征稿,如果您的文章是3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM三維重建、點(diǎn)云后處理、自動(dòng)駕駛、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、硬件選型、求職分享等方向,歡迎砸稿過(guò)來(lái)~文章內(nèi)容可以為paper reading、資源總結(jié)、項(xiàng)目實(shí)戰(zhàn)總結(jié)等形式,公眾號(hào)將會(huì)對(duì)每一個(gè)投稿者提供相應(yīng)的稿費(fèi),我們支持知識(shí)有價(jià)!

投稿方式

郵箱:vision3d@yeah.net 或者加下方的小助理微信:CV_LAB,另請(qǐng)注明原創(chuàng)投稿。

微信交流群:

歡迎加入「3D視覺(jué)工坊」交流群,方向涉及3D視覺(jué)、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺(jué)、自動(dòng)駕駛、點(diǎn)云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長(zhǎng)~

添加小助手微信:CV_LAB,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。



Neighbor-Vote:使用鄰近距離投票優(yōu)化單目3D目標(biāo)檢測(cè)(ACM MM2021)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
安丘市| 阿克苏市| 浠水县| 乐至县| 田林县| 镇宁| 黔西县| 三门峡市| 临江市| 泉州市| 上饶县| 浠水县| 洛隆县| 双流县| 通许县| 瑞金市| 彰武县| 临武县| 南靖县| 株洲县| 北京市| 太和县| 嘉义市| 那曲县| 广德县| 景洪市| 苗栗市| 余姚市| 彭州市| 长海县| 南平市| 望都县| 永和县| 张家川| 翁牛特旗| 射洪县| 阿坝县| 婺源县| 蒙城县| 云安县| 朝阳县|