論文解讀 | 利用圖形卷積核在距離圖像中實(shí)現(xiàn)高效的3D目標(biāo)檢測(cè)
原創(chuàng) | 文 BFT機(jī)器人

01?摘要
該論文提出了一種基于范圍圖像的高效3D物體檢測(cè)方法,通過(guò)利用圖卷積核來(lái)提取每個(gè)像素周?chē)木植繋缀涡畔ⅰ?/span>
作者設(shè)計(jì)了一種新穎的2D卷積網(wǎng)絡(luò)架構(gòu),并提出了四種替代內(nèi)積核心的卷積核,以注入所需的三維信息。該方法在Waymo開(kāi)放數(shù)據(jù)集上進(jìn)行了驗(yàn)證,并取得了優(yōu)秀的實(shí)驗(yàn)結(jié)果。然而,該方法在姿態(tài)估計(jì)和數(shù)據(jù)增強(qiáng)方面仍存在一些挑戰(zhàn)。
02??研究?jī)?nèi)容
深度學(xué)習(xí)在點(diǎn)云理解中的應(yīng)用越來(lái)越受到關(guān)注,本文介紹的方法是近年來(lái)的研究熱點(diǎn)之一。
作者指出了傳統(tǒng)方法在處理大范圍圖像時(shí)的低效性,并提出了一種新的點(diǎn)云表示方法,即透視點(diǎn)云(PPC),以及相應(yīng)的卷積核來(lái)提高性能。
本文回顧了點(diǎn)云理解領(lǐng)域的相關(guān)工作,包括處理稀疏點(diǎn)云的不同架構(gòu)和應(yīng)用場(chǎng)景。作者指出了現(xiàn)有方法的一些限制,并強(qiáng)調(diào)了PPC方法的創(chuàng)新性。
本文詳細(xì)介紹了PPC方法的設(shè)計(jì)和實(shí)現(xiàn)。通過(guò)設(shè)計(jì)一個(gè)2D卷積網(wǎng)絡(luò)架構(gòu),將每個(gè)像素的3D球面坐標(biāo)傳遞到網(wǎng)絡(luò)中的每一層,實(shí)現(xiàn)了對(duì)范圍圖像的高效處理。
此外,作者提出了四種替代內(nèi)積核心的卷積核,以注入所需的三維信息,并受到最近圖形操作方面的進(jìn)展啟發(fā)。

圖1:現(xiàn)有3D探測(cè)器的概述和我們提出的透視點(diǎn)云表示。a)基于三維網(wǎng)格的方法 首先將3D空間體素化,將3D密集結(jié)構(gòu)饋送到3D卷積網(wǎng)絡(luò)或2D自頂向下網(wǎng)絡(luò),并制作最終的 基于3D體素的預(yù)測(cè)。b)三維圖模型在稀疏點(diǎn)云之上構(gòu)建圖神經(jīng)網(wǎng)絡(luò),使 基于點(diǎn)數(shù)的預(yù)測(cè)。c)我們的方法,PPC,直接操作透視范圍圖像視圖,并從像素進(jìn)行預(yù)測(cè)。d) 在透視2D視圖中利用一組專(zhuān)門(mén)的2D卷積層。除了傳統(tǒng)的內(nèi)核外,我們還提出了四種改進(jìn)的內(nèi)核 內(nèi)積核(2D conv)
03??實(shí)驗(yàn)結(jié)果
通過(guò)在Waymo開(kāi)放數(shù)據(jù)集上的實(shí)驗(yàn),作者驗(yàn)證了PPC方法的有效性。
該方法在行人檢測(cè)方面取得了新的最先進(jìn)結(jié)果,并與車(chē)輛檢測(cè)方面的最先進(jìn)結(jié)果相媲美。此外,作者還對(duì)復(fù)雜度和模型大小與準(zhǔn)確性之間的關(guān)系進(jìn)行了分析,表明PPC方法在保持高效性方面具有優(yōu)勢(shì)。

圖3:在Waymo開(kāi)放數(shù)據(jù)集上,PPC + EdgeConv的行人和車(chē)輛檢測(cè)結(jié)果示例。白色 方框代表事實(shí),藍(lán)色方框代表結(jié)果。左圖:我們的方法在物體接近且大部分可見(jiàn)時(shí)表現(xiàn)良好。中心: 也可以處理嚴(yán)重閉塞的大人群。在中間下方的圖像中,許多假底片在底面上沒(méi)有點(diǎn) 盒子。右圖:它還可以檢測(cè)到點(diǎn)變得稀疏的遠(yuǎn)距離物體。注意在右上方的圖片中,行人在 右(在圖像上的紅色框中突出顯示)坐在椅子上。在右下角的例子中,有嚴(yán)重的閉塞(綠框) 前面兩輛車(chē)后面的兩輛車(chē)。
盡管PPC方法在3D物體檢測(cè)方面取得了顯著的成果,但仍存在一些挑戰(zhàn)。例如,在姿態(tài)估計(jì)和數(shù)據(jù)增強(qiáng)方面需要進(jìn)一步探索。此外,未來(lái)的研究可以進(jìn)一步優(yōu)化PPC方法的性能和效率,以適應(yīng)不同的應(yīng)用場(chǎng)景和推廣。
該方法通過(guò)利用范圍圖像和圖卷積核,提出了一種高效且強(qiáng)大的3D物體檢測(cè)方法。實(shí)驗(yàn)證明,該方法在行人和車(chē)輛檢測(cè)任務(wù)上取得了優(yōu)異的結(jié)果,甚至超過(guò)了現(xiàn)有方法。然而,該方法在姿態(tài)估計(jì)和數(shù)據(jù)增強(qiáng)方面仍面臨一些挑戰(zhàn)。未來(lái)的研究可以進(jìn)一步探索這些問(wèn)題,并進(jìn)一步優(yōu)化方法的性能和應(yīng)用范圍。
04??該篇論文的創(chuàng)新點(diǎn)
此篇論文的貢獻(xiàn)不僅在于提出了一種新穎的3D物體檢測(cè)方法,還在于解決了傳統(tǒng)方法在處理大范圍圖像時(shí)的低效性問(wèn)題。
通過(guò)直接在透視范圍圖像上進(jìn)行操作,避免了將像素投影到3D世界坐標(biāo)的繁瑣過(guò)程,并提出了四種改進(jìn)的卷積核來(lái)注入三維信息。這使得方法具備了高效性和強(qiáng)大性能,并且模型的復(fù)雜度和大小相對(duì)較小。
然而,該方法在姿態(tài)估計(jì)和數(shù)據(jù)增強(qiáng)方面仍有一些限制。
在某些場(chǎng)景下,當(dāng)傳感器與世界坐標(biāo)系有顯著的俯仰或橫滾時(shí),物體的姿態(tài)不再只是繞Z軸的偏航旋轉(zhuǎn)。這對(duì)室內(nèi)場(chǎng)景數(shù)據(jù)集而言是一個(gè)問(wèn)題,但對(duì)于自動(dòng)駕駛配置來(lái)說(shuō),通常旋轉(zhuǎn)的激光雷達(dá)與世界坐標(biāo)系保持垂直。
此外,在范圍圖像形式下,傳統(tǒng)的數(shù)據(jù)增強(qiáng)策略不再適用,因?yàn)樗鼈兛赡軙?huì)破壞稠密結(jié)構(gòu)。同時(shí),觀察到EdgeConv核網(wǎng)絡(luò)對(duì)范圍圖像中一些合理的策略,如隨機(jī)翻轉(zhuǎn)和隨機(jī)點(diǎn)丟棄,不敏感。
05??總結(jié)
未來(lái)的研究可以致力于解決這些問(wèn)題。對(duì)于姿態(tài)估計(jì),可以探索如何在不同場(chǎng)景下準(zhǔn)確估計(jì)物體的姿態(tài)信息,使方法更具魯棒性。
對(duì)于數(shù)據(jù)增強(qiáng),需要開(kāi)發(fā)適用于范圍圖像的新的增強(qiáng)策略,以增加數(shù)據(jù)的多樣性和有效性。此外,還可以探索如何進(jìn)一步優(yōu)化和推廣PPC方法,使其適用于更廣泛的應(yīng)用領(lǐng)域,如室內(nèi)場(chǎng)景理解和機(jī)器人導(dǎo)航等
標(biāo)題:
To the Point: Efficient 3D Object Detection in the Range Image With Graph Convolution Kernels
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
(公眾號(hào)后臺(tái)回復(fù)“優(yōu)惠活動(dòng)”查看BFT機(jī)器人年終鉅惠福利內(nèi)容)
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。