最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

論文解讀|VoxelNet:基于點云的3D物體檢測的端到端學(xué)習(xí)

2023-07-18 11:07 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

圖片


01


摘要


論文提出了表述了一個新的基于點云的3D檢測方法,名為VoxelNet,該方法是一個端到端可訓(xùn)練的深度學(xué)習(xí)架構(gòu),利用了稀疏點云的結(jié)構(gòu)特性,直接在稀疏的3D點上進(jìn)行操作,并通過高效的并行處理體素網(wǎng)格來獲得性能的提升。


此方法在KITTI基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實驗,并展示了VoxelNet在基于激光雷達(dá)的汽車、行人和騎自行車者檢測任務(wù)中取得了最先進(jìn)的結(jié)果。實驗表明,VoxelNet在很大程度上優(yōu)于最先進(jìn)的基于LiDAR的3D檢測方法。

圖片


02


VoxelNet框架


如圖二所示,這是一個通用的3D檢測框架,可以同時從點云中學(xué)習(xí)判別特征表示,并以端到端方式預(yù)測準(zhǔn)確的3D邊界框。


圖片
圖二所示,它主要包含三個模塊;


1.特征學(xué)習(xí)網(wǎng)絡(luò)Feature Learning Network


1.1提素分區(qū)Voxel Partition


如圖2 所?。假設(shè)點云包含沿 Z、Y、X 軸分別具有范圍D、 H 、 W的 3D 空間。我們相應(yīng)地定義了??為vD、 vH和vW的每個體素。?成的 3D 體素?格的??為D′ = D/vD、 H′ = H/vH、 W′ = W/vW 。這?,為了簡單起?,我們假設(shè)D、 H、 W是vD、 vH、 vW的倍數(shù)。


1.2分組 Grouping


點云是稀疏的,并且在整個空間中具有高度可變的點密度。因此,在分組之后,一個體素將包含可變數(shù)量的點。如圖2所示,其中voxel -1比Voxel-2和Voxel-4有更多的點,而Voxel-3沒有點。


1.3隨機(jī)抽樣 Random Sampling


為了節(jié)省計算量,減少了體素之間點的不平衡,減少了采樣偏差,為訓(xùn)練增加了更多的變化,從包含超過T個點的體素中隨機(jī)抽取固定數(shù)量的T個點。


1.4堆疊體素特征編碼 Stacked Voxel Feature Encoding


圖三為VFE Layer-1的體系結(jié)構(gòu)


圖片


1.5稀疏張量表示 Sparse Tensor Representation


通過處理非空體素,獲得了一個體素特征列表,每個體素特征都與特定非空體素的空間坐標(biāo)唯一相關(guān)。得到的體素特征列表可以表示為一個稀疏的4D張量,大小為C×D '×H '×W '。將非空體素特征表示為稀疏張量,大大降低了反向傳播過程中的內(nèi)存使用和計算成本,是高效實現(xiàn)的關(guān)鍵步驟。


2.卷積中間層Convolutional middle layers


使用ConvMD(cin, cout, k, s, p)來表示一個m維卷積算子,其中cin和cout是輸入和輸出通道的數(shù)量,k, s和p是分別對應(yīng)內(nèi)核大小,步幅大小和填充大小的m維向量。


3. 區(qū)域提議網(wǎng)絡(luò)Region proposal network


RPN作為高性能目標(biāo)檢測框架的重要組成部分。在這項工作中,作者對RPN架構(gòu)進(jìn)行了關(guān)鍵修改,并將其與特征學(xué)習(xí)網(wǎng)絡(luò)和卷積中間層相結(jié)合,形成了一個端到端可訓(xùn)練的管道。


RPN的輸入是由卷積中間層提供的特征映射。網(wǎng)絡(luò)的體系結(jié)構(gòu)包括三個完全卷積層塊。每個塊的第一層通過步長為2的卷積對特征圖進(jìn)行下采樣,接著是一系列步長為1的卷積操作。在每個卷積層后,應(yīng)用批量歸一化(BN)和ReLU操作。然后,將每個塊的輸出上采樣到固定大小,并拼接以構(gòu)建高分辨率特征圖。最后,將該特征映射映射到學(xué)習(xí)目標(biāo),包括概率分?jǐn)?shù)映射和回歸映射。


圖片


03


損失函數(shù)Loss Function


分為兩個部分,一個是分類,一個是回歸。分類用的是binary cross entropy, 回歸用的是smooth-L1 loss。


圖片
圖片


04


數(shù)據(jù)增強(qiáng)


在點云目標(biāo)檢測中,如果從頭開始訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)少于4000個點云,則會面臨過擬合的問題。為了減少這個問題,作者引入了三種不同形式的數(shù)據(jù)增強(qiáng),這些增強(qiáng)是即時生成的,無需存儲在磁盤上。


第一種形式的數(shù)據(jù)增強(qiáng)是對每個真實邊界框和邊界框內(nèi)的點云應(yīng)用攝動。攝動包括圍繞z軸的旋轉(zhuǎn)和XYZ方向的平移。為了避免不可能的結(jié)果,進(jìn)行了碰撞測試來確保邊界框之間沒有碰撞。第二種增強(qiáng)是對所有真實邊界框和整個點云應(yīng)用全局縮放,以提高網(wǎng)絡(luò)對不同大小和距離物體的檢測魯棒性。最后,對所有真實邊界框和整個點云進(jìn)行全局旋轉(zhuǎn),模擬車輛轉(zhuǎn)彎。


這種方式方法使網(wǎng)絡(luò)能夠從更多的數(shù)據(jù)變化中學(xué)習(xí),提高點云目標(biāo)檢測的性能和魯棒性。


05


實驗結(jié)果


圖片


06


結(jié)論


VoxelNet在KITTI汽車檢測任務(wù)上的表現(xiàn)明顯優(yōu)于現(xiàn)有基于激光雷達(dá)的3D檢測方法。在更具挑戰(zhàn)性的行人和騎自行車者的3D檢測任務(wù)中,VoxelNet也展示出令人鼓舞的結(jié)果,證明其提供了更好的三維表示能力。


作者未來的工作包括擴(kuò)展VoxelNet,用于聯(lián)合激光雷達(dá)和基于圖像的端到端3D檢測,以進(jìn)一步提高檢測和定位精度。


論文標(biāo)題:

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

網(wǎng)址:

?https://arxiv.org/pdf/1711.06396.pdf%20em%2017/12/2017.pdf

代碼參考:

https://github.com/ModelBunker/VoxelNet-PyTorch


更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。

論文解讀|VoxelNet:基于點云的3D物體檢測的端到端學(xué)習(xí)的評論 (共 條)

分享到微博請遵守國家法律
灵丘县| 阳曲县| 霍邱县| 沛县| 永寿县| 大冶市| 略阳县| 鱼台县| 光山县| 昆山市| 苍溪县| 新野县| 阿拉善左旗| 安平县| 沂水县| 尚志市| 秦皇岛市| 天镇县| 津南区| 南漳县| 晋江市| 瑞安市| 清水县| 漳州市| 杭锦旗| 凤阳县| 东港市| 郯城县| 景德镇市| 吕梁市| 耒阳市| 社会| 新竹县| 汨罗市| 托里县| 抚远县| 通州市| 浦县| 阿图什市| 乐安县| 丹江口市|