最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CVPR2021|基于分類深度分布網(wǎng)絡(luò)的單目3D物體檢測(cè)

2021-04-04 15:58 作者:3D視覺(jué)工坊  | 我要投稿


1.要解決的問(wèn)題

單目3D物體檢測(cè)核心問(wèn)題是如何準(zhǔn)確估計(jì)物體的深度信息。已有方法嘗試顯式地或隱式地學(xué)習(xí)深度信息。

注1:文末附【CV&深度學(xué)習(xí)】交流群

注2:整理不易,請(qǐng)點(diǎn)贊支持!

作者:晨曦 | 來(lái)源:3D視覺(jué)工坊微信公眾號(hào)

顯式地學(xué)習(xí)存在的問(wèn)題:1:深度估計(jì)的過(guò)度置信。一些方法[14,38,39,62]通過(guò)深度估計(jì)網(wǎng)絡(luò)在一個(gè)單獨(dú)階段顯式學(xué)習(xí)深度信息,但是后續(xù)的3D檢測(cè)模塊在沒(méi)有考慮深度置信度的問(wèn)題的情況下直接利用估計(jì)的深度圖,會(huì)導(dǎo)致網(wǎng)絡(luò)深度估計(jì)中的過(guò)度置信問(wèn)題。2:非End-to-End。為了防止3D檢測(cè)任務(wù)影響深度圖的估計(jì)效果,3D檢測(cè)模塊與深度估計(jì)模塊一般需要分開訓(xùn)練。

隱式地學(xué)習(xí)存在的問(wèn)題:1:特征拖尾效應(yīng)。[50,46]直接將特征從圖像空間轉(zhuǎn)換至3D空間,最后轉(zhuǎn)換至鳥瞰角度,會(huì)導(dǎo)致特征拖尾效應(yīng)(feature smearing effects,即3D投影空間中的多個(gè)位置會(huì)出現(xiàn)相似的圖像特征),進(jìn)而會(huì)增加物體定位難度。



作者想要獲取具有高質(zhì)量(即弱特征拖尾效應(yīng))的鳥瞰特征實(shí)現(xiàn)端到端的3D物體檢測(cè),那么如何獲取高質(zhì)量的鳥瞰特征?

2.提出的方法

提出了分類深度分布網(wǎng)絡(luò)(CADDN):引入深度監(jiān)督信號(hào),預(yù)測(cè)逐像素的分類深度分布,將豐富的上下文特征信息投影到3D空間中的適當(dāng)位置,實(shí)現(xiàn)端到端的3D物體檢測(cè)。該方法有以下三個(gè)貢獻(xiàn):

1)Categorical Depth Distributions

預(yù)測(cè)了像素級(jí)分類深度分布,以在3D空間中準(zhǔn)確定位圖像信息。每個(gè)預(yù)測(cè)的分布描述像素屬于一組預(yù)定義depth bins的概率。深度估計(jì)的置信度較高時(shí):鼓勵(lì)網(wǎng)絡(luò)在正確的depth bins附近的分布盡可能更sharp、更accurate。深度估計(jì)的置信度較低時(shí):鼓勵(lì)網(wǎng)絡(luò)仍保留產(chǎn)生較小sharp分布的能力。

2)End-to-End Depth Reasoning

聯(lián)合深度估計(jì)任務(wù)和3D檢測(cè)任務(wù),以端到端方式學(xué)習(xí)深度分布,共同優(yōu)化深度預(yù)測(cè)和精確的3D物體檢測(cè)。作者認(rèn)為該策略可鼓勵(lì)針對(duì)3D檢測(cè)任務(wù)優(yōu)化深度估計(jì),提高性能。

3)BEV Scene Representation

使用分類深度分布和投影幾何從單個(gè)圖像生成高質(zhì)量的鳥瞰場(chǎng)景表示。(這里之所以選擇鳥瞰圖,是因?yàn)樗哂挟a(chǎn)生出色的3D檢測(cè)性能和高計(jì)算效率的能力[27]。)

3.方法具體細(xì)節(jié)1 ---如何從圖像生成高質(zhì)量的鳥瞰特征表示 (論文3.1部分)

先看一下這部分的核心流程圖,具體流程為圖像特征-->視椎體特征網(wǎng)格-->體素特征網(wǎng)格-->鳥瞰特征網(wǎng)格。



1)圖像特征--->視椎體特征網(wǎng)格 (粉色框部分)。

數(shù)據(jù)流程圖如下:



輸入: 圖像I (尺寸是 WI×HI×3),WI 和 HI分別是圖像的寬和高;

輸出:視椎體網(wǎng)格G (尺寸是WF×HF×D×C),WF 和 HF分別是特征的寬和高,D是離散的depth bins的數(shù)量,C是特征通道數(shù);

圖像特征F(WF×HF×C)-->圖像特征F'(WF×HF×C')這一個(gè)分支是對(duì)圖像特征進(jìn)行降維,從C=256降低到C’=64。

圖像特征F(WF×HF×C) -->分類深度分布D(WF×HF×D)這一分支是對(duì)圖像特征D中每個(gè)像素預(yù)測(cè)D個(gè)概率(D個(gè)概率的和為1,即對(duì)每個(gè)像素使用softmax函數(shù)將D個(gè)logits歸一化為0到1之間的概率),其中每個(gè)概率表示深度值屬于指定depth bin(depth bin的介紹在后面)的置信度。

對(duì)圖像特征F'和分類深度分布D做外積操作生成視椎體特征網(wǎng)格G:令(u,v,c)為圖像特征F’中的坐標(biāo),而(u,v,di)為分類深度分布D中的坐標(biāo),其中(u,v)是特征像素位置,c是通道索引,di是depth bin索引。為了生成視椎體特征網(wǎng)格G,每個(gè)特征像素F’(u,v)由其關(guān)聯(lián)的D(u,v)中的depth bin概率加權(quán),以填充到深度軸di處。

分類深度分布D(WF×HF×D) 與 圖像特征F'(WF×HF×C') 外積之后得到視椎體特征矩陣G(WF×HF×D×C'),即(WF×HF)每個(gè)像素處對(duì)應(yīng)著一個(gè)D×C'的矩陣(以depth bins概率對(duì)圖像特征的概率加權(quán)得到的矩陣),如下圖所示。



2)視椎體特征網(wǎng)格--->體素特征網(wǎng)格 (橙色框部分)。

Reverse Mapping + trilinear interpolation。體素V中的一個(gè)采樣點(diǎn)[x,y,z]轉(zhuǎn)換(使用攝像機(jī)校準(zhǔn)矩陣P進(jìn)行轉(zhuǎn)換)到視椎體網(wǎng)格中的一個(gè)采樣點(diǎn)[u,v,dc],u和v都是連續(xù)值,dc是沿著視椎體深度軸方向的一個(gè)連續(xù)值,會(huì)被轉(zhuǎn)換為離散深度值di(具體離散化方法見(jiàn)下一節(jié))。進(jìn)一步的 trilinear interpolation是在[u,v,di]周圍進(jìn)行的。

操作流程:體素V采樣點(diǎn)[x,y,z] --->視椎體網(wǎng)格采樣點(diǎn)[u,v,dc] --->視椎體網(wǎng)格采樣點(diǎn)[u,v,di] --->trilinear interpolation獲取視椎體網(wǎng)格采樣點(diǎn)[u,v,di]處的數(shù)值--->將該數(shù)值復(fù)制到體素V采樣點(diǎn)[x,y,z]處。



3)體素特征網(wǎng)格---鳥瞰特征網(wǎng)絡(luò) (綠色框部分)。

體素特征V(X×Y×Z×C)折疊成鳥瞰特征B(X×Y×C)。作者將Z軸和C軸拼接起來(lái),構(gòu)成鳥瞰網(wǎng)格矩陣(X×Y×(Z * C)),然后采用1x1 convolution + BatchNorm +ReLU layer將(Z * C)通道降維至C。

4.方法具體細(xì)節(jié)2 ----深度離散化部分 (論文3.2部分)

為了定義深度分布中使用的D bins的集合,對(duì)連續(xù)的深度空間進(jìn)行離散化。這里可以使用具有固定bins大小的均勻離散(UD),間距增加的離散化(SID)[16](在對(duì)數(shù)空間中增加bin大小),或者線性增加的離散化(LID)[60],如下圖所示。本文采用LID離散化深度,因?yàn)樗梢詾樗猩疃忍峁┢胶獾纳疃裙烙?jì)[60]。



關(guān)于UD,參考文獻(xiàn)[16]提到的SID 和 [60]提到的LID的詳解。假設(shè)給定深度區(qū)間的范圍{Near, Far},將該深度范圍離散到K個(gè)子區(qū)間,i為某個(gè)part的index,

UD部分:

已知di求index:i = (di - Near) * K / (Far - Near);

已知index求di:di = Near + i * (Far - Near)/K

SID部分:

已知di求index:i = K * (log(di) - log(near)) / (log(Far) - log(Near));

已知index求di:di = exp(log(Near) + i * (log(Far/Near))/K )

LID部分:

alpha = 2(Near - Far) / (K * (K + 1));

已知di求index:i = -0.5 + 0.5 * sqrt(1 + 8 * (di - Near) / alpha);

已知index求di:di = (((i + 0.5) * 2) ** 2 - 1) * alpha / 8 + Near

PS:LID中K個(gè)parts是個(gè)等差數(shù)列,首先計(jì)算出來(lái)alpha。

5.實(shí)驗(yàn)結(jié)果

Kitti數(shù)據(jù)集上實(shí)驗(yàn)細(xì)節(jié),實(shí)際采樣空間(單位為米)為[2, 46.8]×[-30.08, 30.08]×[-3, 1],體素大小設(shè)置為[0.16, 0.16, 0.16](m)。

在Kitti的官方測(cè)試集上,CADDN在Car 和 Pedestrian這兩類上效果最好,Cyclist僅次于MonoPSR。



6.部分消融實(shí)驗(yàn)

Sharpness in Depth Distributions.

實(shí)驗(yàn)1:顯示了將圖像特征F沿深度軸di重復(fù)填充視椎特征G時(shí)的檢測(cè)性能;

實(shí)驗(yàn)2:添加深度分布預(yù)測(cè)來(lái)平衡圖像特征F;

實(shí)驗(yàn)3:添加深度分布監(jiān)督信號(hào),鼓勵(lì)sharp、accurate的分類深度分布,這個(gè)操作帶來(lái)的效果提升是最大的;

實(shí)驗(yàn)4:對(duì)前景物體像素深度設(shè)置較大的權(quán)重,會(huì)鼓勵(lì)網(wǎng)絡(luò)對(duì)前景物體像素優(yōu)先進(jìn)行深度估計(jì);

實(shí)驗(yàn)5:將UD離散化換為L(zhǎng)ID離散化;



Depth Distribution Uncertainty。

為了驗(yàn)證該實(shí)驗(yàn)的深度分布包含有意義的不確定性信息,為D中每個(gè)估計(jì)的分類深度分布計(jì)算Shanon熵。觀察到,熵通常隨深度的增加而增加,這表明該實(shí)驗(yàn)的深度分布描述了有意義的不確定性信息。



7.結(jié)論

本文介紹了CaDDN算法,可以估算每個(gè)像素的準(zhǔn)確分類深度分布。結(jié)合深度分布與圖像特征以生成保留深度置信度的鳥瞰特征,可用于3D物體檢測(cè)。

實(shí)驗(yàn)證明,以正確的深度值為中心估算尖銳的分類深度分布,以及聯(lián)合執(zhí)行深度估計(jì)和物體檢測(cè)對(duì)于3D物體檢測(cè)性能至關(guān)重要。該算法在KITTI數(shù)據(jù)集[1]官方測(cè)試集上排名第一。

備注:作者也是我們「3D視覺(jué)從入門到精通」特邀嘉賓:一個(gè)超干貨的3D視覺(jué)學(xué)習(xí)社區(qū)

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

3D視覺(jué)工坊-CV&深度學(xué)習(xí)交流群

已建立3D視覺(jué)工坊-CV&深度學(xué)習(xí)微信交流群!想要進(jìn)CV&深度學(xué)習(xí)學(xué)習(xí)交流群的同學(xué),可以直接加微信號(hào):CV_LAB。加的時(shí)候備注一下:CV&深度學(xué)習(xí)+學(xué)校+昵稱,即可。然后就可以拉你進(jìn)群了。

強(qiáng)烈推薦大家關(guān)注3D視覺(jué)工坊知乎賬號(hào)和3D視覺(jué)工坊微信公眾號(hào),可以快速了解到最新優(yōu)質(zhì)的3D視覺(jué)與SLAM論文。



CVPR2021|基于分類深度分布網(wǎng)絡(luò)的單目3D物體檢測(cè)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
蓬安县| 固镇县| 贵南县| 崇左市| 额尔古纳市| 阳东县| 江西省| 太仆寺旗| 修文县| 堆龙德庆县| 中西区| 沾益县| 乌恰县| 奉贤区| 新兴县| 宜兴市| 蒙自县| 大安市| 保德县| 襄汾县| 繁昌县| 甘谷县| 澄迈县| 苗栗县| 塔城市| 曲阜市| 宝丰县| 梅河口市| 木兰县| 临邑县| 晋州市| 夹江县| 西充县| 巴东县| 徐汇区| 绵竹市| 道真| 普格县| 双鸭山市| 巫溪县| 永登县|