最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

nuScenes&SemanticKITTI分割第一!最新多模態(tài)LIDAR分割網(wǎng)絡(luò)

2023-09-26 22:00 作者:3D視覺工坊  | 我要投稿

作者:泡椒味的口香糖??| 來源:3D視覺工坊

在公眾號(hào)「3DCV」后臺(tái),回復(fù)「原論文」即可獲取論文pdf和代碼鏈接。

添加微信:dddvisiona,備注:3D點(diǎn)云,拉你入群。文末附行業(yè)細(xì)分群。


LiDAR點(diǎn)云分割一直是一個(gè)很經(jīng)典的問題,學(xué)術(shù)界和工業(yè)界都提出了各種各樣的模型來提高精度、速度和魯棒性。但因?yàn)槭彝獾膹?fù)雜環(huán)境,所以室外點(diǎn)云的語義分割和全景分割的性能都還不是太好。

今天,筆者將帶領(lǐng)讀者閱讀上海AI Lab的新作UniSeg,使用RGB圖像來增強(qiáng)點(diǎn)云分割,并且將點(diǎn)云轉(zhuǎn)換為體素、Range圖像等多模態(tài)數(shù)據(jù)來做進(jìn)一步增強(qiáng),效果非常好。另一方面,作者聲稱他們開源了目前最大、最全面的室外LiDAR分割算法庫,可以直接調(diào)用14種SOTA分割算法!這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程》。

首先來看看UniSeg與其他SOTA LiDAR分割算法在Semantic KITTI和nuScenes上的分割精度對(duì)比(感覺他們現(xiàn)在很喜歡以時(shí)間軸為單位畫圖?)??梢园l(fā)現(xiàn)UniSeg性能遠(yuǎn)超之前的2DPASS、RPVNet、Panoptic-PHNet、Lidar MultiNet等算法。


再看看分割的定性對(duì)比,紅色表示分割錯(cuò)誤。可以發(fā)現(xiàn)UniSeg性能還是很不錯(cuò)的。

當(dāng)然,這篇文章最重要的不是提出了一個(gè)很好的LiDAR分割算法,而是開源了一個(gè)可以隨時(shí)調(diào)用的LiDAR算法庫。相比著名的mmdetection3d庫,作者開源的OpenPCSeg庫擁有14個(gè)開源LiDAR算法。作者花費(fèi)了一年時(shí)間來復(fù)現(xiàn)、調(diào)參、優(yōu)化、后處理,生成OpenPCSeg里的開源算法的性能均超越原始論文中的指標(biāo)!

點(diǎn)視圖( point-view )、體素視圖( voxel-view )和范圍視圖( range-view )是點(diǎn)云的三種代表性形式。它們都具有精確的三維測量,但缺乏顏色和紋理信息。RGB圖像是這些點(diǎn)云視圖的自然補(bǔ)充,充分利用它們的綜合信息有利于獲得更魯棒的感知。本文提出了一種統(tǒng)一的多模態(tài)LiDAR分割網(wǎng)絡(luò)Uni Seg,利用RGB圖像和點(diǎn)云的三視圖信息,同時(shí)完成語義分割和全景分割。具體來說,我們首先設(shè)計(jì)了可學(xué)習(xí)的跨模態(tài)關(guān)聯(lián)( LMA )模塊,將體素視圖和范圍視圖特征與圖像特征自動(dòng)融合,充分利用了圖像豐富的語義信息,并且對(duì)標(biāo)定誤差具有魯棒性。然后,將增強(qiáng)后的體素視圖和范圍視圖特征轉(zhuǎn)換到點(diǎn)空間,并通過可學(xué)習(xí)的交叉視圖關(guān)聯(lián)模塊( LVA )對(duì)點(diǎn)云特征的3個(gè)視圖進(jìn)行自適應(yīng)融合。值得注意的是,Uni Seg在Semantic KITTI、nu Scenes和Waymo Open Dataset ( WOD )三個(gè)公開基準(zhǔn)測試中取得了良好的效果;它在兩個(gè)基準(zhǔn)測試中排名第一,包括nuScenes的LiDAR語義分割挑戰(zhàn)和SemanticKITTI的全景分割挑戰(zhàn)。此外,我們構(gòu)建了Open PCSeg碼庫,這是目前規(guī)模最大、最全面的室外LiDAR分割碼庫。它包含了大多數(shù)流行的室外LiDAR分割算法,并提供了可重復(fù)的實(shí)現(xiàn)。

分割任務(wù)為啥要使用多模態(tài)信息呢?

主要原因是可以集合不同模態(tài)的優(yōu)點(diǎn)。RGB圖像提供了豐富的顏色、紋理和語義信息,而點(diǎn)云則包含了各種物體的精確三維位置。舉例,下圖中紅色矩形的行人在圖像中很難發(fā)現(xiàn),但在點(diǎn)云中卻是可見的。因此,多模態(tài)和多視角的結(jié)合有利于獲得更魯棒和全面的感知。

因此,UniSeg希望利用RGB圖像和點(diǎn)云,輸出點(diǎn)云語義分割和全景分割結(jié)果。

整個(gè)Pipeline框架非常通俗易懂,基本原理是,首先利用球投影和最大池化獲得Range圖像和體素網(wǎng)格。UniSeg的輸入是點(diǎn)云的三個(gè)不同表征(體素、Range圖像、點(diǎn)云)以及RGB圖像,然后四個(gè)輸入分別進(jìn)行編碼,得到四個(gè)特征。其中,體素特征和Range圖像特征分別和RGB特征進(jìn)行融合(VI和RI)。之后,將Range圖像特征和體素特征投影到點(diǎn)云空間,三個(gè)表征就可以通過RPV模塊進(jìn)行融合,之后再反變換回原有的體素空間和Range空間。這樣,相當(dāng)于使用LMA模塊進(jìn)行了多模態(tài)融合,使用LVA模塊進(jìn)行了交叉視角數(shù)據(jù)關(guān)聯(lián)。最后再使用兩個(gè)head就可以輸出語義分割和全景分割結(jié)果。

那么具體如何進(jìn)行跨模態(tài)特征融合呢?

首先是VI(Voxel-Image)融合模塊,也就是體素和圖像進(jìn)行融合。首先獲取體素中心對(duì)應(yīng)的圖像特征,然后利用學(xué)習(xí)到的偏移來采樣圖像特征。將體素特征處理為Query,采樣后的圖像特征表示為Key和Value。將體素和采樣的圖像特征送入多頭交叉注意力模塊,得到圖像增強(qiáng)的體素特征。將這些特征與原始特征進(jìn)行拼接,就可以得到最終的融合特征。

另一個(gè)RI(Range-Image)融合模塊和VI模塊的原理就完全一樣,不再贅述了。

這樣就獲得了使用圖像增強(qiáng)的體素和Range圖像特征,接下來如何再次增強(qiáng)特征呢?

這就是LVA(Learnable cross-View Association)模塊,用于將體素、Range圖像和點(diǎn)云進(jìn)行融合。首先將體素和Range圖像特征投影到點(diǎn)云空間,通過Tv2p和Tr2p變換使用插值來解決數(shù)量不匹配問題。之后,給定體素、點(diǎn)和Range視角特征,LVA提取其全局表示和視角自適應(yīng)特征。通過殘差連接,獲得跨視圖融合特征,并通過Tp2v和Tp2r變換投影回原始體素和范圍圖像空間。

最后,通過LMA和LVA得到的融合特征直接通過分類器得到語義分割預(yù)測。將語義預(yù)測傳遞給全景頭,估計(jì)不同物體的實(shí)例中心位置和偏移量,從而產(chǎn)生全景分割結(jié)果。

最后的損失函數(shù)也沒有設(shè)置很多trick,估計(jì)是想證明性能提升來源于LMA和LVA兩個(gè)模塊設(shè)計(jì),而不是其他什么東西。整個(gè)損失函數(shù)包含交叉熵?fù)p失、Lovasz-softmax損失、通過MSE損失的熱力圖回歸、通過L1損失的偏移圖回歸四部分組成。

實(shí)驗(yàn)這一塊,使用了nuScenes,SemanticKITTI,和WOD(Waymo Open Dataset)三個(gè)數(shù)據(jù)集,作者報(bào)告他們?cè)?strong>nuScenes語義分割和SemanticKITTI全景分割任務(wù)達(dá)到了第一。評(píng)價(jià)指標(biāo)方面,語義分割就使用了常規(guī)的IoU和mIoU,全景分割使用了PQ(全景質(zhì)量)。

GPU用的A100,訓(xùn)練了36輪,初始學(xué)習(xí)率0.12(不大嗎?),使用1個(gè)epoch來warm up,用余弦退火來調(diào)整學(xué)習(xí)率,SemanticKITTI和WOD數(shù)據(jù)集體素大小為0.05,nuScenes體素大小0.1,點(diǎn)云分支還使用了隨機(jī)翻轉(zhuǎn)、縮放、平移這些trick(煉丹真是個(gè)技術(shù)活和體力活)。

下面幾個(gè)定量比較依次是在SemanticKITTI上的語義分割對(duì)比、nuScenes上的語義分割對(duì)比、SemanticKITTI上的全景分割對(duì)比、nuScenes上的全景分割對(duì)比、WOD上的語義分割對(duì)比結(jié)果。在SemanticKITTI上,UniSeg比2DPASS高了2.3 mIoU,比Panoptic-PHNet搞了2.6 PQ。在nuScenes上,UniSeg比第二名LidaMultiNet搞了2.1 mIoU,全景分割達(dá)到了78.4 PQ,也非常優(yōu)秀。

下面是一個(gè)效率和準(zhǔn)確性的對(duì)比,UniSeg用了4個(gè)單獨(dú)的編碼器,還有3個(gè)特征融合模塊,2個(gè)輸出頭,所以參數(shù)量必然很大。但有意思的是,作者對(duì)每層通道剪枝80%后再進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)可以以相同的參數(shù)量達(dá)到和其他模型更高的精度!

下面來思考一個(gè)問題,相機(jī)到雷達(dá)的外參很難標(biāo)定準(zhǔn)確,因此必然有標(biāo)定誤差。作者做了很多種嘗試,比如直接添加或者聚合圖像-點(diǎn)特征、使用PointPainting、使用PointAugmenting以及使用LMA,發(fā)現(xiàn)LMA模塊可以緩解標(biāo)定誤差。

然后探索了如何利用不同模態(tài)數(shù)據(jù)的優(yōu)勢。作者對(duì)比的baseline是將所有模態(tài)數(shù)據(jù)轉(zhuǎn)移到點(diǎn)視角,然后直接將它們相加或拼接,性能分別為70.4 mIoU和70.5 mIoU。其次嘗試自注意力進(jìn)行特征融合,但無法實(shí)現(xiàn)改進(jìn)。最后發(fā)現(xiàn)LVA模塊可以根據(jù)學(xué)習(xí)到的注意力權(quán)重自適應(yīng)地融合不同模態(tài)的數(shù)據(jù)。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程》。

最后是一個(gè)消融實(shí)驗(yàn),驗(yàn)證每個(gè)模態(tài)對(duì)最終性能的影響。此外,UniSeg在不同距離上也優(yōu)于單模態(tài)baseline。顯然由于強(qiáng)稀疏性,baseline在遠(yuǎn)距離處會(huì)發(fā)生退化。

今天筆者帶領(lǐng)大家閱讀了UniSeg的分割原理,還介紹了一個(gè)開源的室外LiDAR分割算法庫OpenPCSeg。整體來看,UniSeg的設(shè)計(jì)思路并沒有那么驚艷,主要是設(shè)計(jì)了多模態(tài)和多視角融合模塊來做點(diǎn)云分割的增強(qiáng),但是實(shí)驗(yàn)效果很好。而且開源分割庫也能幫助讀者更好得調(diào)用現(xiàn)成算法。

nuScenes&SemanticKITTI分割第一!最新多模態(tài)LIDAR分割網(wǎng)絡(luò)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
福贡县| 新晃| 沙坪坝区| 钟祥市| 咸丰县| 安乡县| 甘德县| 扶绥县| 阿尔山市| 峡江县| 于都县| 乳源| 彭州市| 天祝| 屏南县| 琼结县| 二连浩特市| 卫辉市| 奉新县| 同心县| 文成县| 大庆市| 万山特区| 什邡市| 阿图什市| 嘉善县| 柳州市| 蛟河市| 临泉县| 沧源| 新蔡县| 霞浦县| 霍州市| 铁岭县| 玉山县| 钟祥市| 敦煌市| 漳平市| 会同县| 工布江达县| 临城县|