CVPR2021|基于雙邊擴充和自適應(yīng)融合方法的點云語義分割網(wǎng)絡(luò)
Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion
1、Motivation
本期帶來的是一篇2021年CVPR接收的一篇關(guān)于點云語義分割的文章。本文的核心出發(fā)點是,認(rèn)為目前設(shè)備獲取的點云信息過剩,而現(xiàn)有方法卻不能很好的利用這些信息。
注1:文末附【三維點云】交流群
注2:整理不易,請點贊支持!
作者:PCB_Segmen | 來源:3D視覺工坊微信公眾號
2、目的
針對點云語義分割任務(wù),識別真實點云場景中每個點的語義標(biāo)簽。

圖1 點云場景的語義分割示例
3、引言
真實的點云場景通常包含非常復(fù)雜的環(huán)境,加上3D數(shù)據(jù)所具有的原始幾何屬性,針對點云的詳細(xì)信息分析對于機器感知來說往往非常具有挑戰(zhàn)性。隨著3D獲取技術(shù)的發(fā)展,獲取到的點云信息愈加完善,但對這些信息的利用率遠(yuǎn)遠(yuǎn)不夠,因此對點云信息的分析十分重要。盡管有許多經(jīng)典的方法涉及具有簡單結(jié)構(gòu)的2D圖像的語義分割,但是點云在3D空間中具有離散性、無序且分布不均勻的特點,這使得3D點云語義分割任務(wù)更具挑戰(zhàn)性,特別是對于從現(xiàn)實世界中采集的由數(shù)百萬甚至數(shù)億個點組成的大型場景。
當(dāng)然,這其中還會包括一些其他問題。例如在鄰域構(gòu)建過程中,鄰域之間的噪點和重疊是很難避免的,往往會產(chǎn)生歧義;冗余特征的處理,導(dǎo)致網(wǎng)絡(luò)框架的前處理和后處理非常耗時;再比如不充分的全局表達(dá),會導(dǎo)致采樣階段破壞全局的信息表達(dá)等等問題。
4、本文的主要貢獻
針對這些問題,作者提出了一種雙邊擴充結(jié)構(gòu)來有效處理多分辨率點云,并利用自適應(yīng)融合方法更全面有效地表示點對特征。主要貢獻如下:
1)引入了一個雙邊區(qū)塊來擴大點與鄰域點的聯(lián)系(local context)。
2)自適應(yīng)地融合多分辨率特征,以獲取更加全面的點云信息。
3)提出一種全新的語義分割網(wǎng)絡(luò)用來處理真實點云場景。
4)通過在真實點云場景數(shù)據(jù)集上的評估,證明本文方法與SOTA方法相比具有優(yōu)勢
5、相關(guān)工作
在相關(guān)工作部分中,作者從三個方面對現(xiàn)有的文章進行缺點的描述(1.基于點的方法;2.點云特征的描述;3.語義分割的網(wǎng)絡(luò))。總結(jié)完總之就一句話,作者認(rèn)為現(xiàn)有方法尚未充分利用點云的信息或者處理效率很低,獲取數(shù)據(jù)詳細(xì)信息的能力有限。
6、方法
首先,需要明確點數(shù)為N的點云可以從兩個方面進行表述:
(1)三維坐標(biāo)點P本身表示;
(2)用一種d維的特征空間F表示。
而作者的思路就是以某種方式利用P和F組合,從而完成訓(xùn)練學(xué)習(xí)全面的特征圖以進行準(zhǔn)確的語義分割。
6.1、雙邊上下文模型
雙向上下文模型由多個雙向上下文塊(Blocks)組成,以完成不同分辨率下的點云信息收集,如圖2所示。在雙向上下文模塊中,作者通過包含偏移量來擴展每個點的局部上下文:實現(xiàn)從雙邊輸入信息(pi和fi)中相互學(xué)習(xí),然后合并兩種特征信息用于點特征表示,從而實現(xiàn)增強局部上下文。為此,作者特別提出了兩個新的unit和一個loss function。

圖2 所提方法的網(wǎng)絡(luò)框架
6.2、自適應(yīng)融合模型
為了有效地分析由大量點組成的真實3D場景,作者通過逐步降低分辨率來分析點云信息。但是通過這種方法會使得相應(yīng)的輸出特征卻變得抽象不好理解。為了解決這個問題,作者選擇通過自適應(yīng)地融合多分辨率特征圖中的細(xì)節(jié)信息,從而表示原始點云的特征圖并更加全面的解釋每個點的編碼信息。(PS:注意,這里需要說明的是,就每個點而言,基于多種分辨率的上采樣特征表示可能會導(dǎo)致信息尺度不同)

圖2自適應(yīng)融合模塊的體系結(jié)構(gòu)
需要說明的是,這里我覺得有兩點很重要,一是作者在“雙邊上下文模塊”探索了點云數(shù)據(jù)的不同分辨率,其使用基于CUDA的最遠(yuǎn)點采樣(FPS)來對數(shù)據(jù)進行采樣,即逐漸處理點云的低分辨率:

二是與此同時,網(wǎng)絡(luò)輸出的尺寸增加為:

7 、實驗部分
通過在三個公開數(shù)據(jù)集(S3DIS,Semantic3D,SemanticKITTI)上的實驗表明所提方法效果還是可以的。表1是在S3DIS數(shù)據(jù)的 mAcc,OA和mIoU三個指標(biāo)的對比結(jié)果。(更多數(shù)據(jù)對比請參見原文)
表1

在圖3中作者展示了融合多分辨率特征圖的模塊效果。

圖3 基于S3DIS數(shù)據(jù)集中的辦公室場景的自適應(yīng)融合模塊效果
同時,針對作者提到的之前的方法有可能在處理特征時過于復(fù)雜,有可能重復(fù)處理信息,作者也通過進一步數(shù)據(jù)分析給予了所提方法更有效的證明。
表2 SemanticKITTI數(shù)據(jù)上不同語義分割網(wǎng)絡(luò)的復(fù)雜性分析



圖4 方法預(yù)測結(jié)果的展示
7、總結(jié)
本文著重于對真實點云場景的基礎(chǔ)分析和語義分割。具體來說,作者提出了一個結(jié)合雙向擴展局部上下文和自適應(yīng)融合多分辨率特征的網(wǎng)絡(luò)。并在三個基準(zhǔn)數(shù)據(jù)(包括S3DIS,Semantic3D和SemanticKITTI)上均取得了出色的性能。同時也提出希望優(yōu)化實時應(yīng)用程序的效率,利用不同框架中的關(guān)鍵思想,為更多3D任務(wù)(例如對象檢測,實例分割等)推廣網(wǎng)絡(luò)構(gòu)架。
備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超干貨的3D視覺學(xué)習(xí)社區(qū)
3D視覺工坊-三維點云交流群
已建立3D視覺工坊-三維點云微信交流群!想要進三維點云學(xué)習(xí)交流群的同學(xué),可以直接加微信號:CV_LAB。加的時候備注一下:三維點云+學(xué)校+昵稱,即可。然后就可以拉你進群了。
強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。