手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » CVPR2021|基于雙邊擴充和自適應(yīng)融合方法的點云語義分割網(wǎng)絡(luò)

CVPR2021|基于雙邊擴充和自適應(yīng)融合方法的點云語義分割網(wǎng)絡(luò)

2021-04-20 21:13 作者:3D視覺工坊 0人讀過 | 我要投稿

Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion

1、Motivation

本期帶來的是一篇2021年CVPR接收的一篇關(guān)于點云語義分割的文章。本文的核心出發(fā)點是，認(rèn)為目前設(shè)備獲取的點云信息過剩，而現(xiàn)有方法卻不能很好的利用這些信息。

注1：文末附【三維點云】交流群

注2：整理不易，請點贊支持！

作者：PCB_Segmen | 來源：3D視覺工坊微信公眾號

2、目的

針對點云語義分割任務(wù)，識別真實點云場景中每個點的語義標(biāo)簽。

圖1 點云場景的語義分割示例

3、引言

真實的點云場景通常包含非常復(fù)雜的環(huán)境，加上3D數(shù)據(jù)所具有的原始幾何屬性，針對點云的詳細(xì)信息分析對于機器感知來說往往非常具有挑戰(zhàn)性。隨著3D獲取技術(shù)的發(fā)展，獲取到的點云信息愈加完善，但對這些信息的利用率遠(yuǎn)遠(yuǎn)不夠，因此對點云信息的分析十分重要。盡管有許多經(jīng)典的方法涉及具有簡單結(jié)構(gòu)的2D圖像的語義分割，但是點云在3D空間中具有離散性、無序且分布不均勻的特點，這使得3D點云語義分割任務(wù)更具挑戰(zhàn)性，特別是對于從現(xiàn)實世界中采集的由數(shù)百萬甚至數(shù)億個點組成的大型場景。

當(dāng)然，這其中還會包括一些其他問題。例如在鄰域構(gòu)建過程中，鄰域之間的噪點和重疊是很難避免的，往往會產(chǎn)生歧義；冗余特征的處理，導(dǎo)致網(wǎng)絡(luò)框架的前處理和后處理非常耗時；再比如不充分的全局表達(dá)，會導(dǎo)致采樣階段破壞全局的信息表達(dá)等等問題。

4、本文的主要貢獻

針對這些問題，作者提出了一種雙邊擴充結(jié)構(gòu)來有效處理多分辨率點云，并利用自適應(yīng)融合方法更全面有效地表示點對特征。主要貢獻如下：

1）引入了一個雙邊區(qū)塊來擴大點與鄰域點的聯(lián)系（local context）。

2）自適應(yīng)地融合多分辨率特征，以獲取更加全面的點云信息。

3）提出一種全新的語義分割網(wǎng)絡(luò)用來處理真實點云場景。

4）通過在真實點云場景數(shù)據(jù)集上的評估，證明本文方法與SOTA方法相比具有優(yōu)勢

5、相關(guān)工作

在相關(guān)工作部分中，作者從三個方面對現(xiàn)有的文章進行缺點的描述（1.基于點的方法；2.點云特征的描述；3.語義分割的網(wǎng)絡(luò)）。總結(jié)完總之就一句話，作者認(rèn)為現(xiàn)有方法尚未充分利用點云的信息或者處理效率很低，獲取數(shù)據(jù)詳細(xì)信息的能力有限。

6、方法

首先，需要明確點數(shù)為N的點云可以從兩個方面進行表述：

（1）三維坐標(biāo)點P本身表示；

（2）用一種d維的特征空間F表示。

而作者的思路就是以某種方式利用P和F組合，從而完成訓(xùn)練學(xué)習(xí)全面的特征圖以進行準(zhǔn)確的語義分割。

6.1、雙邊上下文模型

雙向上下文模型由多個雙向上下文塊（Blocks）組成，以完成不同分辨率下的點云信息收集，如圖2所示。在雙向上下文模塊中，作者通過包含偏移量來擴展每個點的局部上下文：實現(xiàn)從雙邊輸入信息（pi和fi）中相互學(xué)習(xí)，然后合并兩種特征信息用于點特征表示，從而實現(xiàn)增強局部上下文。為此，作者特別提出了兩個新的unit和一個loss function。

圖2 所提方法的網(wǎng)絡(luò)框架

6.2、自適應(yīng)融合模型

為了有效地分析由大量點組成的真實3D場景，作者通過逐步降低分辨率來分析點云信息。但是通過這種方法會使得相應(yīng)的輸出特征卻變得抽象不好理解。為了解決這個問題，作者選擇通過自適應(yīng)地融合多分辨率特征圖中的細(xì)節(jié)信息，從而表示原始點云的特征圖并更加全面的解釋每個點的編碼信息。（PS:注意，這里需要說明的是，就每個點而言，基于多種分辨率的上采樣特征表示可能會導(dǎo)致信息尺度不同）

圖2自適應(yīng)融合模塊的體系結(jié)構(gòu)

需要說明的是，這里我覺得有兩點很重要，一是作者在“雙邊上下文模塊”探索了點云數(shù)據(jù)的不同分辨率，其使用基于CUDA的最遠(yuǎn)點采樣（FPS）來對數(shù)據(jù)進行采樣，即逐漸處理點云的低分辨率：

二是與此同時，網(wǎng)絡(luò)輸出的尺寸增加為：

7 、實驗部分

通過在三個公開數(shù)據(jù)集（S3DIS，Semantic3D，SemanticKITTI）上的實驗表明所提方法效果還是可以的。表1是在S3DIS數(shù)據(jù)的 mAcc，OA和mIoU三個指標(biāo)的對比結(jié)果。（更多數(shù)據(jù)對比請參見原文）

表1

在圖3中作者展示了融合多分辨率特征圖的模塊效果。

圖3 基于S3DIS數(shù)據(jù)集中的辦公室場景的自適應(yīng)融合模塊效果

同時，針對作者提到的之前的方法有可能在處理特征時過于復(fù)雜，有可能重復(fù)處理信息，作者也通過進一步數(shù)據(jù)分析給予了所提方法更有效的證明。

表2 SemanticKITTI數(shù)據(jù)上不同語義分割網(wǎng)絡(luò)的復(fù)雜性分析

圖4 方法預(yù)測結(jié)果的展示

7、總結(jié)

本文著重于對真實點云場景的基礎(chǔ)分析和語義分割。具體來說，作者提出了一個結(jié)合雙向擴展局部上下文和自適應(yīng)融合多分辨率特征的網(wǎng)絡(luò)。并在三個基準(zhǔn)數(shù)據(jù)（包括S3DIS，Semantic3D和SemanticKITTI）上均取得了出色的性能。同時也提出希望優(yōu)化實時應(yīng)用程序的效率，利用不同框架中的關(guān)鍵思想，為更多3D任務(wù)（例如對象檢測，實例分割等）推廣網(wǎng)絡(luò)構(gòu)架。

備注：作者也是我們「3D視覺從入門到精通」特邀嘉賓：一個超干貨的3D視覺學(xué)習(xí)社區(qū)

3D視覺工坊-三維點云交流群

已建立3D視覺工坊-三維點云微信交流群！想要進三維點云學(xué)習(xí)交流群的同學(xué)，可以直接加微信號：CV_LAB。加的時候備注一下：三維點云+學(xué)校+昵稱，即可。然后就可以拉你進群了。

強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號，可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。

標(biāo)簽：