最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CVPR2023 I PointVector: 用矢量表示徹底改變點(diǎn)云分析

2023-10-20 20:26 作者:3D視覺(jué)工坊  | 我要投稿


作者:PCIPG-LC ?| 來(lái)源:計(jì)算機(jī)視覺(jué)工坊

在公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf和代碼鏈接。

添加微信:dddvisiona,備注:3D點(diǎn)云,拉你入群。文末附行業(yè)細(xì)分群。


在點(diǎn)云分析方面,基于點(diǎn)的方法近年來(lái)迅速發(fā)展。這些方法最近集中在簡(jiǎn)潔的 MLP 結(jié)構(gòu)上,例如 PointNeXt,它已經(jīng)證明了與卷積和 Transformer 結(jié)構(gòu)的競(jìng)爭(zhēng)力。然而,標(biāo)準(zhǔn) MLP 有效提取局部特征的能力有限。為了解決這個(gè)限制,我們提出了一種面向向量的點(diǎn)集抽象,它可以通過(guò)高維向量聚合相鄰特征。為了促進(jìn)網(wǎng)絡(luò)優(yōu)化,我們使用基于 3D 矢量旋轉(zhuǎn)的獨(dú)立角度構(gòu)建從標(biāo)量到矢量的轉(zhuǎn)換。最后,我們開(kāi)發(fā)了一個(gè)遵循 PointNeXt 結(jié)構(gòu)的 PointVector 模型。我們的實(shí)驗(yàn)結(jié)果表明,PointVector 在 S3DIS Area 5 上實(shí)現(xiàn)了最先進(jìn)的性能 72.3% mIOU,在 S3DIS(6 倍交叉驗(yàn)證)上實(shí)現(xiàn)了 78.4% mIOU,而模型參數(shù)僅為 PointNeXt 的 58%。我們希望我們的工作將有助于探索簡(jiǎn)潔有效的特征表示。該代碼即將發(fā)布。

點(diǎn)云分析是各種下游任務(wù)的基石。隨著PointNet和PointNet++的引入,非結(jié)構(gòu)化點(diǎn)云的直接處理已經(jīng)成為一個(gè)熱門話題。許多基于點(diǎn)的網(wǎng)絡(luò)引入了新穎而復(fù)雜的模塊來(lái)提取局部特征,例如,基于注意力的方法探索如圖1(a)所示的注意力機(jī)制消耗較低,基于卷積的方法探索如圖1(c)所示的動(dòng)態(tài)卷積核,基于圖的方法使用圖來(lái)建模點(diǎn)的關(guān)系。這些方法應(yīng)用到PointNet++的特征提取模塊中,帶來(lái)了特征質(zhì)量的提升。然而,它們?cè)诰W(wǎng)絡(luò)結(jié)構(gòu)方面設(shè)計(jì)起來(lái)有些復(fù)雜。PointNeXt 采用了 PointNet++ 的 SetAbstraction (SA) 模塊,并提出了 Inverted Residual MLP (InvResMLP) 模塊。MLP網(wǎng)絡(luò)的簡(jiǎn)單設(shè)計(jì)取得了良好的效果。受這項(xiàng)工作的激勵(lì),我們嘗試進(jìn)一步探索 MLP 結(jié)構(gòu)的潛力。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程》。

圖1 不同方法的核心操作的插圖。(a)通過(guò)應(yīng)用像線性層一樣的固定/各向同性核(黑色箭頭)來(lái)單獨(dú)計(jì)算每個(gè)點(diǎn)的特征。然后,它通過(guò)輸入生成的權(quán)重賦予各向異性。(b) 位移向量用于過(guò)濾近似核模式的點(diǎn)以進(jìn)行特征聚合。(c) 它對(duì)每個(gè)點(diǎn)特征應(yīng)用具有各向異性的獨(dú)特動(dòng)態(tài)內(nèi)核。(d)不同的是,我們根據(jù)特征生成向量表示,并且由于向量的方向,向量的聚合方法是各向異性的。PointNeXt使用的都是標(biāo)準(zhǔn)MLP,特征提取能力不足。除了注意力和動(dòng)態(tài)卷積機(jī)制之外,如圖 1(b) 所示的基于模板的方法(例如 3D-GCN)還采用相對(duì)位移向量來(lái)調(diào)制輸入點(diǎn)和卷積核之間的關(guān)聯(lián)。我們引入特征的向量表示來(lái)擴(kuò)展特征變化的范圍,目的是更有效地調(diào)節(jié)局部特征之間的連接。我們的方法如圖 1(d) 所示,與基于模板的方法不同。我們沒(méi)有使用位移向量作為內(nèi)核的屬性,而是為每個(gè)相鄰點(diǎn)生成向量表示并將它們聚合。我們的方法引入了更少的歸納偏差,從而提高了泛化能力。此外,我們通過(guò)利用 3D 空間中具有兩個(gè)獨(dú)立角度的矢量旋轉(zhuǎn)矩陣來(lái)增強(qiáng) 3D 矢量表示的生成。這種方法有利于網(wǎng)絡(luò)找到更好的解決方案。受PointNeXt 和PointNet++ 的影響,我們提出了VPSA模塊。該模塊遵循PointNet系列的點(diǎn)集抽象(SA)模塊的結(jié)構(gòu)。向量表示是從輸入特征獲得并使用縮減函數(shù)聚合的。然后將每個(gè)通道的向量投影為標(biāo)量以導(dǎo)出局部特征。通過(guò)結(jié)合 VPSA 和 SA 模塊,我們構(gòu)建了一個(gè)具有類似于 PointNeXt 架構(gòu)的 PointVector 模型。我們的模型在公共基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面驗(yàn)證。它在 S3DIS 語(yǔ)義分割基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,并在 ScanObjectNN 和 ShapeNetPart 數(shù)據(jù)集上取得了有競(jìng)爭(zhēng)力的結(jié)果。通過(guò)結(jié)合向量的先驗(yàn)知識(shí),我們的模型在 S3DIS 上以更少的參數(shù)獲得了優(yōu)異的結(jié)果。詳細(xì)的消融實(shí)驗(yàn)進(jìn)一步證明了我們方法的有效性。貢獻(xiàn)總結(jié)如下:

  • 我們提出了一種具有相對(duì)特征和位置的新穎的直接向量表示,以更好地指導(dǎo)局部特征聚合。

  • 我們探索了獲得矢量表示的方法,并提出了利用3D空間中的矢量旋轉(zhuǎn)矩陣生成3D矢量的方法。

  • 我們提出的 PointVector 模型在 S3DIS area5 上實(shí)現(xiàn)了 72.3% 的平均交集 (mIOU),在 S3DIS(6 倍交叉驗(yàn)證)上實(shí)現(xiàn)了 78.4% mIOU,僅具有 PointNeXt 的 58% 模型參數(shù)。

基于點(diǎn)的網(wǎng)絡(luò)。與體素化和多視圖方法相比,基于點(diǎn)的方法直接處理點(diǎn)云。PointNet首先提出使用MLP直接處理點(diǎn)云。PointNet++ 隨后引入了層次結(jié)構(gòu)來(lái)改進(jìn)特征提取。隨后的工作重點(diǎn)是細(xì)粒度局部特征提取器的設(shè)計(jì)。基于圖的方法依賴于圖神經(jīng)網(wǎng)絡(luò)并引入點(diǎn)特征和邊緣特征來(lái)建模局部關(guān)系?;诰矸e的方法提出了幾種動(dòng)態(tài)卷積核來(lái)自適應(yīng)聚合鄰域特征。許多類似變壓器的網(wǎng)絡(luò)通過(guò)自注意力提取局部特征。最近,類 MLP 網(wǎng)絡(luò)通過(guò)增強(qiáng)特征,能夠用簡(jiǎn)單的網(wǎng)絡(luò)獲得良好的結(jié)果。PointMLP 提出了一種幾何仿射模塊來(lái)規(guī)范化特征。RepSurf 通過(guò)三角平面擬合表面信息,對(duì)傘面進(jìn)行建模以提供幾何信息。PointNeXt 集成了訓(xùn)練策略和模型縮放。類似 MLP 的架構(gòu)。類似 MLP 的結(jié)構(gòu)最近顯示出能夠以簡(jiǎn)單的架構(gòu)與 Transformer 相媲美。在圖像領(lǐng)域,MLP-Mixer首先使用Spatial MLP和Channel MLP的組合。隨后的工作通過(guò)為空間 MLP 選擇對(duì)象來(lái)降低計(jì)算復(fù)雜性,同時(shí)保持較大的感知場(chǎng)以保持準(zhǔn)確性。由于點(diǎn)云太大,類MLP網(wǎng)絡(luò)一般采用K近鄰采樣或球采樣方法來(lái)確定感知場(chǎng)。點(diǎn)云分析中的MLP結(jié)構(gòu)從PointNet和PointNet++開(kāi)始,使用MLP來(lái)提取特征并通過(guò)對(duì)稱函數(shù)聚合它們。Point-Mixer提出了三種點(diǎn)集算子,PointMLP通過(guò)幾何仿射模塊修改特征分布,PointNeXt 通過(guò)訓(xùn)練策略和模型縮放來(lái)擴(kuò)展PointNet ++模型并提高性能。特征聚合。 PosPool 通過(guò)提供無(wú)參數(shù)的位置自適應(yīng)池操作改進(jìn)了 PointNet++ 中定義的歸約函數(shù)。ASSANet 引入了一種新的各向異性縮減函數(shù)。此外,注意力機(jī)制的引入為約簡(jiǎn)函數(shù)提供了新的動(dòng)態(tài)權(quán)重。向量是有方向的,各向異性聚合函數(shù)自然滿足這個(gè)性質(zhì)。GeoCNN 基于六個(gè)方向上鄰近點(diǎn)和質(zhì)心的向量和角度來(lái)投影特征并對(duì)它們求和。WaveMLP 將圖像塊表示為波,并使用波相位和幅度描述特征聚合。矢量神經(jīng)元構(gòu)建了一個(gè)神經(jīng)元三元組來(lái)重建標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)并通過(guò)矢量變換來(lái)表示特征。以 3DGCN 為代表的基于模板的方法使用相對(duì)位移向量的余弦值來(lái)過(guò)濾來(lái)自更符合內(nèi)核模式的鄰居的聚合特征。局部位移使用局部位移向量通過(guò)組合固定內(nèi)核的權(quán)重來(lái)更新特征。在我們的方法中,通過(guò)修改點(diǎn)特征提取函數(shù)來(lái)生成中間向量表示。矢量方向是根據(jù)特征和位置確定的,以實(shí)現(xiàn)各向異性聚合函數(shù)。

我們提出了一種中間向量表示來(lái)增強(qiáng)點(diǎn)云分析中的局部特征聚合。本節(jié)包括第 3.1 節(jié)中對(duì) PointNet 系列的點(diǎn)集抽象(SA)運(yùn)算符的回顧,第 3.2 節(jié)中介紹的面向向量的點(diǎn)集抽象模塊,以及第 3.3 節(jié)中對(duì)我們從標(biāo)量擴(kuò)展向量的方法的描述,以及3.4節(jié)中PointVector的網(wǎng)絡(luò)結(jié)構(gòu)。

SA 模塊包括用于查詢每個(gè)點(diǎn)的鄰居的分組層(K-NN 或 BallQuery),共享 MLP 以及用于聚合鄰居特征的縮減層。SA模塊有一個(gè)子采樣層,用于對(duì)第一層中的點(diǎn)云進(jìn)行下采樣。我們將表示為階段之后提取的點(diǎn)的特征,表示點(diǎn)的鄰居,表示輸入點(diǎn)的數(shù)量。SA模塊的內(nèi)容可以表述如下:其中是聚合點(diǎn)來(lái)自其鄰居的特征的歸約函數(shù),表示共享的 MLP。分別表示點(diǎn)的輸入特征、點(diǎn)的位置和i點(diǎn)的位置。在局部聚合操作中,經(jīng)典方法將權(quán)重分配給維特征的分量,如下式所示,并對(duì)空間維度上的相鄰特征進(jìn)行求和。我們將維特征的分量視為只有一個(gè)非零值的基向量,并將向量變換定義如下:

其中是標(biāo)量權(quán)重。在方程 3 中,變換改變了向量的一個(gè)值。上面的兩個(gè)方程是等價(jià)的。方程中未改變的零點(diǎn)對(duì)后續(xù)操作沒(méi)有貢獻(xiàn),可以忽略不計(jì)。在物理學(xué)中,運(yùn)動(dòng)的自由度等于運(yùn)動(dòng)導(dǎo)致系統(tǒng)改變的狀態(tài)量的數(shù)量。物理系統(tǒng)中的自由度越大,表明定義其狀態(tài)的參數(shù)的獨(dú)立變化范圍越大。類似地,向量變換的自由度是指向量中可以獨(dú)立變化的值的數(shù)量。所以,我們提到的3D向量意味著向量變換的自由度是3。


正如 3.1 節(jié)中所討論的,特征分量可以表示為向量。矢量變換的自由度更高,可以增加變化并改進(jìn)相鄰元素之間連接的表示。向量具有大小和方向?qū)傩裕诒硎咎卣鞣矫姹葮?biāo)量更具表現(xiàn)力。當(dāng)聚集時(shí),它們由于其方向性而表現(xiàn)出各向異性。因此,我們引入了如圖2所示的中間向量表示。

圖2 PointVector 的面向矢量的點(diǎn)集抽象(VPSA)模塊。它說(shuō)明了 VPSA 模塊從輸入特征中獲取向量表示,聚合它們,并將它們投影回原始特征樣式。如圖所示,特征的每個(gè)通道可以被認(rèn)為是一個(gè)3D向量,通道之間是相互獨(dú)立的。需要注意的是,在我們的假設(shè)中,維特征的分量表示特征向量沿坐標(biāo)軸的投影。將向量聚合后得到質(zhì)心特征,其中分量向量中變化值的數(shù)量為3。將它們合并成維特征向量需要將個(gè)分量對(duì)齊然后求和。由于用這種方法實(shí)現(xiàn)組件對(duì)齊比較困難,我們直接將個(gè)組件投影到標(biāo)量中,并將它們組合成質(zhì)心特征。與卷積網(wǎng)絡(luò)中的中間特征類似,每個(gè)通道特征圖上的值表示該位置特定特征的響應(yīng)強(qiáng)度。我們的方法中的輸入特征被轉(zhuǎn)換為一系列向量,然后通過(guò)歸約函數(shù)聚合。請(qǐng)注意,向量表示的每個(gè)通道中的元素是向量。我們獲得了與通道無(wú)關(guān)的向量表示。我們將表示為相對(duì)特征和相對(duì)位置的混合特征。矢量引導(dǎo)聚合模塊的內(nèi)容可以表述為:其中是生成向量表示的函數(shù),表示線性變換向量到標(biāo)量的投影,是通道混合線性,它與每個(gè)通道的信息交互,同時(shí)變換維度以適應(yīng)網(wǎng)絡(luò)。然而,我們引入的特征表示實(shí)際上是使用三元組形式來(lái)表示的。我們將 表示為向量的維度,為特征的通道。事實(shí)上,個(gè)維向量的集合以與維特征向量相同的形式表示。歸約函數(shù)后面是分組卷積,它將向量轉(zhuǎn)換為每個(gè)通道的標(biāo)量,這將中間向量表示與一般特征向量區(qū)分開(kāi)來(lái)。當(dāng)歸約函數(shù)選擇時(shí),和函數(shù)一起構(gòu)成了GroupConv的特例。令表示鄰居特征的數(shù)量。對(duì)于一組,GroupConv 的卷積核是一個(gè)參數(shù)矩陣,而我們的方法可以看作個(gè)相同的 參數(shù)矩陣。這是因?yàn)槲覀儗⑾蛄恳暈檎w并為每個(gè)元素分配相同的權(quán)重。我們將在補(bǔ)充材料中解釋為什么原始的 groupconv 操作不適合我們的向量引導(dǎo)特征聚合。

方程 4 中定義的函數(shù)最簡(jiǎn)單的想法是直接用 MLP 獲得點(diǎn)的維向量。然而,雖然單層 MLP 的表達(dá)能力可能有限,但多層 MLP 可能是資源密集型的。正如 3.1 節(jié)中所討論的,輸入特征被視為向量,我們的目標(biāo)是設(shè)計(jì)一個(gè)具有高自由度的變換。該變換結(jié)合了旋轉(zhuǎn)和縮放,分別由旋轉(zhuǎn)矩陣和可學(xué)習(xí)參數(shù)表示。該方法以較低的資源消耗取得了較好的效果。

圖3 從一般特征到向量表示的擴(kuò)展。為了簡(jiǎn)單起見(jiàn),我們暫定。左側(cè)表示通過(guò)標(biāo)準(zhǔn)MLP生成特征的過(guò)程,右側(cè)將特征的每個(gè)標(biāo)量添加2個(gè)分量形成向量,然后對(duì)其進(jìn)行旋轉(zhuǎn)。如圖3所示,通過(guò)添加個(gè)零值分量,可以將標(biāo)量直接轉(zhuǎn)換為維向量。然后,擴(kuò)展向量表示的每個(gè)通道可以被視為沿著特定坐標(biāo)軸方向的維向量。因此,我們可以通過(guò)額外訓(xùn)練旋轉(zhuǎn)矩陣來(lái)獲得正確的向量方向。直接預(yù)測(cè)旋轉(zhuǎn)矩陣可能會(huì)給非線性優(yōu)化帶來(lái)困難,因?yàn)榫仃囋厥窍嗷ヒ蕾嚨?。相反,我們首先預(yù)測(cè)旋轉(zhuǎn)角度,然后根據(jù)該角度推導(dǎo)旋轉(zhuǎn)矩陣。3D矢量的旋轉(zhuǎn)可以分解為繞三個(gè)軸的旋轉(zhuǎn)。然而,我們還沒(méi)有確定如何表示 4D 矢量繞平面的旋轉(zhuǎn)。如圖4所示,由于擴(kuò)展的3D矢量位于坐標(biāo)軸上,因此可以省略繞該軸的一圈旋轉(zhuǎn)。我們保持默認(rèn)的旋轉(zhuǎn)方向?yàn)槟鏁r(shí)針。向量首先繞軸旋轉(zhuǎn)角度,然后繞軸旋轉(zhuǎn)角度,最終得到向量 。旋轉(zhuǎn)可以表述如下:

其中分別表示繞x軸旋轉(zhuǎn)的旋轉(zhuǎn)矩陣和繞z軸旋轉(zhuǎn)的旋轉(zhuǎn)矩陣,由Linear生成。和的獨(dú)立性有利于網(wǎng)絡(luò)優(yōu)化。因此,我們可以根據(jù)圖4和方程5將特征的每個(gè)標(biāo)量值擴(kuò)展為3D向量。局部區(qū)域的特征聚合受到相鄰點(diǎn)和質(zhì)心之間關(guān)系的影響。PointTransformer、PAConv和 Adaptconv等方法使用相對(duì)位置和特征來(lái)建模這種關(guān)系。我們的方法還使用 MLP 在相對(duì)位置和特征上提取旋轉(zhuǎn)角度。向量的獲取可以表述如下:

其中表示相對(duì)特征和相對(duì)位置的混合特征,表示點(diǎn)j的特征。因此,我們可以使用以上方程從輸入特征和位置獲得中間向量表示。


圖5 整體架構(gòu)。我們重用了PointNet++的SA模塊和特征傳播模塊,并提出了VPSA模塊來(lái)改進(jìn)采樣點(diǎn)云的特征提取??傊?,我們提出了 PointVector,它是從 PointNeXt 修改而來(lái),用我們提出的 VPSA 模塊替換其 InvResMLP 模塊,我們定義其向量維度。該架構(gòu)如上圖所示。參考經(jīng)典的PointNet++,我們使用包含編碼器和解碼器的層次結(jié)構(gòu)。對(duì)于分割任務(wù),我們使用編碼器和解碼器。對(duì)于分類任務(wù),我們僅使用編碼器。為了與PointNeXt進(jìn)行公平比較,我們參考PointNeXt的參數(shù)設(shè)置,設(shè)置了三種尺寸的模型。我們將表示為最初嵌入MLP的通道,表示SA模塊的編號(hào),表示VPSA模塊的編號(hào)。三種型號(hào)尺寸如下:

  • PointVector-S: C=32, S=0, V=[1,1,1,1]

  • PointVector-L: C=32, S=[1,1,1,1], V=[2,4,2,2]

  • PointVector-XL: C=64, S=[1,1,1,1], V=[3,6,3,3]

由于PointNeXt僅使用PointNeXt-S模型進(jìn)行分類,因此我們使用我們的VPSA模塊而不是PointVector-S中的SA模塊進(jìn)行公平比較。分類任務(wù)的詳細(xì)結(jié)構(gòu)將出現(xiàn)在補(bǔ)充材料中。圖5中的VPSA模塊中有一條跳過(guò)連接路徑,它被添加到主路徑上,然后通過(guò)ReLU層。使用這種求和方法的原因是RepSurf指示了如何組合具有不同分布的兩個(gè)特征。對(duì)于分割任務(wù),需要更精細(xì)的局部信息,我們將歸約函數(shù)設(shè)置為sum。對(duì)于有利于聚合全局信息的分類任務(wù),我們選擇原始的約簡(jiǎn)函數(shù),例如max。

我們?cè)谌齻€(gè)標(biāo)準(zhǔn)基準(zhǔn)上評(píng)估我們的模型:用于語(yǔ)義分割的 S3DIS、用于現(xiàn)實(shí)世界對(duì)象分類的 ScanObjectNN 和用于零件分割的 ShapeNetPart。請(qǐng)注意,我們的模型是在 PointNeXt 的基礎(chǔ)上實(shí)現(xiàn)的。由于我們使用PointNeXt提供的訓(xùn)練策略,因此我們參考PointNeXt報(bào)告的指標(biāo)進(jìn)行公平比較。實(shí)驗(yàn)設(shè)置。我們使用 CrossEntropy 損失和標(biāo)簽平滑、AdamW 優(yōu)化器和初始學(xué)習(xí)率 lr=0.002、weight decay=10?4、余弦衰減和batch_size大小 32 來(lái)訓(xùn)練 PointVector。以上是基本設(shè)置對(duì)于所有任務(wù),特定參數(shù)將針對(duì)特定任務(wù)而更改。我們遵循數(shù)據(jù)集的訓(xùn)練、有效和測(cè)試劃分。驗(yàn)證集上的最佳模型將在測(cè)試集上進(jìn)行評(píng)估。對(duì)于S3DIS分割任務(wù),按照先前的方法對(duì)點(diǎn)云進(jìn)行下采樣,體素大小為0.4m。該任務(wù)的初始學(xué)習(xí)率設(shè)置為 0.01。對(duì)于 100 個(gè) epoch,我們使用固定的 24000 個(gè)點(diǎn)作為批次,并將批次大小設(shè)置為 8。在訓(xùn)練過(guò)程中,輸入點(diǎn)是從隨機(jī)點(diǎn)的最近鄰居中選擇的。與 Point Transformer類似,我們使用整個(gè)場(chǎng)景作為輸入來(lái)評(píng)估我們的模型。對(duì)于 ScanObjectNN分類任務(wù),我們將 250 個(gè)時(shí)期的權(quán)重衰減設(shè)置為 0.05。按照Point-BERT,輸入點(diǎn)數(shù)為1024。訓(xùn)練點(diǎn)從點(diǎn)云中隨機(jī)采樣,測(cè)試點(diǎn)在評(píng)估時(shí)均勻采樣。數(shù)據(jù)增強(qiáng)的細(xì)節(jié)與PointNeXt中的相同。對(duì)于 ShapeNetPart 零件分割,我們訓(xùn)練 PointVector-S,批量大小為 32,持續(xù) 300 個(gè)周期。遵循 PointNet++,使用 2048 個(gè)具有法線的隨機(jī)采樣點(diǎn)作為訓(xùn)練和測(cè)試的輸入。對(duì)于投票策略,我們保持與PointNeXt相同,并且僅在部分分割任務(wù)上使用它。為了確保與標(biāo)準(zhǔn)方法的公平比較,我們不使用任何集成方法,例如 SimpleView。我們還提供模型參數(shù) (Params) 和 GFLOP。此外,與 PointNeXt 類似,我們提供吞吐量(每秒實(shí)例數(shù))作為推理速度的指標(biāo)。吞吐量計(jì)算的輸入數(shù)據(jù)與PointNeXt保持一致,以便公平比較。所有方法的吞吐量均使用 128 × 1024(batch_size大小 128,點(diǎn)數(shù) 1024)作為 ScanObjectNN 上的輸入和 64 × 2048 作為 ShapeNetPart 上的輸入來(lái)測(cè)量。在 S3DIS 上,按照使用 16 × 15000 個(gè)點(diǎn)來(lái)測(cè)量吞吐量。我們使用 NVIDIA Tesla V100 32 GB GPU 和 48 核 Intel Xeon @ 2.10 Hz CPU 評(píng)估我們的模型。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程》。

S3DIS(斯坦福大型3D室內(nèi)空間)是一個(gè)具有挑戰(zhàn)性的基準(zhǔn),由6個(gè)大型室內(nèi)區(qū)域、271個(gè)房間和總共13個(gè)語(yǔ)義類別組成。對(duì)于我們?cè)赟3DIS中的模型,SetAbstraction中的鄰居數(shù)量是32,Local Vector模塊中的鄰居數(shù)量是8。PointTransformer也采用了PointNeXt使用的大部分訓(xùn)練策略和數(shù)據(jù)增強(qiáng),所以這是公平的以便我們與它進(jìn)行比較。為了進(jìn)行全面比較,我們分別在表1中報(bào)告了PointVector-L和PointVector-XL在S3DIS上經(jīng)過(guò)6倍交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果,在表2中報(bào)告了S3DIS區(qū)域5的實(shí)驗(yàn)結(jié)果。如表 1 和表 2 所示,我們?cè)趦煞N驗(yàn)證選項(xiàng)上都實(shí)現(xiàn)了最先進(jìn)的性能。表 1 顯示,我們的最大模式 PointVector-XL 在總體精度 (OA)、平均精度 (mAcc) 和 mIOU 方面分別比 PointNeXt-XL 好 1.6%、3.1% 和 3.5%,而參數(shù)僅為 58%。同時(shí),我們的計(jì)算消耗以 GFLOP 計(jì)算僅為 PointNeXt-XL 的 69%。計(jì)算消耗減少,因?yàn)猷従訑?shù)量減少到 8 個(gè)。限制是我們大量使用 GroupConv (groups=channel),它在 PyTorch 中沒(méi)有得到很好的優(yōu)化,并且比標(biāo)準(zhǔn)卷積慢。因此,我們的推理速度比 PointNeXt-XL 低 6 個(gè)實(shí)例/秒。我們的模型在所有尺寸上都顯示出更好的結(jié)果。

表1 使用 6 倍交叉驗(yàn)證在 S3DIS 上進(jìn)行語(yǔ)義分割。方法按時(shí)間順序排列。最高分和第二分以粗體標(biāo)記。
表2 S3DIS Area5 上的語(yǔ)義分割。* 表示 StratifiedFormer 使用 80k 點(diǎn)作為輸入點(diǎn)。最高分和第二分以粗體標(biāo)記。在S3DIS Area 5上,我們選擇了PointNeXt報(bào)告的最佳結(jié)果進(jìn)行比較,沒(méi)有重復(fù)實(shí)驗(yàn)。我們的 PointVector-XL 模型在 mIOU 方面分別優(yōu)于 StratifiedFormer和 PointNeXt-XL 0.3% 和 1.8%。StratifiedFormer 通過(guò)組合高分辨率和低分辨率鍵來(lái)擴(kuò)展查詢范圍,同時(shí)有效提取上下文信息。盡管它的感受野比我們的模型要廣泛得多,但我們?nèi)匀槐憩F(xiàn)出有競(jìng)爭(zhēng)力的表現(xiàn)。此外,我們的模型和它的實(shí)驗(yàn)設(shè)置存在一些差異,它有 80k 點(diǎn)的輸入,比我們的 24k 點(diǎn)的輸入大得多。此外,它在第一層使用 KPConv 而不是 Linear??磥?lái)這些措施的效果還是顯著的。然而,由于實(shí)驗(yàn)配置的差異,這種比較對(duì)我們來(lái)說(shuō)不夠公平。稍后我們會(huì)同步其實(shí)驗(yàn)配置。此外,我們?cè)?Area 5 上相同尺寸的模型顯示出比 PointNeXt 更好的結(jié)果。PointVector-L 和 PointVector-XL 在 mIOU 方面分別比 PointNeXt-L 和 PointNeXt-XL 表現(xiàn)好 1.7% 和 1.5%,并且我們?cè)诖蠖鄶?shù)類別上表現(xiàn)更好。

ScanObjectNN 包含大約 15000 個(gè)真實(shí)掃描對(duì)象,這些對(duì)象被分為 15 個(gè)類,具有 2902 個(gè)唯一對(duì)象實(shí)例。由于遮擋和噪聲,該數(shù)據(jù)集面臨重大挑戰(zhàn)。與 PointNeXt 一樣,我們選擇 ScanObjectNN 的最難變體 PB T50 RS 并報(bào)告 平均值±標(biāo)準(zhǔn)差 總體精度和平均精度得分。對(duì)于我們?cè)?ScanObjectNN 中的模型,SetAbstraction 中的鄰居數(shù)量為 32。如表 3 所示,我們的 PointVector-S 模型在 OA 中實(shí)現(xiàn)了與 ScanObjectNN 相當(dāng)?shù)男阅?,而?mAcc 中比 PointNeXtS 好 0.4%。這說(shuō)明我們的方法并沒(méi)有更偏向于某些類別,而且相對(duì)穩(wěn)健。與 SA 模塊相比,我們的方法在速度和規(guī)模方面處于劣勢(shì)。由于我們引入了高維向量,因此與標(biāo)準(zhǔn) SA 模塊相比,我們?cè)诳s減之前生成了更多的計(jì)算。由于群卷積運(yùn)算和三角函數(shù),存在速度瓶頸。盡管推理速度比 PointNeXt 慢,但我們?nèi)匀槐绕渌椒ǜ?。我們的方法在分類任?wù)上表現(xiàn)不佳,其中分類任務(wù)的下采樣階段需要最大縮減函數(shù)來(lái)保留顯著的輪廓信息。

表3 ScanObjectNN 上的對(duì)象分類。最高分和第二分以粗體標(biāo)記。

ShapeNetPart 是用于零件分割的對(duì)象級(jí)數(shù)據(jù)集。它由16個(gè)不同形狀類別的16880個(gè)模型組成,每個(gè)類別2-6個(gè)零件,總共50個(gè)零件標(biāo)簽。如表 4 所示,我們的 PointVector-S 和 PointVector-S C64 模型都取得了與 PointNeXt 相當(dāng)?shù)慕Y(jié)果。對(duì)于C=160的PointNeXt-S模型,參數(shù)數(shù)量較多,我們沒(méi)有給出相應(yīng)的模型版本。

表4 ShapeNetPart 上的對(duì)象部分分割。*我們對(duì)這項(xiàng)任務(wù)的評(píng)估結(jié)果與該論文得出的吞吐量結(jié)果并不一致。其他作品我們沒(méi)有一一測(cè)試。

我們?cè)赟3DIS上進(jìn)行消融實(shí)驗(yàn)來(lái)驗(yàn)證該模塊的有效性,由于PointVector-XL太大,我們對(duì)PointVector-L進(jìn)行了修改。為了使比較公平,我們沒(méi)有改變訓(xùn)練參數(shù)。面向矢量的點(diǎn)集抽象。我們將模塊抽象為兩個(gè)關(guān)鍵操作:sum和GroupConv(groups=Channel),這表明這部分模塊是通道無(wú)關(guān)的,所以我們添加一個(gè)FC來(lái)混合通道信息??紤]到通道信息已經(jīng)使用非GroupConv操作進(jìn)行混合,通道混合Linear將被刪除。卷積和分組卷積部分的卷積核大小為1×k,步幅大小為1。如表5所示,直接使用固定卷積會(huì)帶來(lái)大量參數(shù),并且與不規(guī)則結(jié)構(gòu)的擬合效果非常差。點(diǎn)云。max+FC 顯示出更好的性能,因?yàn)橹庇^地聚合具有更高維度的特征可以保留更多信息。GroupConv 獲得較低的 mIOU,因?yàn)樗鼮榻M中的每個(gè)元素分配獨(dú)立的權(quán)重;然而,求和時(shí)通道的 3D 向量的三個(gè)元素應(yīng)賦予相同的權(quán)重。此外,sum+FC 與 sum+GroupConv 沒(méi)有太大區(qū)別,因?yàn)?GroupConv 和通道混合 Linear 可以組合到 FC 的特定層中。相比之下,sum+GroupConv 的參數(shù)數(shù)量最少,性能最好,所以我們選擇了它。

表5 VPSA的核心運(yùn)營(yíng)。我們將該模塊抽象為 sum 和 GroupConv 操作,并替換這部分。FC 表示 Channel-FC 為線性。* 表示它充當(dāng)基線。從標(biāo)量擴(kuò)展向量。為了驗(yàn)證基于矢量旋轉(zhuǎn)的方法的有效性,我們將其與其他兩種方法進(jìn)行了比較。如表 6 所示,MLP 由兩個(gè) Linear 層以及一個(gè) ReLU 激活層和 BatchNorm 層表示。Linear+direction表示Linear預(yù)測(cè)向量模長(zhǎng)度,然后利用MLP得到單位向量作為方向,最終的模長(zhǎng)度乘以單位向量。3.3節(jié)提出的基于旋轉(zhuǎn)的向量擴(kuò)展方法領(lǐng)先于其他方法并且參數(shù)較少。這表明基于旋轉(zhuǎn)的方法可以使用更少的參數(shù)來(lái)獲得更適合鄰居特征的矢量表示。
表6 獲得矢量表示的方法。向量維度。我們需要探索向量表示的效果與維度之間的聯(lián)系。直觀上,高維向量比較低維向量更能表達(dá)特征。表7顯示3D向量具有更好的特征表達(dá)能力,并且參數(shù)數(shù)量的增加不是很大。沒(méi)有我們的向量表示的 mIOU 仍然高于 PointNeXt 的結(jié)果。我們將在補(bǔ)充材料中討論我們網(wǎng)絡(luò)其他部分的有效性。
表7 不同維度的向量。魯棒性。表 8 表明我們的方法對(duì)于分層變壓器的各種擾動(dòng)非常穩(wěn)健。我們使用的球查詢無(wú)法在縮放點(diǎn)云中獲得相同的鄰居。如果查詢半徑一起縮放,那么mIOU是不變的。這表明我們的方法也具有尺度不變性。
表8 S3DIS 的穩(wěn)健性研究 (mIOU %)。我們?cè)跍y(cè)試中應(yīng)用了z軸旋轉(zhuǎn)(π/2、π、3π/2)、平移(±0.2)、縮放(×0.8、×1.2)和抖動(dòng)。PointTr:點(diǎn)轉(zhuǎn)換器。分層:分層變壓器。

我們引入了 PointVector,它在 S3DIS 語(yǔ)義分割任務(wù)上取得了最先進(jìn)的結(jié)果。我們的面向向量的點(diǎn)集抽象以更少的參數(shù)改進(jìn)了局部特征聚合?;谛D(zhuǎn)的矢量擴(kuò)展方法彌補(bǔ)了矢量表示和標(biāo)準(zhǔn)特征形式之間的差距。通過(guò)優(yōu)化兩個(gè)獨(dú)立的視角,取得了更好的效果。此外,我們的方法對(duì)各種擾動(dòng)表現(xiàn)出魯棒性。值得注意的是,進(jìn)一步探索向量表示的含義可能會(huì)揭示其他應(yīng)用,即主導(dǎo)鄰居選擇。我們的方法的速度受到分組卷積實(shí)現(xiàn)的限制。未來(lái)工作的一個(gè)有趣的途徑包括探索三個(gè)維度以上的旋轉(zhuǎn)以及將四維旋轉(zhuǎn)分解為平面旋轉(zhuǎn)的組合。此外,分量對(duì)齊后的求和比標(biāo)量投影更符合我們的假設(shè)。

CVPR2023 I PointVector: 用矢量表示徹底改變點(diǎn)云分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阳西县| 益阳市| 镇江市| 溧水县| 延边| 永川市| 班戈县| 类乌齐县| 贺兰县| 中山市| 荣昌县| 延长县| 古浪县| 湖口县| 姜堰市| 涡阳县| 蕲春县| 汉沽区| 西盟| 会昌县| 旺苍县| 申扎县| 景德镇市| 五莲县| 宁南县| 裕民县| 昌江| 定州市| 北宁市| 长岭县| 县级市| 安多县| 容城县| 松江区| 尚志市| 彭阳县| 浠水县| 昌邑市| 台中县| 荆门市| 崇明县|