只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！

2023-09-26 21:56 作者:3D視覺(jué)工坊 0人讀過(guò) | 我要投稿

作者：PCIPG-mach ?| 來(lái)源：3D視覺(jué)工坊

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái)，回復(fù)「原論文」即可獲取論文pdf和代碼。

添加微信：dddvisiona，備注：3D點(diǎn)云，拉你入群。文末附行業(yè)細(xì)分群。

為三維點(diǎn)云實(shí)例分割提出了一個(gè)概念簡(jiǎn)單、通用性強(qiáng)的新框架。

該框架直接回歸點(diǎn)云中所有實(shí)例的

實(shí)例分割問(wèn)題，主要障礙在于點(diǎn)云本身是無(wú)序、非結(jié)構(gòu)化和非均勻的。廣泛使用的卷積神經(jīng)網(wǎng)絡(luò)需要對(duì)三維點(diǎn)云進(jìn)行體素化處理，從而產(chǎn)生高昂的計(jì)算和內(nèi)存成本。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程》。

此外，它們不可避免地需要一個(gè)后處理步驟，如均值移動(dòng)聚類，以獲得最終的實(shí)例標(biāo)簽，而這一步驟的計(jì)算量很大。另一種管道是基于提議的 3D-SIS 和 GSPN ，它們通常依賴于兩階段訓(xùn)練和昂貴的非最大抑制來(lái)剪切密集的對(duì)象提議。

在本文中，我們提出了一個(gè)優(yōu)雅、高效和新穎的三維實(shí)例分割框架，通過(guò)使用高效 MLP 的單向前向階段來(lái)松散但唯一地檢測(cè)對(duì)象，然后通過(guò)一個(gè)簡(jiǎn)單的點(diǎn)級(jí)二元分類器來(lái)精確分割每個(gè)實(shí)例。為此，我們引入了一個(gè)新的邊界框預(yù)測(cè)模塊和一系列精心設(shè)計(jì)的損失函數(shù)，以直接學(xué)習(xí)對(duì)象邊界。我們的框架與現(xiàn)有的基于提議和無(wú)提議的方法有很大不同，因?yàn)槲覀兡軌蚋咝У胤指钏芯哂懈邔?duì)象性的實(shí)例，而無(wú)需依賴昂貴而密集的對(duì)象提議。
圖 1 所示，我們的框架名為 3D-BoNet ，是一種單級(jí)、無(wú)錨、端到端可訓(xùn)練的神經(jīng)架構(gòu)。它首先使用現(xiàn)有的骨干網(wǎng)絡(luò)為每個(gè)點(diǎn)提取局部特征向量，并為整個(gè)輸入點(diǎn)云提取全局特征向量。
骨干網(wǎng)絡(luò)之后有兩個(gè)分支：

1) 實(shí)例級(jí)邊界框預(yù)測(cè)?

2) 用于實(shí)例分割的點(diǎn)級(jí)掩碼預(yù)測(cè)。總體而言，我們的框架在三個(gè)方面有別于所有現(xiàn)有的三維實(shí)例分割方法。1) 與無(wú)提議管道相比，我們的方法通過(guò)明確學(xué)習(xí)三維對(duì)象邊界來(lái)分割對(duì)象度高的實(shí)例。2) 與廣泛使用的基于提議的方法相比，我們的框架不需要昂貴而密集的提議。3) 我們的框架非常高效，因?yàn)閷?shí)例級(jí)掩碼只需一次前向?qū)W習(xí)，無(wú)需任何后處理步驟。

我們的主要貢獻(xiàn)如下：

我們提出了一種新的三維點(diǎn)云實(shí)例分割框架。該框架是單階段、無(wú)錨和端到端可訓(xùn)練的，無(wú)需任何后處理步驟。

我們?cè)O(shè)計(jì)了一個(gè)新穎的邊界框關(guān)聯(lián)層，然后使用多標(biāo)準(zhǔn)損失函數(shù)對(duì)邊界框預(yù)測(cè)分支進(jìn)行監(jiān)督。

通過(guò)廣泛的消融研究，我們證明了與基線相比的顯著改進(jìn)，并提供了我們?cè)O(shè)計(jì)選擇背后的直覺(jué)。

圖 3：3D-BoNet 框架的一般工作流程。

3D-BoNet的總體框架如圖所示，它主要由1) Instance-level bounding box prediction 2) Point-level mask prediction兩個(gè)分支組成。顧名思義，bounding box prediction分支用于預(yù)測(cè)點(diǎn)云中每個(gè)實(shí)例的邊界框，mask prediction分支用于為邊界框內(nèi)的點(diǎn)預(yù)測(cè)一個(gè)mask，進(jìn)一步區(qū)分邊界框內(nèi)的點(diǎn)是屬于instance還是背景。

邊界框編碼：在現(xiàn)有的物體檢測(cè)網(wǎng)絡(luò)中，邊界框通常由中心位置和三維長(zhǎng)度或相應(yīng)的殘差以及方向來(lái)表示。為了簡(jiǎn)單起見(jiàn)，我們只用兩個(gè)最小-最大頂點(diǎn)來(lái)表示矩形邊界框的參數(shù)：

神經(jīng)層：如圖 4 所示，全局特征向量通過(guò)兩個(gè)全連接層，以 Leaky ReLU 作為非線性激活函數(shù)。然后再經(jīng)過(guò)另外兩個(gè)平行的全連接層。一層輸出 6H 維向量，然后將其重塑為 H × 2 × 3 張量。H 是一個(gè)預(yù)定義的固定邊框數(shù)，整個(gè)網(wǎng)絡(luò)可預(yù)測(cè)的最大邊框數(shù)。另一層輸出一個(gè) H 維向量，然后用 sigmoid 函數(shù)表示邊界框得分。分?jǐn)?shù)越高，預(yù)測(cè)的邊框越有可能包含一個(gè)實(shí)例，因此邊框越有效。
圖 4：邊界框回歸分支的結(jié)構(gòu)。在計(jì)算多標(biāo)準(zhǔn)損失之前，將預(yù)測(cè)的 H 邊框與 T 地面真實(shí)邊框進(jìn)行優(yōu)化關(guān)聯(lián)。
邊框關(guān)聯(lián)層：給定先前預(yù)測(cè)的 H 個(gè)邊界框（即），利用地面實(shí)況框來(lái)監(jiān)督網(wǎng)絡(luò)并不簡(jiǎn)單，因?yàn)樵谖覀兊目蚣苤?，沒(méi)有預(yù)定義的錨點(diǎn)可以將每個(gè)預(yù)測(cè)框追溯到相應(yīng)的地面實(shí)況框。此外，對(duì)于每個(gè)輸入點(diǎn)云，地面實(shí)況箱的數(shù)量都是不同的，通常與預(yù)定義的數(shù)量不同，不過(guò)我們可以有把握地假設(shè)所有輸入點(diǎn)云的預(yù)定義數(shù)量。此外，預(yù)測(cè)方框和地面實(shí)況方框都沒(méi)有方框順序。

最優(yōu)關(guān)聯(lián)公式：_為了從中為的每個(gè)地面實(shí)況框關(guān)聯(lián)一個(gè)唯一的預(yù)測(cè)邊界框，我們將這一關(guān)聯(lián)過(guò)程表述為一個(gè)最優(yōu)分配問(wèn)題。形式上，讓成為布爾關(guān)聯(lián)矩陣，如果第個(gè)預(yù)測(cè)框被分配給第個(gè)地面實(shí)況框，則其為1。在本文中也稱為關(guān)聯(lián)索引。讓成為關(guān)聯(lián)成本矩陣，其中表示第 i 個(gè)預(yù)測(cè)方框被分配到第 j 個(gè)地面實(shí)況方框的成本?；旧希鷥r(jià) 代表兩個(gè)方框之間的相似度；代價(jià)越小，兩個(gè)方框越相似。因此，邊界方框關(guān)聯(lián)問(wèn)題就是要找到成本最小的最優(yōu)分配矩陣：

損失函數(shù) 在邊框關(guān)聯(lián)層之后，預(yù)測(cè)的邊框和分?jǐn)?shù) 都將使用關(guān)聯(lián)索引進(jìn)行重新排序，從而使最先預(yù)測(cè)的個(gè)邊框和分?jǐn)?shù)與個(gè)地面實(shí)況邊框很好地配對(duì)。_邊框預(yù)測(cè)的多標(biāo)準(zhǔn)損失_：上一個(gè)關(guān)聯(lián)層根據(jù)最小成本為每個(gè)地面實(shí)況箱找到最相似的預(yù)測(cè)箱，最小成本包括1) 頂點(diǎn)歐氏距離；2) 點(diǎn)上的 sIoU 成本；3) 交叉熵得分。因此，邊界框預(yù)測(cè)的損失函數(shù)自然是為了持續(xù)最小化這些成本而設(shè)計(jì)的。

其形式定義如下

請(qǐng)注意，我們只最小化個(gè)配對(duì)方框的成本；其余個(gè)預(yù)測(cè)方框?qū)⒈缓雎?，因?yàn)樗鼈儧](méi)有相應(yīng)的地面實(shí)況。因此，這個(gè)方框預(yù)測(cè)子分支與預(yù)定義的值無(wú)關(guān)。由于負(fù)預(yù)測(cè)沒(méi)有受到懲罰，網(wǎng)絡(luò)可能會(huì)對(duì)一個(gè)實(shí)例預(yù)測(cè)出多個(gè)相似的方框。幸運(yùn)的是，平行邊框得分預(yù)測(cè)的損失函數(shù)能夠緩解這一問(wèn)題。

框選得分的預(yù)測(cè)差_：預(yù)測(cè)的框得分旨在表明相應(yīng)預(yù)測(cè)方框的有效性。通過(guò)關(guān)聯(lián)指數(shù) A 重新排序后，前 T 個(gè)得分的地面實(shí)況得分均為 "1"，其余無(wú)效的個(gè)得分均為 "0"。

我們使用交叉熵?fù)p失來(lái)完成這項(xiàng)二元分類任務(wù)：

基本上，這個(gè)損失函數(shù)獎(jiǎng)勵(lì)的是預(yù)測(cè)正確的邊界框，而隱含地懲罰了對(duì)一個(gè)實(shí)例回歸多個(gè)相似邊界框的情況。

給定預(yù)測(cè)的邊界框、學(xué)習(xí)到的點(diǎn)特征和全局特征，點(diǎn)掩碼預(yù)測(cè)分支通過(guò)共享神經(jīng)層單獨(dú)處理每個(gè)邊界框。

表 1：ScanNet(v2) 基準(zhǔn)（隱藏測(cè)試集）上的實(shí)例分割結(jié)果。指標(biāo)為 AP(%)，IoU 閾值為 0.5。訪問(wèn)日期：2019 年 6 月 2 日。
神經(jīng)層：如圖 6 所示，通過(guò)全連接層將點(diǎn)特征和全局特征壓縮為 256 維向量，然后進(jìn)行連接并進(jìn)一步壓縮為 128 維混合點(diǎn)特征。對(duì)于第 i 個(gè)預(yù)測(cè)的邊界框，估計(jì)的頂點(diǎn)和分?jǐn)?shù)通過(guò)連接與特征融合，產(chǎn)生框感知特征然后，這些特征通過(guò)共享層，預(yù)測(cè)出一個(gè)點(diǎn)級(jí)二進(jìn)制掩碼，表示為我們使用 sigmoid 作為最后一個(gè)激活函數(shù)。
這種簡(jiǎn)單的盒式融合方法計(jì)算效率極高，而現(xiàn)有技術(shù)中常用的 RoI Align則涉及昂貴的點(diǎn)特征采樣和對(duì)齊。損失函數(shù)：根據(jù)先前的關(guān)聯(lián)指數(shù)，預(yù)測(cè)的實(shí)例掩碼與地面實(shí)況掩碼具有相似的關(guān)聯(lián)。由于實(shí)例點(diǎn)和背景點(diǎn)的數(shù)量不平衡，我們使用帶有默認(rèn)超參數(shù)的焦點(diǎn)損失（focal loss)，而不是標(biāo)準(zhǔn)的交叉熵?fù)p失（cross-entropy loss）來(lái)優(yōu)化這一分支。只有有效的配對(duì)掩碼才會(huì)被用于損失

雖然我們的框架并不局限于任何點(diǎn)云網(wǎng)絡(luò)，但我們采用 PointNet++ 作為骨干來(lái)學(xué)習(xí)局部和全局特征。與此同時(shí)，我們還實(shí)現(xiàn)了另一個(gè)獨(dú)立的分支，利用標(biāo)準(zhǔn)的 sof tmax 交叉熵?fù)p失函數(shù) 來(lái)學(xué)習(xí)每個(gè)點(diǎn)的語(yǔ)義。

骨干和語(yǔ)義分支的架構(gòu)與中使用的相同。給定輸入點(diǎn)云 P 后，上述三個(gè)分支被連接起來(lái)，并使用單一的組合多任務(wù)損失進(jìn)行端到端訓(xùn)練：

我們使用 Adam 求解器及其默認(rèn)超參數(shù)進(jìn)行優(yōu)化。初始學(xué)習(xí)率設(shè)置為 5e-4，然后每 20 個(gè)歷元除以 2。整個(gè)網(wǎng)絡(luò)在 Titan X GPU 上從頭開(kāi)始訓(xùn)練。我們?cè)谒袑?shí)驗(yàn)中使用相同的設(shè)置，這保證了我們框架的可重復(fù)性。

在實(shí)驗(yàn)中，我們發(fā)現(xiàn)基于虛構(gòu) PointNet++ 的語(yǔ)義預(yù)測(cè)子分支性能有限，無(wú)法提供令人滿意的語(yǔ)義。得益于我們框架的靈活性，我們可以輕松地訓(xùn)練一個(gè)并行 SCN 網(wǎng)絡(luò)，為我們的 3D-BoNet 預(yù)測(cè)實(shí)例估算出更精確的每點(diǎn)語(yǔ)義標(biāo)簽。
圖 7：這是一個(gè)有數(shù)百個(gè)物體（如椅子、桌子）的階梯教室，凸顯了實(shí)例分割所面臨的挑戰(zhàn)。不同的顏色表示不同的實(shí)例。相同的實(shí)例可能沒(méi)有相同的顏色。我們的框架能比其他框架預(yù)測(cè)出更精確的實(shí)例標(biāo)簽。

為了進(jìn)行公平比較，我們使用與我們的框架相同的 PointNet++ 主干網(wǎng)和其他設(shè)置對(duì) PartNet 基線進(jìn)行了仔細(xì)訓(xùn)練。為了進(jìn)行評(píng)估，我們報(bào)告了 IoU 閾值為 0.5 的經(jīng)典指標(biāo)平均精度（mPrec）和平均召回率（mRec）。需要注意的是，我們使用了相同的 BlockMerging 算法來(lái)合并我們的方法和 PartNet 基線中來(lái)自不同區(qū)塊的實(shí)例。最終得分是 13 個(gè)類別的平均值。列出了 mPrec/mRec 分?jǐn)?shù)，顯示了定性結(jié)果。我們的方法遠(yuǎn)遠(yuǎn)超過(guò)了 PartNet 基線，也優(yōu)于 ASIS ，但并不顯著，主要原因是我們的語(yǔ)義預(yù)測(cè)分支（基于 vanilla PointNet++）不如 ASIS，后者將語(yǔ)義和實(shí)例特征緊密融合，實(shí)現(xiàn)了相互優(yōu)化。我們將把特征融合作為未來(lái)的探索方向。

為了評(píng)估框架各組成部分的有效性，我們?cè)赟3DIS數(shù)據(jù)集最大的區(qū)域5上進(jìn)行了6組消融實(shí)驗(yàn)。
分析結(jié)果表顯示了消融實(shí)驗(yàn)的得分。(1) 邊框得分的這一個(gè)子分支確實(shí)有利于整體實(shí)例分割性能，因?yàn)樗鼉A向于懲罰重復(fù)的邊框預(yù)測(cè)。(2）與歐氏距離和交叉熵得分相比，由于我們的可微分算法 1，sIoU 成本往往更有利于方框關(guān)聯(lián)和監(jiān)督。由于三個(gè)標(biāo)準(zhǔn)各自偏好不同類型的點(diǎn)結(jié)構(gòu)，在特定數(shù)據(jù)集上，三個(gè)標(biāo)準(zhǔn)的簡(jiǎn)單組合不一定總是最優(yōu)的。(3) 如果沒(méi)有方框預(yù)測(cè)的監(jiān)督，性能就會(huì)顯著下降，這主要是因?yàn)榫W(wǎng)絡(luò)無(wú)法推斷出令人滿意的實(shí)例三維邊界，預(yù)測(cè)點(diǎn)掩模的質(zhì)量也會(huì)相應(yīng)下降。(4) 由于實(shí)例和背景點(diǎn)數(shù)不平衡。與焦點(diǎn)損失相比，標(biāo)準(zhǔn)交叉熵?fù)p失對(duì)點(diǎn)掩膜預(yù)測(cè)的效果較差。

(1) 對(duì)于基于點(diǎn)特征聚類的方法，包括 SGPN、ASIS、JSIS3D、3D-BEVIS、MASC，后聚類算法（如 Mean Shift）的計(jì)算復(fù)雜度趨向于 O(T N 2)，其中 T 為實(shí)例數(shù)，N 為輸入點(diǎn)數(shù)。(2) 對(duì)于基于密集提議的方法，包括 GSPN[58]、3D-SIS[15]和 PanopticFusion[33]，通常需要區(qū)域提議網(wǎng)絡(luò)和非最大抑制來(lái)生成和修剪密集提議，計(jì)算成本高昂[33]。(3) PartNet 基線和我們的 3D-BoNet 都具有類似的高效計(jì)算復(fù)雜度 O(N)。根據(jù)經(jīng)驗(yàn)，我們的 3D-BoNet 處理 4k 個(gè)點(diǎn)大約需要 20 毫秒的 GPU 時(shí)間，而 (1)(2) 中的大多數(shù)方法處理相同數(shù)量的點(diǎn)需要 200 毫秒以上的 GPU/CPU 時(shí)間。

要從三維點(diǎn)云中提取特征，傳統(tǒng)方法通常是手工制作特征。近期基于學(xué)習(xí)的方法主要包括基于體素的方案和基于點(diǎn)的方案。語(yǔ)義分割 廣泛運(yùn)用的包括PointNet 和基于卷積核的方法，基本上，這些方法中的大多數(shù)都可以用作我們的骨干網(wǎng)絡(luò)，并與我們的 3D-BoNet 并行訓(xùn)練，以學(xué)習(xí)每個(gè)點(diǎn)的語(yǔ)義。物體檢測(cè)：相比現(xiàn)有方法，我們的方框預(yù)測(cè)分支與它們完全不同。我們的框架通過(guò)一次前向傳遞，直接從緊湊的全局特征回歸三維物體邊界框。實(shí)例分割 相比現(xiàn)有方法，我們的框架直接為明確檢測(cè)到的對(duì)象邊界內(nèi)的每個(gè)實(shí)例預(yù)測(cè)點(diǎn)級(jí)掩碼，而不需要任何后處理步驟。

其框架對(duì)于三維點(diǎn)云的實(shí)例分割來(lái)說(shuō)簡(jiǎn)單、有效且高效。但是，它也有一些局限性，這也是未來(lái)工作的方向。(1) 與其使用三個(gè)標(biāo)準(zhǔn)的非加權(quán)組合，不如設(shè)計(jì)一個(gè)模塊來(lái)自動(dòng)學(xué)習(xí)權(quán)重，以適應(yīng)不同類型的輸入點(diǎn)云。(2) 與其訓(xùn)練一個(gè)單獨(dú)的語(yǔ)義預(yù)測(cè)分支，不如引入更先進(jìn)的特征融合模塊，使語(yǔ)義分割和實(shí)例分割相互促進(jìn)。(3) 我們的框架采用 MLP 設(shè)計(jì)，因此與輸入點(diǎn)的數(shù)量和順序無(wú)關(guān)。我們希望借鑒最近的研究成果，直接在大規(guī)模輸入點(diǎn)云上進(jìn)行訓(xùn)練和測(cè)試，而不是分割成小塊。

https://blog.csdn.net/dtuyg/article/details/105111508?spm=1001.2101.3001.6650.8&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-105111508-blog-107883769.235%5Ev38%5Epc_relevant_anti_vip&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-8-105111508-blog-107883769.235%5Ev38%5Epc_relevant_anti_vip&utm_relevant_index=10https://zhuanlan.zhihu.com/p/95653797https://blog.csdn.net/toCVer/article/details/121938622

標(biāo)簽：

我喜歡()

本文作者的其他文章

只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！的評(píng)論 (共條)

分享到微博請(qǐng)遵守國(guó)家法律

3D視覺(jué)工坊
 發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

基于SSM+Vue+JSP的大學(xué)生校園兼職系統(tǒng)、兼職管理系統(tǒng)，附源碼+數(shù)據(jù)庫(kù)，適合課程設(shè)計(jì)、
【海德教育】河北邯鄲安全員9月27號(hào)網(wǎng)報(bào)
對(duì)德國(guó)工人黨綱領(lǐng)的幾點(diǎn)意見(jiàn) 1.3
圖片分享202309262151
2022年OMC工廠授權(quán)上海航歐中國(guó)區(qū)代理
基于YOLOv8模型的空中視角下車輛檢測(cè)系統(tǒng)（PyTorch+Pyside6+YOLOv8模型）
12.58萬(wàn)元起寶駿云朵靈犀版全國(guó)重磅上市，推動(dòng)高階智駕進(jìn)入普及時(shí)代
《小花仙》手游2023年10月2日游戲更新公告
2021年OLMEC工廠授權(quán)上海航歐中國(guó)區(qū)代理
推文：純愛(ài)推文重生爽文虐渣推薦《替身受覺(jué)醒了》作者：二月竹

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強(qiáng)反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實(shí)做好安保工作
農(nóng)發(fā)行河津市支行組織開(kāi)展憲法主題宣傳活動(dòng)
農(nóng)發(fā)行河津市支行開(kāi)展"挺膺擔(dān)當(dāng)，強(qiáng)國(guó)復(fù)興"主題團(tuán)日活動(dòng)
年終總結(jié)2023，布局2024，挑一個(gè)目標(biāo)置頂一整年！
12月20日維護(hù)結(jié)束，冰雪嘉年華開(kāi)啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時(shí)尚 | 時(shí)尚趨勢(shì)是如何做出來(lái)的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機(jī)身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報(bào)
致命公司多人聯(lián)機(jī)mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報(bào)錯(cuò)/戰(zhàn)網(wǎng)一鍵下載注冊(cè)教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！

本文作者的其他文章

只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！

只要MLP就能實(shí)現(xiàn)的三維實(shí)例分割！的評(píng)論 (共條)