NeurlPS'23開源 | 首個(gè)!開放詞匯3D實(shí)例分割!
作者:泡椒味的口香糖?| 來(lái)源:3D視覺(jué)工坊
在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf和代碼鏈接
添加微信:dddvisiona,備注:3D點(diǎn)云,拉你入群。文末附行業(yè)細(xì)分群
0. 筆者個(gè)人體會(huì)
實(shí)例分割是CV領(lǐng)域很經(jīng)典的任務(wù),應(yīng)用也非常廣泛。但一個(gè)比較頭疼的點(diǎn)是需要預(yù)定義類別,訓(xùn)練和測(cè)試都只能針對(duì)固定的類別。
最近,筆者閱讀了一篇NeurlPS 2023開源的方案OpenMask3D,可以根據(jù)輸入詞匯直接分割模型,關(guān)鍵是輸入的詞匯非常任意,比如"印有花卉圖案的扶手椅",可以很好得跟其他類別區(qū)分開。
今天筆者將為大家分享這項(xiàng)工作,當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎大家一起討論~
1. 效果展示
OpenMask3D聲稱是第一個(gè)開放詞匯3D實(shí)例分割模型,也就是輸入詞匯,分割對(duì)應(yīng)的3D實(shí)例。神奇的是它甚至可以識(shí)別顏色、幾何、材料、位置、臨近關(guān)系等語(yǔ)義信息。比如輸入"腳凳"、"上面有一個(gè)花瓶的邊桌""一個(gè)白色的枕頭"、"放著花瓶的邊桌"、"空垃圾桶",感覺(jué)深度學(xué)習(xí)越來(lái)越偏向人類的思維模式了。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。


3D視覺(jué)工坊
,贊18
代碼已經(jīng)開源了,感興趣的小伙伴可以運(yùn)行代碼測(cè)試一下。下面來(lái)看具體的論文信息。
2. 摘要
我們介紹了開放詞匯3D實(shí)例分割的任務(wù)。當(dāng)前的3D實(shí)例分割方法通常只能從訓(xùn)練數(shù)據(jù)集中標(biāo)注的預(yù)定義的封閉類集中識(shí)別對(duì)象類別。這給現(xiàn)實(shí)世界的應(yīng)用程序帶來(lái)了很大的限制,在現(xiàn)實(shí)世界的應(yīng)用程序中,人們可能需要執(zhí)行由與各種各樣的對(duì)象相關(guān)的新穎、開放的詞匯表查詢所指導(dǎo)的任務(wù)。最近,開放詞匯3D場(chǎng)景理解方法已經(jīng)出現(xiàn),通過(guò)學(xué)習(xí)場(chǎng)景中每個(gè)點(diǎn)的可查詢特征來(lái)解決這個(gè)問(wèn)題。雖然這種表示可以直接用于執(zhí)行語(yǔ)義分割,但是現(xiàn)有的方法不能分離多個(gè)對(duì)象實(shí)例。在這項(xiàng)工作中,我們解決了這一限制,并提出了OpenMask3D,這是一個(gè)開放詞匯三維實(shí)例分割的zero-shot方法。在預(yù)測(cè)的類別不可知的3D實(shí)例掩模的指導(dǎo)下,我們的模型通過(guò)基于剪輯的圖像嵌入的多視圖融合來(lái)聚集每個(gè)掩模的特征。在ScanNet200和Replica上的實(shí)驗(yàn)和消融研究表明,OpenMask3D優(yōu)于其他開放詞匯方法,尤其是在長(zhǎng)尾分布上。定性實(shí)驗(yàn)進(jìn)一步展示了OpenMask3D基于描述幾何圖形、啟示和材料的自由形式查詢來(lái)分割對(duì)象屬性的能力。
3. 算法解析
OpenMask3D聲稱是第一個(gè)開放詞匯的3D實(shí)例分割模型,其Pipeline由四個(gè)步驟組成:
1、輸入帶位姿的RGB-D和重建的點(diǎn)云;
2、對(duì)每個(gè)點(diǎn)云計(jì)算與類無(wú)關(guān)的實(shí)例Mask;
3、使用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型CLIP,對(duì)每個(gè)Mask計(jì)算一個(gè)特征表示。
4、計(jì)算開放詞匯的三維實(shí)例分段表示,查詢概念相關(guān)的對(duì)象。

類別無(wú)關(guān)的實(shí)例分割怎么做的?
這個(gè)方法的關(guān)鍵新穎之處,在于它遵循一個(gè)實(shí)例mask引導(dǎo)的策略,而現(xiàn)有方法是基于點(diǎn)引導(dǎo)的。具體流程是先使用預(yù)訓(xùn)練的3D實(shí)例分割模型進(jìn)行預(yù)測(cè),預(yù)測(cè)得到二進(jìn)制mask以及對(duì)應(yīng)的類別和置信度。OpenMask3D直接拋棄類別和置信度,將二進(jìn)制mask送到下游計(jì)算mask-特征。
每個(gè)實(shí)例的Mask-特征怎么計(jì)算的?
對(duì)每個(gè)Mask,首先選擇在RGB序列中可見性最好的k個(gè)視角。在每個(gè)視角內(nèi),由3D實(shí)例分割投影為2D分割,用SAM(分割一切)優(yōu)化,再經(jīng)過(guò)裁剪獲得僅包括目標(biāo)的多尺度mask圖。之后使用CLIP編碼器來(lái)獲得2D Mask的圖像embedding,這些圖像級(jí)的embedding再根據(jù)k個(gè)視角聚合得到mask-特征的表征。
k個(gè)視角圖像是如何計(jì)算的呢?
這里是計(jì)算的共視得分然后排序,用vis表示投影點(diǎn)云個(gè)數(shù),其中第i個(gè)mask在第j幀圖像的得分為:

直接投影不就得到2D分割了,為啥還要加SAM?
作者認(rèn)為,直接投影的話目標(biāo)輪廓非常不準(zhǔn),而且會(huì)產(chǎn)生很多噪聲,因此使用了之前大火的分割一切模型來(lái)優(yōu)化。這里也不是直接用SAM來(lái)分割,而是使用RANSAC采樣點(diǎn)+SAM分割的方案,得到置信度最高的2D分割區(qū)域。
經(jīng)過(guò)這一步,就將類別無(wú)關(guān)的實(shí)例mask轉(zhuǎn)換為了語(yǔ)言特征,無(wú)論是使用文本查詢還是圖像查詢都非常方便。

4. 實(shí)驗(yàn)結(jié)果
ScanNet200驗(yàn)證集上的定量對(duì)比,對(duì)比了全監(jiān)督方案Mask3D,還有另一個(gè)開放詞匯模型OpenScene。結(jié)果顯示OpenMask3DAP指標(biāo)達(dá)到最優(yōu),尤其是長(zhǎng)尾類別,對(duì)全監(jiān)督方案還是有很大差距,這個(gè)也能理解。

ScanNet200驗(yàn)證集上的消融實(shí)驗(yàn),對(duì)比top k視角選擇(也分析k值多少合適)、2D Mask生成(是否使用SAM)、多尺度裁剪對(duì)性能的影響。

下面這個(gè)實(shí)驗(yàn)很有意思,之前的3D實(shí)例分割是使用預(yù)訓(xùn)練模型生成的,現(xiàn)在作者測(cè)試了直接使用3D實(shí)例分割真值的效果,后面的流程都一樣。結(jié)果顯示,使用真值后,在長(zhǎng)尾類上的精度甚至超越了全監(jiān)督方案Mask3D 9.1% AP。

定性結(jié)果,測(cè)試開放詞匯3D實(shí)例分割性能。借助zero-shot性能,OpenMask3D能夠分割"一個(gè)綠色的座位"、"印有花卉圖案的扶手椅"、"上面沒(méi)有衣服的床"、"壁紙前的沙發(fā)"這樣很特殊的目標(biāo)。而且OpenMask3D還可以識(shí)別顏色、紋理、情境、背景等對(duì)象屬性,這個(gè)非常新奇。

OpenMask3D和OpenScene的定性比對(duì)比,由于OpenMask3D計(jì)算的是embedding和每個(gè)對(duì)象實(shí)例的每個(gè)mask特征向量之間的相似性,所以會(huì)產(chǎn)生更好的分割邊界。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。

5. 總結(jié)
感覺(jué)大模型在場(chǎng)景理解上越來(lái)越偏向人類的思維方式了,以前的實(shí)例分割只能檢測(cè)預(yù)定義的類別,現(xiàn)在居然可以分割"印有花卉圖案的扶手椅"這樣的實(shí)例,不得不感嘆AI的發(fā)展速度。OpenMask3D聲稱是第一個(gè)開放詞匯的3D實(shí)例分割模型,給定任意文本就可以查詢3D目標(biāo),甚至可以識(shí)別幾何信息、材料、顏色、位置關(guān)系這種語(yǔ)義信息,關(guān)鍵還是zero-shot的。
3D視覺(jué)細(xì)分群成立啦!
目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向。
細(xì)分群包括:
[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;
[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;
[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。
[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。
[無(wú)人機(jī)方向]四旋翼建模、無(wú)人機(jī)飛控等。
除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。
大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群
NeurlPS'23開源 | 首個(gè)!開放詞匯3D實(shí)例分割!的評(píng)論 (共 條)
