最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CVPR2023 | 最新 3D 表征自監(jiān)督學(xué)習(xí)+對(duì)比學(xué)習(xí):FAC

2023-05-17 10:02 作者:3D視覺(jué)工坊  | 我要投稿

  • 論文題目:《FAC: 3D Representation Learning via Foreground Aware Feature Contrast

  • 作者機(jī)構(gòu):Nanyang Technological University(南洋理工大學(xué))

  • 項(xiàng)目主頁(yè):

  • https://github.com/KangchengLiu/FAC_Foreground_Aware_Contrast (基于 PyTorch

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái)回復(fù)「原論文」,可獲取對(duì)應(yīng)論文pdf文件。

本文作者:HT | 來(lái)源:微信公眾號(hào)「3D視覺(jué)工坊」

對(duì)比學(xué)習(xí),最近在 3D 場(chǎng)景理解任務(wù)中展示了無(wú)監(jiān)督預(yù)訓(xùn)練的巨大潛力。該作者提出了一個(gè)通用的前景感知特征對(duì)比 (FAC) 框架, 一種用于大規(guī)模 3D 預(yù)訓(xùn)練的前景感知特征對(duì)比框架。FAC 由兩個(gè)新穎的對(duì)比設(shè)計(jì)組成,以構(gòu)建更有效和信息豐富的對(duì)比對(duì)。構(gòu)建區(qū)域級(jí)對(duì)比,以增強(qiáng)學(xué)習(xí)表征中的局部連貫性和更好的前景意識(shí)。設(shè)計(jì)了一個(gè)孿生對(duì)應(yīng)框架,可以定位匹配良好的鍵,以自適應(yīng)增強(qiáng)視圖內(nèi)和視圖間特征相關(guān)性,并增強(qiáng)前景-背景區(qū)分。

對(duì)多個(gè)公共基準(zhǔn)的廣泛實(shí)驗(yàn)表明,FAC 在各種下游 3D 語(yǔ)義分割和對(duì)象檢測(cè)任務(wù)中實(shí)現(xiàn)了卓越的知識(shí)轉(zhuǎn)移和數(shù)據(jù)效率。

對(duì)比學(xué)習(xí)最近在 3D 場(chǎng)景理解任務(wù)中展示了無(wú)監(jiān)督預(yù)訓(xùn)練的巨大潛力。然而,大多數(shù)現(xiàn)有工作在建立對(duì)比度時(shí)隨機(jī)選擇點(diǎn)特征作為錨點(diǎn),導(dǎo)致明顯偏向通常在 3D 場(chǎng)景中占主導(dǎo)地位的背景點(diǎn)。此外,對(duì)象意識(shí)和前景到背景的辨別被忽略,使對(duì)比學(xué)習(xí)效果不佳。

為了解決這些問(wèn)題,我們提出了一個(gè)通用的前景感知特征對(duì)比 (FAC) 框架,以在預(yù)訓(xùn)練中學(xué)習(xí)更有效的點(diǎn)云表示。FAC 由兩個(gè)新穎的對(duì)比設(shè)計(jì)組成,以構(gòu)建更有效和信息豐富的對(duì)比對(duì)。

  • 第一個(gè)是在相同的前景段內(nèi)構(gòu)建正對(duì),其中點(diǎn)往往具有相同的語(yǔ)義。

  • 第二個(gè)是我們防止 3D 片段/對(duì)象之間的過(guò)度判別,并通過(guò) Siamese 對(duì)應(yīng)網(wǎng)絡(luò)中的自適應(yīng)特征學(xué)習(xí)鼓勵(lì)片段級(jí)別的前景到背景的區(qū)別,該網(wǎng)絡(luò)有效地自適應(yīng)地學(xué)習(xí)點(diǎn)云視圖內(nèi)和點(diǎn)云視圖之間的特征相關(guān)性。

使用點(diǎn)激活圖進(jìn)行可視化表明,我們的對(duì)比對(duì)在預(yù)訓(xùn)練期間捕獲了前景區(qū)域之間的清晰對(duì)應(yīng)關(guān)系。定量實(shí)驗(yàn)還表明,FAC 在各種下游 3D 語(yǔ)義分割和對(duì)象檢測(cè)任務(wù)中實(shí)現(xiàn)了卓越的知識(shí)轉(zhuǎn)移和數(shù)據(jù)效率。


圖 1 構(gòu)建信息對(duì)比對(duì)在對(duì)比學(xué)習(xí)中很重要:傳統(tǒng)對(duì)比需要嚴(yán)格的點(diǎn)級(jí)對(duì)應(yīng)。

所提出的 FAC 方法同時(shí)考慮了前景分組 fore-ground 和前景-背景 foreground-background 區(qū)分線索,從而形成更好的對(duì)比對(duì)以學(xué)習(xí)更多信息和辨別力的 3D 特征表示。

3D 場(chǎng)景理解對(duì)于許多任務(wù)至關(guān)重要,例如機(jī)器人抓取和自主導(dǎo)航。

然而,大多數(shù)現(xiàn)有工作都是全監(jiān)督的,這在很大程度上依賴于通常很難收集的大規(guī)模帶注釋的 3D 數(shù)據(jù)。自監(jiān)督學(xué)習(xí) (SSL) 允許從大規(guī)模未注釋的數(shù)據(jù)中學(xué)習(xí)豐富且有意義的表示,最近顯示出減輕標(biāo)注約束的巨大潛力。它通過(guò)來(lái)自未標(biāo)注數(shù)據(jù)的輔助監(jiān)督信號(hào)進(jìn)行學(xué)習(xí),這些數(shù)據(jù)通常更容易收集。特別是,對(duì)比學(xué)習(xí)作為一種流行的 SSL 方法在各種視覺(jué) 2D 識(shí)別任務(wù)中取得了巨大成功。

在語(yǔ)義分割、實(shí)例分割和對(duì)象檢測(cè)等各種下游任務(wù)中,還探索了用于點(diǎn)云表示學(xué)習(xí)的對(duì)比學(xué)習(xí)。然而,許多成功的 2D 對(duì)比學(xué)習(xí)方法對(duì) 3D 點(diǎn)云效果不佳,這主要是因?yàn)辄c(diǎn)云通常捕獲由許多不規(guī)則分布的前景對(duì)象的復(fù)雜點(diǎn)以及大的背景點(diǎn)的數(shù)量。一些研究試圖設(shè)計(jì)特定的對(duì)比度來(lái)迎合點(diǎn)云的幾何形狀和分布。

  • 例如,[14, 55] 使用兩個(gè)增強(qiáng)場(chǎng)景的最大池化特征來(lái)形成對(duì)比,但它們往往過(guò)分強(qiáng)調(diào)整體信息而忽略了前景對(duì)象的信息特征。

  • [12,19,51] 直接使用配準(zhǔn)的點(diǎn)/體素特征作為正對(duì),并對(duì)待所有未配準(zhǔn)為否定對(duì),導(dǎo)致語(yǔ)義上有許多錯(cuò)誤的對(duì)比對(duì)。

我們建議利用場(chǎng)景前景 foreground 證據(jù)和前景-背景 foreground-background 區(qū)別來(lái)構(gòu)建更多的前景分組意識(shí)和前景-背景區(qū)別意識(shí)對(duì)比,以學(xué)習(xí)有區(qū)別的 3D 表示。

  • 對(duì)于前景分組感知對(duì)比,我們首先獲得與過(guò)度分割的區(qū)域?qū)?yīng)關(guān)系,然后在視圖中與同一區(qū)域的點(diǎn)建立正對(duì),從而產(chǎn)生語(yǔ)義連貫的表示。此外,我們?cè)O(shè)計(jì)了一種采樣策略,在建立對(duì)比的同時(shí)采樣更多的前景點(diǎn)特征,因?yàn)楸尘包c(diǎn)特征通常信息量較少,并且具有重復(fù)或同質(zhì)的模式。

  • 對(duì)于前景-背景對(duì)比,我們首先增強(qiáng)前景-背景點(diǎn)特征區(qū)分,然后設(shè)計(jì)一個(gè) Siamese 對(duì)應(yīng)網(wǎng)絡(luò),通過(guò)自適應(yīng)學(xué)習(xí)前景和背景視圖內(nèi),及跨視圖的特征對(duì)之間的親和力來(lái)選擇相關(guān)特征,以避免部分/對(duì)象之間的過(guò)度判別。

可視化顯示,前景增強(qiáng)對(duì)比度引導(dǎo)學(xué)習(xí)朝向前景區(qū)域,而前景-背景對(duì)比度以互補(bǔ)的方式有效地增強(qiáng)了前景和背景特征之間的區(qū)別,兩者合作學(xué)習(xí)更多的信息和判別表示,如圖 1 所示。

這項(xiàng)工作的貢獻(xiàn)可以概括為三個(gè)方面。

  • 第一,我們提出了 FAC,一種用于大規(guī)模 3D 預(yù)訓(xùn)練的前景感知特征對(duì)比框架。

  • 第二,我們構(gòu)建區(qū)域級(jí)對(duì)比,以增強(qiáng)學(xué)習(xí)表征中的局部連貫性和更好的前景意識(shí)。

  • 第三,最重要的是,我們?cè)O(shè)計(jì)了一個(gè)孿生對(duì)應(yīng)框架,可以定位匹配良好的鍵,以自適應(yīng)增強(qiáng)視圖內(nèi)和視圖間特征相關(guān)性,并增強(qiáng)前景-背景區(qū)分。

最后,對(duì)多個(gè)公共基準(zhǔn)的廣泛實(shí)驗(yàn)表明,與最先進(jìn)的技術(shù)相比,F(xiàn)AC 實(shí)現(xiàn)了卓越的自監(jiān)督學(xué)習(xí)。

  • FAC 兼容流行的 3D 分割主干網(wǎng)絡(luò) SparseConv ?和 3D 檢測(cè)主干網(wǎng)絡(luò),包括 PV-RCNN、PointPillars PointRCNN。

  • 它也適用于室內(nèi)密集 RGB-D 和室外稀疏 LiDAR 點(diǎn)云。

3D 場(chǎng)景理解旨在理解 3D 深度或點(diǎn)云數(shù)據(jù),它涉及多個(gè)下游任務(wù),例如 3D 語(yǔ)義分割 ,3D 對(duì)象檢測(cè)等。在 3D 深度學(xué)習(xí)策略的進(jìn)步和不斷增加的大規(guī)模 3D 數(shù)據(jù)集的推動(dòng)下,它最近取得了令人矚目的進(jìn)展。已經(jīng)提出了不同的方法來(lái)解決 3D 場(chǎng)景理解中的各種挑戰(zhàn)。

  • 例如,基于點(diǎn)的方法可以很好地學(xué)習(xí)點(diǎn)云,但在面對(duì)大規(guī)模點(diǎn)云數(shù)據(jù)集時(shí)往往會(huì)受到高計(jì)算成本的困擾。

  • 基于體素的方法具有計(jì)算和內(nèi)存效率,但通常會(huì)因體素量化而丟失信息。

此外,基于體素的 SparseConv 網(wǎng)絡(luò)在室內(nèi)場(chǎng)景分割中表現(xiàn)出非常有前途的性能,而結(jié)合點(diǎn)和體素通常在基于 LiDAR 的室外檢測(cè)中具有明顯的優(yōu)勢(shì)。我們提出的 SSL 框架在室內(nèi)/室外 3D 感知任務(wù)中顯示出一致的優(yōu)勢(shì),并且它也是 backbone 不可知論的。

對(duì)比預(yù)訓(xùn)練

近年來(lái),在學(xué)習(xí)無(wú)監(jiān)督表示的對(duì)比學(xué)習(xí)方面取得了顯著的成功。

  • 例如,對(duì)比場(chǎng)景上下文 (CSC) 使用場(chǎng)景上下文描述符探索對(duì)比預(yù)訓(xùn)練。然而,它過(guò)于關(guān)注優(yōu)化低級(jí)配準(zhǔn)點(diǎn)特征,而忽視了區(qū)域同質(zhì)語(yǔ)義模式和高級(jí)特征相關(guān)性。

  • 一些工作使用最大池化場(chǎng)景級(jí)信息進(jìn)行對(duì)比,但它往往會(huì)犧牲局部幾何細(xì)節(jié)和對(duì)象級(jí)語(yǔ)義相關(guān)性,從而導(dǎo)致語(yǔ)義分割等密集預(yù)測(cè)任務(wù)的次優(yōu)表示。

不同的是,我們明確考慮區(qū)域前景意識(shí)以及前景和背景區(qū)域之間的特征相關(guān)性和區(qū)別,這會(huì)導(dǎo)致 3D 下游任務(wù)中提供更多信息和判別性表示。

此外,許多方法結(jié)合了輔助時(shí)間或空間 3D 信息,用于與增強(qiáng)的未標(biāo)記數(shù)據(jù)集和合成 CAD 模型進(jìn)行自監(jiān)督對(duì)比:

  • 例如通過(guò)將 3D 場(chǎng)景視為 RGB-D 視頻序列,從動(dòng)態(tài) 3D 場(chǎng)景中引入學(xué)習(xí)合成 3D。

  • Randomrooms 通過(guò)將合成 CAD 模型隨機(jī)放入常規(guī)合成 3D 場(chǎng)景中,來(lái)合成人造 3D 場(chǎng)景。

  • 一些作品利用合成 3D 形狀的時(shí)空運(yùn)動(dòng)先驗(yàn),來(lái)學(xué)習(xí)更好的 3D 表示。

然而,大多數(shù)這些先前的研究都依賴于輔助時(shí)空信息的額外監(jiān)督。不同的是,我們?cè)跊](méi)有額外合成 3D 模型的情況下對(duì)原始 3D 掃描進(jìn)行自監(jiān)督學(xué)習(xí)。

基于 mask 生成的預(yù)訓(xùn)練

隨著視覺(jué)轉(zhuǎn)換器的成功,mask 圖像建模已證明其在各種圖像理解任務(wù)中的有效性 。最近,基于掩碼的預(yù)訓(xùn)練也被探索用于理解小型 3D 形狀。

然而,基于掩碼的設(shè)計(jì)通常涉及一個(gè) transformer 主干,它在處理大型 3D 場(chǎng)景時(shí)對(duì)計(jì)算和內(nèi)存都有很高的要求。

我們專(zhuān)注于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練,它與基于點(diǎn)和基于體素的 backbone 網(wǎng)絡(luò)兼容。

圖 2. 我們提議的 FAC 的框架。

  1. FAC 將兩個(gè)增強(qiáng)的 3D 點(diǎn)云視圖作為輸入,首先提取主干特征 和 ?以與 進(jìn)行前景感知對(duì)比。

  2. 然后將主干特征重塑為正則化表示 和 ,以找到兩個(gè)視圖之間的對(duì)應(yīng)關(guān)系以進(jìn)行特征匹配。具體來(lái)說(shuō),我們采用投影頭 將 和 傳輸?shù)教卣鲌D 和 ,以自適應(yīng)地學(xué)習(xí)它們的相關(guān)性并產(chǎn)生增強(qiáng)的表示 和 。

  3. 最后, 和 被重塑回 和 ,其中匹配的特征對(duì)通過(guò)特征對(duì)比度損失 ? 得到增強(qiáng)。

因此,FAC 在視圖內(nèi)和視圖之間利用互補(bǔ)的前景意識(shí),以及前景-背景區(qū)別來(lái)進(jìn)行更多信息表示學(xué)習(xí)。

如圖 2 所示,我們提出的 FAC 框架由四個(gè)部分組成:數(shù)據(jù)增強(qiáng)骨干網(wǎng)絡(luò)特征提取、特征匹配具有匹配對(duì)比對(duì)的前景-背景感知特征對(duì)比優(yōu)化

在下文中,我們首先重新審視 3D 點(diǎn)云的典型對(duì)比學(xué)習(xí)方法,并討論它們可能導(dǎo)致信息較少的表示的局限性。

然后,我們從三個(gè)主要方面闡述了我們提出的 FAC

  1. 區(qū)域分組對(duì)比,利用過(guò)度分割的局部幾何同質(zhì)性,來(lái)鼓勵(lì)局部區(qū)域的語(yǔ)義連貫性;

  2. 一個(gè)由連體網(wǎng)絡(luò)和特征對(duì)比損失組成的對(duì)應(yīng)框架,用于捕獲所學(xué)特征表示之間的相關(guān)性;

  3. 利用更好的對(duì)比對(duì),進(jìn)行更具辨別力的自監(jiān)督學(xué)習(xí)的優(yōu)化損失。

基于對(duì)比學(xué)習(xí)的 3D SSL 的關(guān)鍵是在兩個(gè)增強(qiáng)視圖之間構(gòu)建有意義的對(duì)比對(duì)。正對(duì)已在 PointContrast (PCon) 中的點(diǎn)級(jí)別或 DepthContrast (DCon) 中的場(chǎng)景級(jí)別中構(gòu)建。

具體來(lái)說(shuō),給定 3D 局部點(diǎn)/深度掃描的增強(qiáng)視圖,應(yīng)用對(duì)比損失來(lái)最大化正對(duì)的相似性和負(fù)對(duì)之間的區(qū)別。在大多數(shù)情況下,可以應(yīng)用 InfoNCE loss來(lái)進(jìn)行對(duì)比:

這里:

  • 和 是兩個(gè)增強(qiáng)視圖的特征向量,用于對(duì)比。

  • 是匹配正對(duì)的索引集。 是正對(duì),其特征嵌入被強(qiáng)制相似;

  • 而 是負(fù)對(duì),其特征嵌入被鼓勵(lì)相似與眾不同。

PCon 直接采用配準(zhǔn)點(diǎn)級(jí)特征對(duì),而 DCon 使用最大池化場(chǎng)景級(jí)特征對(duì)進(jìn)行對(duì)比。盡管它們?cè)?3D 下游任務(wù)中表現(xiàn)不錯(cuò),但先前研究中構(gòu)建的對(duì)比對(duì)往往是次優(yōu)的。如圖 1 所示:

  1. 點(diǎn)級(jí)對(duì)比度往往過(guò)分強(qiáng)調(diào)細(xì)粒度的低級(jí)細(xì)節(jié),而忽略了通常提供對(duì)象級(jí)信息的區(qū)域級(jí)幾何連貫性。

  2. 場(chǎng)景級(jí)對(duì)比聚合了整個(gè)場(chǎng)景的特征以進(jìn)行對(duì)比,這可能會(huì)丟失對(duì)象級(jí)空間上下文和獨(dú)特的特征,從而導(dǎo)致下游任務(wù)的信息表示較少。

因此,我們推測(cè)區(qū)域級(jí)對(duì)應(yīng)更適合形成對(duì)比度,并且如圖 1 所示,這已經(jīng)通過(guò)實(shí)驗(yàn)驗(yàn)證,更多細(xì)節(jié)將在隨后的小節(jié)中詳細(xì)說(shuō)明。

Region-wise 特征表示已被證明在考慮下游任務(wù)(如語(yǔ)義分割和檢測(cè))的上下文時(shí)非常有用。在我們提出的幾何區(qū)域級(jí)前景感知對(duì)比中,我們通過(guò)利用現(xiàn)成的點(diǎn)云過(guò)分割技術(shù)來(lái)獲得區(qū)域。采用過(guò)度分割(over-segmentation)的動(dòng)機(jī)是其在三個(gè)主要方面的優(yōu)點(diǎn)。

  1. 首先,它可以以完全無(wú)監(jiān)督的方式工作,不需要任何帶標(biāo)注的數(shù)據(jù)。

  2. 其次,我們提出的區(qū)域采樣(稍后描述)允許我們以無(wú)監(jiān)督的方式過(guò)濾掉天花板、墻壁和地面等背景區(qū)域,其中背景區(qū)域通常由具有大量點(diǎn)的幾何均勻圖案表示。也可以過(guò)濾掉點(diǎn)數(shù)非常有限的區(qū)域,這些區(qū)域在幾何和語(yǔ)義上都是嘈雜的。

  3. 第三,過(guò)分割提供了具有高語(yǔ)義相似性的幾何連貫區(qū)域,而不同的遠(yuǎn)距離區(qū)域在采樣后往往在語(yǔ)義上是不同的,這有效地促進(jìn)了判別特征學(xué)習(xí)。

具體來(lái)說(shuō),過(guò)分割將原始點(diǎn)云場(chǎng)景劃分為 類(lèi)不可知區(qū)域 , 對(duì)于任何 來(lái)說(shuō):。

我們的實(shí)證實(shí)驗(yàn)表明,我們的框架 FAC 在沒(méi)有微調(diào)的情況下,可以有效地與主流的過(guò)分割方法一起工作。

平衡學(xué)習(xí)的區(qū)域抽樣

我們?cè)O(shè)計(jì)了一種簡(jiǎn)單但有效的區(qū)域采樣技術(shù),以從通過(guò)過(guò)度分割導(dǎo)出的幾何均勻區(qū)域獲得有意義的前景。具體來(lái)說(shuō):

  1. 我們首先統(tǒng)計(jì)每個(gè)區(qū)域的點(diǎn)數(shù),并根據(jù)區(qū)域包含的點(diǎn)數(shù)對(duì)區(qū)域進(jìn)行排序

  2. 然后我們將具有中位數(shù)點(diǎn)數(shù)的區(qū)域識(shí)別為 。

  3. 接下來(lái),我們選擇點(diǎn)數(shù)與 最接近的 個(gè)區(qū)域來(lái)形成對(duì)比對(duì)。

本地區(qū)域一致性的對(duì)比

與上述 PCon ?和 DCon 不同,我們直接利用區(qū)域同質(zhì)性來(lái)獲得對(duì)比度對(duì)

  • 具體來(lái)說(shuō),以區(qū)域內(nèi)的平均點(diǎn)特征為錨點(diǎn),我們將同一區(qū)域內(nèi)的選定特征視為正鍵,將不同區(qū)域內(nèi)的選定特征視為負(fù)鍵

受益于區(qū)域采樣策略,我們可以專(zhuān)注于前景以更好地表示學(xué)習(xí)。將區(qū)域內(nèi)的點(diǎn)數(shù)表示為 ,將主干特征表示為 ,我們將它們的點(diǎn)特征 聚合以產(chǎn)生區(qū)域內(nèi)的平均區(qū)域特征 作為錨點(diǎn),以增強(qiáng)魯棒性:

將 作為錨點(diǎn),我們提出了一種前景感知幾何對(duì)比度損失 ,將點(diǎn)特征拉到局部幾何區(qū)域中對(duì)應(yīng)的正特征,并將其與不同分離區(qū)域的負(fù)點(diǎn)特征推開(kāi):

這里, 和 分別表示具有 的正樣本和負(fù)樣本。

我們將每個(gè)區(qū)域錨點(diǎn)的正負(fù)點(diǎn)特征對(duì)的數(shù)量均等地設(shè)置為 。請(qǐng)注意,我們提出的前景對(duì)比度是 PCon 的通用版本,前景增強(qiáng),如果所有區(qū)域都縮小到一個(gè)點(diǎn),它會(huì)返回到 PCon。受益于區(qū)域幾何一致性和平衡的前景采樣,僅前景感知對(duì)比度就在經(jīng)驗(yàn)實(shí)驗(yàn)結(jié)果的數(shù)據(jù)效率方面優(yōu)于最先進(jìn)的 CSC 。

如圖 2 所示,我們提出了一個(gè)連體對(duì)應(yīng)網(wǎng)絡(luò) (SCN) ,來(lái)明確識(shí)別視圖內(nèi)和視圖之間的特征對(duì)應(yīng)關(guān)系,并引入特征對(duì)比度損失以自適應(yīng)地增強(qiáng)它們的相關(guān)性。 SCN 僅在預(yù)訓(xùn)練階段用于提高表示質(zhì)量。預(yù)訓(xùn)練后,只有骨干網(wǎng)絡(luò)針對(duì)下游任務(wù)進(jìn)行微調(diào)。

用于自適應(yīng)相關(guān)挖掘的孿生通信網(wǎng)絡(luò)。給定具有 個(gè)點(diǎn)的輸入3D場(chǎng)景

  • FAC首先將其轉(zhuǎn)換為兩個(gè)增強(qiáng)視圖

  • 并通過(guò)將兩個(gè)視圖輸入骨干網(wǎng)絡(luò) 及其動(dòng)量來(lái)獲得骨干特征 和 分別更新(通過(guò)指數(shù)移動(dòng)平均)( 是特征通道數(shù))。

  • 為了公平比較,我們采用與現(xiàn)有工作相同的增強(qiáng)方案。

此外,我們將主干點(diǎn)級(jí)特征重塑為特征圖 和 ,以獲得正則化點(diǎn)云表示并降低計(jì)算成本。

然后,我們將投影儀 分別應(yīng)用于 和 ,以獲得與 和 相同維度的特征圖 和 。我們采用兩個(gè)簡(jiǎn)單的點(diǎn) MLP,中間有一個(gè) ReLU 層來(lái)形成投影儀 。特征圖 和 作為可學(xué)習(xí)的分?jǐn)?shù),自適應(yīng)地增強(qiáng)兩個(gè)視圖內(nèi)和跨兩個(gè)視圖的重要和相關(guān)特征。

最后,我們?cè)? and 之間進(jìn)行逐元素乘積,以獲得增強(qiáng)的特征 和 進(jìn)一步轉(zhuǎn)化回逐點(diǎn)特征 和 進(jìn)行對(duì)應(yīng)挖掘。所提出的 SCN 增強(qiáng)了全局特征級(jí)判別表示學(xué)習(xí),從而能夠與匹配的特征進(jìn)行后續(xù)對(duì)比。

與 Matched Feature 和 ForegroundBackground Distinction 對(duì)比。

將獲得的采樣前景-背景對(duì)標(biāo)記為負(fù),我們進(jìn)行特征匹配以選擇最相關(guān)的正對(duì)比對(duì)。如圖 2 所示,我們?cè)u(píng)估 和 之間的相似性并選擇最相關(guān)的對(duì)進(jìn)行對(duì)比。區(qū)域錨點(diǎn)的選擇方式與 3.2 小節(jié)相同。

具體地,我們首先引入一個(gè)區(qū)域內(nèi)點(diǎn)特征的平均特征 ?作為形成對(duì)比時(shí)的錨點(diǎn),給出 ,基于點(diǎn)的觀察在同一局部區(qū)域中往往具有相同的語(yǔ)義。

對(duì)于 中的第 個(gè)點(diǎn)級(jí)特征 ,我們計(jì)算其與區(qū)域特征 的相似度

這里 表示向量 和 之間的余弦相似度。我們從 中采樣前 個(gè)元素作為正鍵,同時(shí)從前景和背景點(diǎn)特征中提取區(qū)域特征 。通過(guò)將 操作重新表述為最優(yōu)傳輸問(wèn)題,很容易使其變得可微分。

此外,我們同樣選擇其他 個(gè)前景-背景對(duì)作為負(fù)對(duì)

這里, 表示在另一個(gè)視圖中從 中識(shí)別出的與 最相似的 個(gè)元素的正鍵。 分別表示一批中采樣的其他 個(gè)負(fù)點(diǎn)特征。因此,通過(guò)學(xué)習(xí) 3D 場(chǎng)景的點(diǎn)級(jí)特征圖 和 ,可以自適應(yīng)地增強(qiáng)相關(guān)的交叉視點(diǎn)特征。

我們的特征對(duì)比通過(guò)明確地找到前景錨點(diǎn)的區(qū)域到點(diǎn)最相關(guān)的鍵作為查詢來(lái)增強(qiáng)視圖內(nèi)和視圖之間特征級(jí)別的相關(guān)性。通過(guò)學(xué)習(xí)特征圖,自適應(yīng)地強(qiáng)調(diào)相關(guān)前景/背景點(diǎn)的特征,同時(shí)抑制前景-背景特征。 FAC 在點(diǎn)激活圖中定性有效,在下游遷移學(xué)習(xí)和數(shù)據(jù)效率方面定性有效。

同時(shí)考慮局部區(qū)域級(jí)前景幾何對(duì)應(yīng)視圖內(nèi)與視圖間的全局前景-背景區(qū)分FAC框架 的總體目標(biāo)函數(shù)如下:

這里 是平衡兩個(gè)損失項(xiàng)的權(quán)重。我們根據(jù)經(jīng)驗(yàn)設(shè)置 而不進(jìn)行調(diào)整。


圖 3. 室內(nèi) ScanNet(第 1-4 行)和室外 KITTI (第 5-8 行)投影點(diǎn)相關(guān)圖關(guān)于黃色十字突出顯示的查詢點(diǎn)的可視化。

  • 每個(gè)示例中的視圖 1 和視圖 2 ,分別顯示視圖內(nèi)和交叉視圖相關(guān)性。

  • 我們將 FAC 與最先進(jìn)的 CSC 在分割(第 1-4 行)和 ProCo ?在檢測(cè)(第 5-8 行)方面進(jìn)行比較。

  • FAC 清楚地捕獲了視圖內(nèi)和視圖之間更好的特征相關(guān)性(第 3-4 列)。

數(shù)據(jù)高效學(xué)習(xí)和知識(shí)轉(zhuǎn)移能力已被廣泛用于評(píng)估自監(jiān)督預(yù)訓(xùn)練和學(xué)習(xí)的無(wú)監(jiān)督表示[12]。在下面的實(shí)驗(yàn)中,我們首先在大規(guī)模未標(biāo)記數(shù)據(jù)上預(yù)訓(xùn)練模型,然后對(duì)其進(jìn)行微調(diào)使用下游任務(wù)的少量標(biāo)記數(shù)據(jù)來(lái)測(cè)試其數(shù)據(jù)效率。

我們還將預(yù)訓(xùn)練模型轉(zhuǎn)移到其他數(shù)據(jù)集,以評(píng)估它們的知識(shí)轉(zhuǎn)移能力。這兩個(gè)方面通過(guò)多個(gè)下游任務(wù)進(jìn)行評(píng)估,包括 3D 語(yǔ)義分割、實(shí)例分割和對(duì)象檢測(cè)。附錄中提供了所涉及數(shù)據(jù)集的詳細(xì)信息。

3D 對(duì)象檢測(cè)。

對(duì)象檢測(cè)實(shí)驗(yàn)涉及兩個(gè)主干,包括 VoxelNetPointPillars。按照 ProCo,我們?cè)?Waymo 上預(yù)訓(xùn)練模型并在 KITTIWaymo 上對(duì)其進(jìn)行微調(diào)。繼 ProCoCSC 之后,我們通過(guò)隨機(jī)旋轉(zhuǎn)、縮放和翻轉(zhuǎn)以及隨機(jī)點(diǎn)丟失來(lái)增強(qiáng)數(shù)據(jù)以進(jìn)行公平比較。

我們?cè)?ProCo 之后將 和 中的超參數(shù) 設(shè)置為 ,,并且在所有實(shí)驗(yàn)中正/負(fù)對(duì)的總數(shù)為 ,包括檢測(cè)和分割而不調(diào)整。

  • WaymoKITTI [8] 的室外目標(biāo)檢測(cè)中,我們使用 Adam 優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并遵循 ProCo 的 epoch和批量大小設(shè)置,以便與現(xiàn)有作品進(jìn)行公平比較。

  • ScanNet 上的室內(nèi)物體檢測(cè)中,我們遵循 CSC 采用 SparseConv 作為骨干網(wǎng)絡(luò)和 VoteNet 作為 3D 檢測(cè)器,并遵循其訓(xùn)練設(shè)置,場(chǎng)景重建數(shù)量有限。

3D 語(yǔ)義分割。

對(duì)于 3D 分割,我們?cè)谟邢薜闹亟ㄔO(shè)置中嚴(yán)格遵循 CSC。具體來(lái)說(shuō),我們?cè)?ScanNet 上進(jìn)行預(yù)訓(xùn)練,并對(duì)室內(nèi) S3DIS、ScanNet 和室外 SemanticKITTI (SK)上的預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

我們?cè)陬A(yù)訓(xùn)練中使用 SGD,學(xué)習(xí)率為 ,批量大小為 ,步長(zhǎng)為 ,以確保與其他 3D 預(yù)訓(xùn)練方法(包括 CSC PCon)進(jìn)行公平比較。此外,我們?cè)?SK 上測(cè)試了 ScanNet 預(yù)訓(xùn)練模型,以評(píng)估其對(duì)室外稀疏 LiDAR 點(diǎn)云的學(xué)習(xí)能力。

唯一的區(qū)別是我們對(duì) SK 的模型進(jìn)行了 次微調(diào),而對(duì)室內(nèi)數(shù)據(jù)集進(jìn)行了 次微調(diào)。使用 SK 進(jìn)行更長(zhǎng)時(shí)間的微調(diào)是因?yàn)閷⒃谑覂?nèi)數(shù)據(jù)上訓(xùn)練的模型轉(zhuǎn)移到室外數(shù)據(jù)需要更多時(shí)間來(lái)優(yōu)化和收斂。

表1

表 1. KITTI 上的數(shù)據(jù)高效 3D 對(duì)象檢測(cè)。

我們?cè)?Waymo 上預(yù)訓(xùn)練了 PointRCNNPV-RCNN 的骨干網(wǎng)絡(luò),并在微調(diào)中以 和 的注釋比例轉(zhuǎn)移到 KITTI。對(duì)于兩種設(shè)置,F(xiàn)AC 始終優(yōu)于最先進(jìn)的 ProCo。 “From Scratch”表示從頭開(kāi)始訓(xùn)練的模型。所有實(shí)驗(yàn)結(jié)果均取三個(gè)運(yùn)行的平均值。

3D 對(duì)象檢測(cè)。

自監(jiān)督預(yù)訓(xùn)練的一個(gè)主要目標(biāo)是使用更少的標(biāo)記數(shù)據(jù)進(jìn)行更高效的數(shù)據(jù)遷移學(xué)習(xí)以進(jìn)行微調(diào)。我們?cè)u(píng)估了從 WaymoKITTI 的數(shù)據(jù)高效傳輸,如表 1 和圖 4 所示

我們可以看到 FAC 始終優(yōu)于最新技術(shù)。通過(guò)使用 的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào),F(xiàn)AC 通過(guò)使用 的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了與從頭開(kāi)始訓(xùn)練相當(dāng)?shù)男阅?,展示了它在減輕 3D 對(duì)象檢測(cè)中對(duì)大量標(biāo)記工作的依賴方面的潛力。如圖 3 所示,F(xiàn)AC 對(duì)車(chē)輛和行人等視圖間和視圖內(nèi)對(duì)象具有明顯更大的激活,表明其學(xué)習(xí)到的信息和判別表示。

我們還研究了數(shù)據(jù)高效學(xué)習(xí),同時(shí)在具有 1% 標(biāo)簽的標(biāo)簽極其稀缺的情況下執(zhí)行域內(nèi)傳輸?shù)?Waymo 驗(yàn)證集。如表 2 所示,F(xiàn)AC 明顯且一致地優(yōu)于 ProCo,證明了其在減少數(shù)據(jù)注釋方面的潛力。此外,我們?cè)?ScanNet 上進(jìn)行了室內(nèi)檢測(cè)實(shí)驗(yàn)。

如表 3 所示,與 From Scratch 相比,F(xiàn)AC 實(shí)現(xiàn)了出色的轉(zhuǎn)移,并將 AP 顯著提高了 ,標(biāo)簽為 10%。此外,當(dāng)應(yīng)用較少的注釋數(shù)據(jù)時(shí),改進(jìn)會(huì)更大。卓越的對(duì)象檢測(cè)性能主要?dú)w功于我們利用信息前景區(qū)域形成對(duì)比度的前景感知對(duì)比度,以及增強(qiáng)整體對(duì)象級(jí)表示的自適應(yīng)特征對(duì)比度。

表2

表 2. Waymo 上具有 1% 和 10% 標(biāo)記訓(xùn)練數(shù)據(jù)的數(shù)據(jù)高效 3D 對(duì)象檢測(cè)實(shí)驗(yàn)結(jié)果。與最先進(jìn)的 ProCo 相比,表 1 中針對(duì) FAC 的 KITTI 獲得了類(lèi)似的實(shí)驗(yàn)結(jié)果。

表3

表 3. 以 VoteNet 作為主干網(wǎng)絡(luò)的 ScanNet 上,有限數(shù)量的場(chǎng)景重建的數(shù)據(jù)高效 3D 對(duì)象檢測(cè)平均精度 (AP%) 結(jié)果。

3D 語(yǔ)義分割。

我們首先對(duì)數(shù)據(jù)集 ScanNet 上的點(diǎn)激活圖進(jìn)行定性分析。如圖 3 所示,與最先進(jìn)的 CSC 相比,F(xiàn)AC 可以在 3D 場(chǎng)景內(nèi)和之間找到更多的語(yǔ)義關(guān)系。這表明 FAC 可以學(xué)習(xí)捕捉相似特征同時(shí)抑制不同特征的極好的表征。

我們還進(jìn)行了如表 4 所示的定量實(shí)驗(yàn),我們?cè)谟?xùn)練中采用有限的標(biāo)簽(例如,{1%、5%、10%、20%})。我們可以看到,對(duì)于不同標(biāo)記百分比下的兩個(gè)語(yǔ)義分割任務(wù),F(xiàn)AC 的性能始終大大優(yōu)于基線 From Scratch。

此外,當(dāng)僅使用 1% 的標(biāo)簽時(shí),F(xiàn)AC 的性能顯著優(yōu)于最先進(jìn)的 CSC,證明其在使用有限標(biāo)簽學(xué)習(xí)信息表示方面的強(qiáng)大能力。注意 FAC 在使用較少標(biāo)記數(shù)據(jù)的同時(shí)實(shí)現(xiàn)了更多改進(jìn)。對(duì)于數(shù)據(jù)集 SK 上的語(yǔ)義分割,F(xiàn)AC 在標(biāo)記數(shù)據(jù)減少的情況下實(shí)現(xiàn)了一致的改進(jìn)和類(lèi)似的趨勢(shì)。

表4

表 4. 具有不同標(biāo)簽比率的 ScanNetS3DISSemanticKITTI (SK) 上有限場(chǎng)景重建 的數(shù)據(jù)高效 3D 語(yǔ)義分割 (mIoU%) 結(jié)果。

圖 4. 與 CSC 相比,ScanNet室內(nèi) 3D 分割可視化與 ProCo 相比,使用 10% 標(biāo)記訓(xùn)練數(shù)據(jù)和 KITTI 進(jìn)行微調(diào),帶有 20% 標(biāo)記訓(xùn)練數(shù)據(jù)。

  • 不同的分割實(shí)例和檢測(cè)到的對(duì)象,用不同的顏色突出顯示。

  • 預(yù)測(cè)的差異,用黃色橢圓和紅色框突出顯示。

歡迎關(guān)注微信公眾號(hào)「3D視覺(jué)工坊」,加群/文章投稿/課程主講,請(qǐng)加微信:dddvisiona,添加時(shí)請(qǐng)備注:加群/投稿/主講申請(qǐng)

方向主要包括:3D視覺(jué)領(lǐng)域各細(xì)分方向,比如相機(jī)標(biāo)定|三維點(diǎn)云|三維重建|視覺(jué)/激光SLAM|感知|控制規(guī)劃|模型部署|3D目標(biāo)檢測(cè)|TOF|多傳感器融合|AR|VR|編程基礎(chǔ)等。

我們對(duì) FAC 中的關(guān)鍵設(shè)計(jì)進(jìn)行廣泛的消融研究。具體來(lái)說(shuō),我們檢查了所提出的區(qū)域采樣、特征匹配網(wǎng)絡(luò)和兩個(gè)損失的有效性。最后,我們提供 t-SNE 可視化以將 FAC 學(xué)習(xí)的特征空間與最先進(jìn)的進(jìn)行比較。

在消融研究中,我們?cè)谡Z(yǔ)義分割實(shí)驗(yàn)中采用 5% 的標(biāo)簽,在 ScanNet 上的室內(nèi)檢測(cè)實(shí)驗(yàn)中采用 10% 的標(biāo)簽,在 KITTI 上采用 PointRCNN 作為 3D 檢測(cè)器的室外物體檢測(cè)實(shí)驗(yàn)中采用 20% 的標(biāo)簽。

區(qū)域抽樣和特征匹配。

區(qū)域采樣將前景區(qū)域中的點(diǎn)采樣為錨點(diǎn)。表 5 顯示了由抽樣表示的相關(guān)消融研究。

我們可以看到,在沒(méi)有采樣的情況下,分割和檢測(cè)都會(huì)惡化,這表明過(guò)度分割中的前景區(qū)域在形成對(duì)比度的同時(shí)可能提供重要的對(duì)象信息。它驗(yàn)證了所提出的區(qū)域采樣不僅可以抑制噪聲,還可以減輕對(duì)背景的學(xué)習(xí)偏差,從而在下游任務(wù)中提供更多信息。

此外,我們用匈牙利二分匹配(即 H-FAC)替換建議的 Siamese 對(duì)應(yīng)網(wǎng)絡(luò),如表 5 所示。我們可以觀察到一致的性能下降,表明我們的 Siamese 對(duì)應(yīng)框架可以實(shí)現(xiàn)更好的特征匹配并提供用于下游任務(wù)的相關(guān)性良好的特征對(duì)比對(duì)。附錄中報(bào)告了更多匹配策略的比較。

FAC 損失。

FAC 采用前景感知幾何損失 和特征損失 ,這對(duì)其在各種下游任務(wù)中的學(xué)習(xí)表示至關(guān)重要。幾何損失指導(dǎo)前景感知對(duì)比度以捕獲局部一致性,而特征損失指導(dǎo)前景背景區(qū)分。它們是互補(bǔ)的,并且協(xié)作學(xué)習(xí)下游任務(wù)的判別表示。

如表 5 中的案例 4 和案例 6 所示,包括損失明顯優(yōu)于基線以及最先進(jìn)的 CSC 在分割方面和 ProCo 在檢測(cè)方面的表現(xiàn)。

  • 例如,僅包括 (案例 6)在 KITTIScanNet 上的目標(biāo)檢測(cè)平均精度達(dá)到 67.22% 和 18.79%,分別優(yōu)于 ProCo(66.20% 和 12.64%)1.02% 和 6.15%,如表 1 和表3。

  • 最后,表 5 中的完整 FAC(包括兩種損失)在各種下游任務(wù)中學(xué)習(xí)到具有最佳性能的更好表示。

表5

表 5. FAC 不同模塊在 ScanNet (Sc)SemanticKITTI (SK) , 及 KITTI (K) 下游任務(wù)的消融研究

使用 t-SNE 進(jìn)行特征可視化。

我們使用 tSNE 來(lái)可視化為 SemanticKITTI 語(yǔ)義分割任務(wù)學(xué)習(xí)的特征表示,如圖 5 所示。

  • PConCSC 等其他對(duì)比學(xué)習(xí)方法相比,F(xiàn)AC 學(xué)習(xí)了更緊湊和判別特征空間,可以清楚地區(qū)分不同語(yǔ)義類(lèi)的特征。

如圖 5 所示,F(xiàn)AC 學(xué)習(xí)的特征具有最小的類(lèi)內(nèi)方差和最大的類(lèi)間方差,表明 FAC 學(xué)習(xí)的表示有助于在下游任務(wù)中學(xué)習(xí)更多的判別特征。


圖 5. t-SNE SemanticKITTI 語(yǔ)義分割的特征嵌入可視化,使用 5% 的標(biāo)簽進(jìn)行微調(diào)(ScanNet 預(yù)訓(xùn)練)。

  • 顯示了具有最少點(diǎn)數(shù)的十個(gè)類(lèi),其中 表示類(lèi)內(nèi)和類(lèi)間方差。

  • 與最先進(jìn)的方法 PCon、CSC 相比,F(xiàn)AC 學(xué)習(xí)了更緊湊的特征空間,具有最小的類(lèi)內(nèi)方差和最大的類(lèi)間方差。

我們提出了一種用于 3D 無(wú)監(jiān)督預(yù)訓(xùn)練的前景感知對(duì)比框架 (FAC)。 FAC 構(gòu)建更好的對(duì)比對(duì)以產(chǎn)生更多幾何信息和語(yǔ)義意義的 3D 表示。

  • 具體來(lái)說(shuō),我們?cè)O(shè)計(jì)了一種區(qū)域采樣技術(shù),來(lái)促進(jìn)過(guò)度分割的前景區(qū)域的平衡學(xué)習(xí)并消除噪聲區(qū)域,這有助于基于區(qū)域?qū)?yīng)構(gòu)建前景感知對(duì)比對(duì)。

  • 此外,我們?cè)鰪?qiáng)了前景-背景的區(qū)別,并提出了一個(gè)即插即用的 Siamese 對(duì)應(yīng)網(wǎng)絡(luò),以在前景和背景部分的視圖內(nèi)和視圖之間找到相關(guān)性良好的特征對(duì)比對(duì)。

大量實(shí)驗(yàn)證明了 FAC 在知識(shí)轉(zhuǎn)移和數(shù)據(jù)效率方面的優(yōu)越性。

添加小助理微信dddvisiona, 即可加入「SLAM」微信群(https://mp.weixin.qq.com/s/cYCcK7E46RZDa2Z2rMpLtw)。


CVPR2023 | 最新 3D 表征自監(jiān)督學(xué)習(xí)+對(duì)比學(xué)習(xí):FAC的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
德兴市| 元氏县| 孟连| 拜泉县| 区。| 昭平县| 柳林县| 宣武区| 巢湖市| 海南省| 大邑县| 齐河县| 读书| 万年县| 河池市| 巴中市| 东丽区| 武乡县| 铁力市| 休宁县| 井冈山市| 隆德县| 花莲市| 察雅县| 呼伦贝尔市| 曲松县| 郓城县| 曲阳县| 屯门区| 大足县| 黔江区| 苏尼特左旗| 上思县| 宁蒗| 文山县| 班戈县| 佛教| 防城港市| 舞阳县| 尤溪县| 恩施市|