TPAMI 2022|3D語義分割中域適應(yīng)的跨模態(tài)學(xué)習(xí)
論文標(biāo)題:Cross-modal Learning for Domain Adaptation in 3D Semantic Segmentation
作者:Maximilian Jaritz, Tuan-Hung Vu, Raoul de Charette, émilie Wirbel, and Patrick Pérez
來源:TPAMI2022
論文鏈接:https://arxiv.org/pdf/2101.07253.pdf
整理:HT |來源:微信公眾號「3D視覺工坊」 建議閱讀原文,排版閱讀體驗更佳。
摘要
域適應(yīng)是在標(biāo)簽稀缺時實現(xiàn)學(xué)習(xí)的一項重要任務(wù)。雖然大多數(shù)工作只關(guān)注圖像模態(tài),但存在許多重要的多模態(tài)數(shù)據(jù)集。為了利用多模態(tài)進(jìn)行域適應(yīng),我們提出了跨模態(tài)學(xué)習(xí),我們通過相互模仿來加強兩種模態(tài)的預(yù)測之間的一致性。我們限定網(wǎng)絡(luò)對標(biāo)記的數(shù)據(jù)做出正確的預(yù)測,并對未標(biāo)記的目標(biāo)域數(shù)據(jù)進(jìn)行跨模態(tài)的一致性預(yù)測。無監(jiān)督和半監(jiān)督的域適應(yīng) settings 的實驗證明了這種新穎的域適應(yīng)策略的有效性。具體來說,我們評估來自 2D 圖像、3D 點云或兩者都有的 3D 語義分割任務(wù)。我們利用最近的自動駕駛數(shù)據(jù)集來產(chǎn)生各種各樣的域適應(yīng)場景,包括場景布局上、光照上、傳感器設(shè)置上、天氣上的變化,以及synthetic-to-real的設(shè)置。在所有域適應(yīng)場景中,我們的方法顯著地改進(jìn)了以前的單模態(tài)域適應(yīng)的 baseline 。
關(guān)鍵詞:域適應(yīng)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、語義分割、2D/3D
一、 引言
場景理解是許多應(yīng)用程序的核心,除其他任務(wù)外,圖像語義分割已得到廣泛研究。然而,對于涉及與世界交互的應(yīng)用程序,例如機器人、自動駕駛或虛擬現(xiàn)實,場景應(yīng)該以 3D 形式理解。在這種情況下,3D 語義分割正受到關(guān)注,越來越多的數(shù)據(jù)集提供聯(lián)合標(biāo)注的 3D 點云 (PCs) 和 2D 圖像。這些模態(tài)是互補的,因為PCs提供幾何特征,而圖像捕捉紋理和顏色。手動分割 [1] 在圖像中很繁瑣,且在 3D 點云PCs中更是如此,因為標(biāo)注器必須從不同的視點檢查場景 [2]。這導(dǎo)致標(biāo)注成本很高。不幸的是,是否可以獲得足夠的ground truth來訓(xùn)練大型神經(jīng)網(wǎng)絡(luò),這個問題可能是計算機視覺系統(tǒng)成敗的關(guān)鍵。在這項工作中,我們的目標(biāo)是通過遷移學(xué)習(xí)來緩解這個問題,特別是域適應(yīng) (DA),即我們利用多模態(tài) (2D/3D) 來改進(jìn)模型對目標(biāo)域的適應(yīng)。我們考慮無監(jiān)督和半監(jiān)督的域適應(yīng)DA,即標(biāo)簽在源域中可用,但在目標(biāo)域中不可用(或僅部分可用)。域適應(yīng)DA文獻(xiàn)研究圖像模態(tài) [3]、[4]、[5]、[6]、[7],但只有少數(shù)涉及點云模態(tài) [8]。與這些不同的是,我們同時對圖像和點云執(zhí)行域適應(yīng)DA,目的是顯示地利用多模態(tài)來實現(xiàn)域適應(yīng)目標(biāo)。我們使用來自同步攝像機和LiDARs的自動駕駛數(shù)據(jù),并希望從這些傳感器的域差距不同的這一事實中獲益。例如,LiDAR對光照變化(例如,白天/黑夜)比相機更魯棒。另一方面,LiDAR感應(yīng)密度隨傳感器設(shè)置而變化,而相機始終輸出密集圖像。由于dual-head架構(gòu),我們的工作利用了跨模態(tài)差距,同時保持了每個傳感器的最佳性能 —— 從而避免了一種模態(tài)的局限性對另一種模態(tài)的性能產(chǎn)生負(fù)面影響。

在這里,2D 和 3D 網(wǎng)絡(luò)分別將圖像和點云作為輸入,并預(yù)測它們各自的 3D 分割標(biāo)簽。請注意,2D 預(yù)測被轉(zhuǎn)換到 3D。所提出的跨模態(tài)學(xué)習(xí)通過相互模仿來加強 2D 和 3D 預(yù)測之間的一致性,這在無監(jiān)督和半監(jiān)督的域適應(yīng)中都被證明是有益的。
我們提出了一種跨模態(tài)損失,它加強了多模態(tài)預(yù)測之間的一致性,如圖 1 所示。我們專門設(shè)計的 dual-head 架構(gòu),通過將有監(jiān)督的主分割損失與無監(jiān)督的跨模態(tài)損失解耦,進(jìn)而實現(xiàn)魯棒地訓(xùn)練。
我們證明了,我們提出的跨模態(tài)框架可以應(yīng)用于無監(jiān)督的情況(稱為 xMUDA)或者半監(jiān)督的情況(稱為 xMoSSDA)。
本文是我們工作 [9] 的擴展,它僅僅涵蓋了三個場景中評估的 UDA。除了實驗評估(第 4 節(jié))的顯著擴展,包括添加了兩個新的域適應(yīng)場景(見圖 5)、對新發(fā)布的數(shù)據(jù)集 nuScenesLidarseg [10] 的評估以及包含新的 baselines ,此外,我們還在第 3.3 節(jié)和第 4.4 節(jié)中,添加了一個全新的半監(jiān)督域適應(yīng) (SSDA) 用例。[9] 中的原始代碼庫,將通過新的實驗和 SSDA 設(shè)置進(jìn)行擴展。
總之,我們的貢獻(xiàn)是:
我們引入了新的域適應(yīng)場景(4 個無監(jiān)督和 4 個半監(jiān)督),用于 3D 語義分割任務(wù),利用最新的帶有相機和激光雷達(dá)的 2D-3D 自動駕駛數(shù)據(jù)集;
我們提出了一種新的域適應(yīng)方法,它具有無監(jiān)督的跨模態(tài)損失,可強制執(zhí)行多模態(tài)數(shù)據(jù)一致性,并補充其他現(xiàn)有的無監(jiān)督技術(shù)[11];
我們設(shè)計了一個魯棒的 dual-head 架構(gòu),將跨模態(tài)損失與主要分割目標(biāo)分離;
我們分別評估了 xMUDA 和 xMoSSDA,即我們的無監(jiān)督和半監(jiān)督域適應(yīng)場景,并證明了它們的卓越性能。
二、相關(guān)工作
2.1 無監(jiān)督域適應(yīng)
在過去的幾年中,人們對無監(jiān)督域適應(yīng) (UDA) 越來越感興趣,以用于復(fù)雜的感知任務(wù),如目標(biāo)檢測和語義分割。在這些方法的背后,有著學(xué)習(xí)域不變特征的相同本質(zhì),即來自不同域的特征應(yīng)該只引入很小的差異。一些工作通過促進(jìn)對抗訓(xùn)練,來最小化源域和目標(biāo)域間的分布差異,無論是在像素 [3]、特征 [4] 還是輸出空間 [5]、[6] 上。除了對抗學(xué)習(xí),傅里葉變換還可以用于將源圖像風(fēng)格化為目標(biāo)圖像[14]。從半監(jiān)督學(xué)習(xí) [11] 中重新觀察,使用偽標(biāo)簽的自訓(xùn)練最近也被證明對 UDA 有效 [7]、[15]、[16]。
最近的工作開始處理 3D 世界(即點云)中的 UDA。LiDAR 域適應(yīng)工作在 [17] 中進(jìn)行了綜述。PointDAN [18] 提出聯(lián)合對齊用于分類的局部特征和全局特征。Achituve 等人 [19] 使用自監(jiān)督學(xué)習(xí)提高 UDA 性能。Wu 等人 [8] 對來自 LiDAR 點云的 3D 分割中的 UDA, ?采用激活關(guān)聯(lián)對齊 [20]。Langer等人 [21] 使用重采樣將 64 設(shè)計為 32 線 LiDAR,從而在輸入點云空間中對齊源域和目標(biāo)域。Yi等人[22] 還通過將特定于 LiDAR 的補全網(wǎng)絡(luò)與和 LiDAR 無關(guān)的分割網(wǎng)絡(luò)鏈接起來,解決了 LiDAR 采樣模式之間的差距。在這項工作中,我們還解決了域適應(yīng)問題,但從不同的角度,即在輸出空間中來對齊 RGB 和 LiDAR。
據(jù)我們所知,在多模態(tài)場景的 2D/3D 語義分割中,以前沒有 UDA 的工作。只有一些工作結(jié)合其他的模態(tài),例如深度。且僅在源域訓(xùn)練時可用,并利用這些 “特殊信息” 來提高適應(yīng)性能 [23]、[24]。不同的是,在訓(xùn)練和測試時,我們的工作假設(shè)所有模態(tài)在源域和目標(biāo)域上均可用。
2.2 半監(jiān)督域適應(yīng)
雖然 UDA 已成為一個活躍的研究課題,而半監(jiān)督域適應(yīng) (SSDA) 雖然在實際應(yīng)用中具有很高的相關(guān)性,但迄今為止的研究卻很少。在 SSDA 中,我們希望將知識從具有標(biāo)記數(shù)據(jù)的源域遷移到具有部分標(biāo)記數(shù)據(jù)的目標(biāo)域。
早期,基于 SVM [25] 的方法已經(jīng)解決了圖像分類和目標(biāo)檢測中的 SSDA [26]、[27]、[28];很少有和深度網(wǎng)絡(luò)相關(guān)的。最近,Saito等人 [29] 提出了一種對抗 SSDA 學(xué)習(xí)方案,用于優(yōu)化具有極大極小熵的 few-shot 深度分類模型。Wang 等人[30] 通過進(jìn)一步對齊標(biāo)記源域和目標(biāo)域樣本的特征 prototype,將 2D 語義分割中的 UDA 技術(shù)擴展到 SSDA 的 setting。我們的工作,是第一個用于在 點云分割中解決 SSDA 問題的。
2.3 跨模態(tài)學(xué)習(xí)
在我們的上下文中,我們將跨模態(tài)學(xué)習(xí)定義為模態(tài)之間的知識轉(zhuǎn)移。這與多模態(tài)融合不同,后者是有監(jiān)督的訓(xùn)練單個模型以組合互補的輸入,例如:RGB-D [31]、[32] 或 LiDAR 和 RGB [33]、[34]、[35]。
Castrejón 等人 [36] 通過跨模態(tài)執(zhí)行類似的統(tǒng)計數(shù)據(jù),進(jìn)而學(xué)習(xí)與輸入模態(tài)(真實圖像、剪貼畫、文本等)無關(guān)的聯(lián)合 high-level 特征表征,從而解決跨模態(tài)的場景檢索問題。Gupta 等人在跨模態(tài)設(shè)置中采用更直接的蒸餾 [38] 特征對齊技術(shù)。
自監(jiān)督學(xué)習(xí)在沒有標(biāo)簽的情況下產(chǎn)生有用的表征,例如通過強制具有不同輸入模態(tài)的網(wǎng)絡(luò)來預(yù)測相似的輸出。Sayed 等人 [39] 最小化 RGB 和光流特征之間的余弦距離。Alwassel 等人[40] 使用聚類生成偽標(biāo)簽,并相互訓(xùn)練音頻和視頻網(wǎng)絡(luò)。Munro 等人 [41] 使用具有 RGB 和流之間時間一致性的自監(jiān)督。
與我們類似,Gong 等人 [42] 解決了用 RGB 和 LiDAR 進(jìn)行分割的 UDA,但專注于融合來自多個源域數(shù)據(jù)集的部分標(biāo)簽。相反,我們使用單一源域數(shù)據(jù)集并探索 UDA 和 SSDA 的任務(wù)。
2.4 點云分割
雖然圖像是密集的張量,但 3D 點云可以以多種方式表征,這導(dǎo)致補全網(wǎng)絡(luò)系列并行發(fā)展。
體素與像素相似,但在它們的密集表征中非常浪費內(nèi)存,因為它們中的大多數(shù)通常是空的。一些 3D CNNs [43]、[44] 依靠 OctTree [45] 來減少內(nèi)存使用,但沒有解決流形擴張的問題。Graham 等人 [13] 以及類似的其他實現(xiàn) [46] ,通過使用哈希表僅在 active 體素上進(jìn)行卷積來解決后面的問題。這允許非常高的分辨率,通常每個體素只有一個點。除了立方體素外,[47]、[48] 還使用了圓柱形體素。最后,稀疏 point-voxel 卷積 [49] ,受益于對基于點的高分辨率分支的輕量級支持。
基于點的網(wǎng)絡(luò)在連續(xù)的 3D 空間中執(zhí)行計算,因此可以直接接受點云作為輸入。PointNet++ [50] 使用 ?point-wise 卷積、maxpooling 來計算全局特征和局部鄰域聚合,用于類似于 CNNs 的分層學(xué)習(xí)。在這個方向上已經(jīng)提出了許多改進(jìn),例如:連續(xù)卷積 [51]、可變形卷積核 [52] 或輕量級替代方案 [53]。
在這項工作中,我們選擇在 ScanNet [54] 上表現(xiàn)最好的 SparseConvNet [13] ,作為我們的 3D 網(wǎng)絡(luò)。

圖 2:我們用于域適應(yīng)的跨模態(tài)無監(jiān)督學(xué)習(xí)架構(gòu)。有兩個獨立的網(wǎng)絡(luò)流:一個 2D 流(紅色),它以圖像作為輸入,并使用 U-Net 風(fēng)格的 2D ConvNet [12];以及一個 3D 流(藍(lán)色),它以點云為輸入,并使用 U-Net 風(fēng)格的 3D SparseConvNet [13]。兩個流輸出的特征張量的第一維大小為N,等于3D點的個數(shù)。為了實現(xiàn)這種平等,我們將存在標(biāo)簽的 3D 點投影到圖像中,并在相應(yīng)的像素位置對 2D 特征進(jìn)行采樣。四個分割輸出包括:主要預(yù)測 、 和模擬預(yù)測 ?、 。我們使用 KL 散度 ?來跨模態(tài)遷移知識,其中 2D 模擬預(yù)測的目標(biāo)是估計 3D 主要預(yù)測,反之亦然,即為 。
三、域適應(yīng)的跨模態(tài)學(xué)習(xí)
我們的目標(biāo)是利用多模態(tài)作為域適應(yīng)中無監(jiān)督學(xué)習(xí)的知識來源。因此,我們提出了一個跨模態(tài)學(xué)習(xí)目標(biāo),作為模態(tài)之間的相互模仿的game 來實現(xiàn),從而推動來自不同模態(tài)的預(yù)測之間的一致性。值得注意的是,雖然我們的訓(xùn)練利用了多模態(tài),但 2D/3D 預(yù)測僅依賴于我們架構(gòu)中的 2D 或 3D 輸入,因此在推理時是單模態(tài)的。具體來說,我們研究了用于 3D 語義分割任務(wù)的 2D 圖像和 3D 點云的模態(tài),且它是機器視覺的核心任務(wù)。
我們在第3.1節(jié)中介紹了網(wǎng)絡(luò)架構(gòu)。我們的跨模態(tài)無監(jiān)督域適應(yīng)框架,稱為“xMUDA”,在第3.2節(jié)中。以及它的半監(jiān)督版本,類似地稱為“xMoSSDA”,在第3.3節(jié)中.
3.1 架構(gòu)
我們的架構(gòu)預(yù)測 point-wise 分割標(biāo)簽。它由兩個獨立的 streams 組成,分別以 2D 圖像和 3D 點云作為輸入,并分別輸出大小為 ?和 ?的特征,其中 ?是攝像機廣角范圍內(nèi)的 3D 點數(shù)。概述如圖 2 所示。通過設(shè)計,2D 和 3D streams 是獨立的,即在每個stream 中,點云的語義預(yù)測僅依賴于各自的模態(tài)。這樣的架構(gòu)設(shè)計,可以更好地理解每種模態(tài)在特定場景中的優(yōu)缺點;它還有助于突出我們提出的跨模態(tài)學(xué)習(xí)的意義。
作為網(wǎng)絡(luò) backbones,我們將 SparseConvNet [13] 用于 3D,將 U-Net [12] 的修改版用于 2D。更多的實現(xiàn)細(xì)節(jié)在第 4.2 節(jié)中提供。
Dual 分割頭。我們將分割頭(圖 2 中的 “classify” 箭頭)稱為網(wǎng)絡(luò)中的最后一個線性層,它將輸出特征轉(zhuǎn)換為 logits,然后通過一個 softmax 函數(shù)來產(chǎn)生類概率。
圖 3:Single-head 與 dual-head 架構(gòu)。 (a) 直接在主分割頭之間強制執(zhí)行一致性的簡單方法。(b) 我們提出了一種 dual-head 架構(gòu),以將模擬預(yù)測與主分割頭分離,提高魯棒性。
對于跨模態(tài)學(xué)習(xí),我們在 2D 和 3D 輸出概率之間建立了一個模仿game,即每個模態(tài)應(yīng)該預(yù)測另一個模態(tài)的輸出??傮w目標(biāo)推動兩種模態(tài)達(dá)成一致,從而加強輸出之間的一致性。
在一種簡單的方法中,每個模態(tài)都有一個分割頭(圖 3a),并且跨模態(tài)優(yōu)化目標(biāo)對齊兩種模態(tài)的輸出。不幸的是,這種設(shè)定并不魯棒,因為模仿目標(biāo)直接與主分割目標(biāo)競爭。風(fēng)險在于,來自弱模態(tài)的負(fù)遷移可能會降低強模態(tài)的性能。這就是為什么在實踐中,需要降低模仿?lián)p失 ?的權(quán)重。分割損失用于提高性能。然而,這是一個嚴(yán)重的約束,因為降低模仿?lián)p失的權(quán)重也會降低其適應(yīng)效果。
為了解決這個問題,我們提出將模仿與主分割目標(biāo)分離。因此,我們提出了一種 dual-head架構(gòu),如圖 3 和圖 3b 所示。在此設(shè)置中,2D 和 3D streams 都有兩個分割頭:一個用于可能最佳預(yù)測的主頭,一個用于估計其他模態(tài)輸出的模擬頭。四個分割頭的輸出(見圖 2)的大小為 ,其中 ?是類的數(shù)目,這樣我們就可以獲得每個 3D 點的類概率向量。兩個主要頭產(chǎn)生最佳的分割預(yù)測,每個分支上分別為 和 。兩個模擬頭估計另一個模態(tài)的輸出:2D 估計 3D()和 3D 估計 2D()。
在下文中,我們將分別介紹如何在無監(jiān)督(第 3.2 節(jié))和半監(jiān)督(第 3.3 節(jié))域適應(yīng)中,使用所描述的架構(gòu)進(jìn)行跨模態(tài)學(xué)習(xí)。
3.2 無監(jiān)督的域適應(yīng)(xMUDA)
我們提出了 xMUDA,即跨模態(tài)無監(jiān)督的域適應(yīng),它考慮源域數(shù)據(jù)集 S,其中每個樣本由 2D 圖像 、3D 點云 ? 和 ?具有 ?類的 3D 分割標(biāo)簽 ?組成,以及一個缺少標(biāo)注的目標(biāo)域數(shù)據(jù)集 ,其中每個樣本僅由圖像 ?和點云 ?組成
在下文中,我們定義了常規(guī)的監(jiān)督學(xué)習(xí)設(shè)置,我們的跨模態(tài)損失 ?和一個另外的變體 “ xMUDA~PL~ ” ,它進(jìn)一步使用偽標(biāo)簽來提高性能。學(xué)習(xí)設(shè)置的概述如圖 4a 所示。我們的跨模態(tài)學(xué)習(xí)與現(xiàn)有的單模態(tài) UDA 技術(shù)(例如: Pseudo-labels [11]、MinEnt [5] 或 Deep logCORAL [20] )之間的差異如圖 4b 所示。
圖 4:域適應(yīng)的跨模態(tài)訓(xùn)練。 (a) ?由于2D/3D 之間的跨模態(tài)學(xué)習(xí),xMUDA從源域的監(jiān)督(純線)和目標(biāo)域的自監(jiān)督(虛線)中學(xué)習(xí)。(b) 我們考慮四個數(shù)據(jù)子集:源域 2D、目標(biāo)域 2D、源域 3D 和目標(biāo)域 3D。與現(xiàn)有技術(shù)相比,xMUDA 為 UDA 引入了跨模態(tài)自訓(xùn)練機制。
3.2.1 監(jiān)督學(xué)習(xí)
3D 分割的主目標(biāo)是通過交叉熵,以經(jīng)典的監(jiān)督范式對源域數(shù)據(jù)進(jìn)行學(xué)習(xí)。 表示由分割模型關(guān)聯(lián)到 ?個 3D 興趣點的軟分類圖,對于給定的輸入 , 中給定訓(xùn)練樣本的每個網(wǎng)絡(luò) stream(2D 和 3D)的分割損失 ?為:
3.2.2 跨模態(tài)學(xué)習(xí)
跨模態(tài)的無監(jiān)督學(xué)習(xí)的目標(biāo)是雙重的。首先,在目標(biāo)域數(shù)據(jù)集上,我們希望將知識從一種模態(tài)遷移到另一種模態(tài)。例如,如果一種模態(tài)對域遷移比另一種更敏感,那么魯棒模態(tài)應(yīng)該 teach 敏感模態(tài),在目標(biāo)域中沒有可用標(biāo)簽數(shù)據(jù)時的對應(yīng)正確類別。其次,我們在源域和目標(biāo)域上設(shè)計一個輔助目標(biāo),其任務(wù)是估計其他模態(tài)的預(yù)測。通過不僅模仿最大概率的類別,而且模仿 類似teacher-student 蒸餾[38]中的整個分布,進(jìn)而交換了更多信息,從而產(chǎn)生了更軟的標(biāo)簽。

我們的方法與 Deep Mutual Learning [55]存在相似之處,例如:協(xié)同訓(xùn)練兩個網(wǎng)絡(luò)并使用 KL 散度作為模仿?lián)p失。然而,與這項工作不同的是,我們的跨模態(tài)學(xué)習(xí)是在無監(jiān)督的情況下建立了跨模態(tài)(2D/3D)的一致性。
3.2.3 使用偽標(biāo)簽進(jìn)行自訓(xùn)練
跨模態(tài)學(xué)習(xí)是對偽標(biāo)簽 [11] 的補充,偽標(biāo)簽最初用于半監(jiān)督學(xué)習(xí),最近用于 UDA [7]、[15]。為了從兩者中受益,每一次都使用公式 4 優(yōu)化了模型。我們離線提取偽標(biāo)簽,根據(jù)預(yù)測的類概率選擇置信度高的標(biāo)簽。然后,我們使用生成的偽標(biāo)簽從頭開始再次訓(xùn)練,從而在目標(biāo)域訓(xùn)練集上增加額外的分割損失。優(yōu)化問題為 :
4.1 數(shù)據(jù)集
為了構(gòu)成圖 5 中展示的域適應(yīng)場景,我們利用了公共數(shù)據(jù)集 nuScenes-Lidarseg [10]、VirtualKITTI [56]、SemanticKITTI [2]、A2D2 [57] 和 Waymo Open數(shù)據(jù)集 (Waymo OD) [58] 。數(shù)據(jù)集劃分的詳細(xì)信息在表 1 中。我們的場景涵蓋了典型的 DA 挑戰(zhàn),例如:場景布局的變化, 如nuScenes-Lidarseg:USA/Singapore場景中左右側(cè)駕駛之間的變化;光照的變化,如nuScenes-Lidarseg: Day/Night中白天和黑夜之間的變化;合成到真實的數(shù)據(jù)集,如 VirtualKITTI/SemanticKITTI 中從模擬深度和RGB 到 真實 LiDAR 和相機;不同的傳感器設(shè)置和特性,如 ?A2D2 / SemanticKITTI 中的分辨率 與 FoV ;天氣變化,如Waymo OD: SF,PHX,MTV/RK 中陽光明媚的舊金山、鳳凰城、Mountain View 和多雨的 Kirkland 之間的變化。
在所有數(shù)據(jù)集中,LiDAR ?和相機都是同步校準(zhǔn)的,允許 2D/3D 投影。為了跨域數(shù)據(jù)集的一致性,我們只使用前置攝像頭的圖像(即使有多個攝像頭可用)。
Waymo OD數(shù)據(jù)集不提供 point-wise 3D 分割標(biāo)簽,因此我們利用 3D 目標(biāo)的 bounding-box 標(biāo)簽。位于框內(nèi)的點被標(biāo)記為該類,而所有位于框外的點則被標(biāo)記為背景。
為了抵消源域和目標(biāo)域的類別不匹配(例如,VirtualKITTI / SemanticKITTI),或者說是為了適應(yīng)類別的不足,我們應(yīng)用了自定義類別的 mapping ,在補充材料中詳述描述。請注意,VirtualKITTI 數(shù)據(jù)集提供了深度圖,因此我們通過進(jìn)行均勻點采樣來模擬 LiDAR 的掃描。
所有的訓(xùn)練數(shù)據(jù)和數(shù)據(jù)集拆分都可以用我們的代碼復(fù)現(xiàn),更多細(xì)節(jié)可見補充材料。
4.2 實現(xiàn)細(xì)節(jié)
下面簡單介紹一下我們的具體實現(xiàn)。請參閱我們的代碼,以獲取更多詳細(xì)信息。


圖 5:提出的五個 DA 方案概述。我們使用 metadata 生成 nuScenes-Lidarseg [10] 數(shù)據(jù)集劃分。第三個和第四個 DA 場景使用 SemanticKITTI [2] 作為目標(biāo)域數(shù)據(jù)集,合成的 VirtualKITTI數(shù)據(jù)集 [56] 或 真實的 A2D2 數(shù)據(jù)集 [57] 作為源域數(shù)據(jù)集。請注意,我們展示了使用 LiDAR 覆蓋的 A2D2 /SemanticKITTI 場景,以可視化密度差異和由此產(chǎn)生的域差距。最后,Waymo OD [58] 在舊金山 (SF)、鳳凰城 (PHX) 和山景城 (MTV) 等城市提供源域數(shù)據(jù)集,在 Kirkland (KRK) 提供目標(biāo)域數(shù)據(jù)集。我們在情景1到4上評估了 xMUDA,在情景 1、4、5、3上評估 xMoSSDA,具體可見補充材料 。
表 2:關(guān)于 3D 語義分割的 xMUDA 實驗。我們報告每個網(wǎng)絡(luò) stream(2D 和 3D)的目標(biāo)域數(shù)據(jù)集上的 mIoU 結(jié)果(最佳和第二最佳),以及采用 2D 和 3D 概率( ' 2D+3D ' )平均值的集成結(jié)果。我們提供了在源域數(shù)據(jù)集 ?上訓(xùn)練但不在目標(biāo)域數(shù)據(jù)集 ? 上訓(xùn)練的下限 “ Baseline(僅限 src)”,以及在目標(biāo)域數(shù)據(jù)集 ? 上使用標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練的上限 “Oracle”。我們進(jìn)一步指出了“ Domain gap ”,即 Oracle 和 Baseline 分?jǐn)?shù)之間的差異。“Deep logCORAL”、“MinEnt” 和 “PL” 是 2D/3D 單模態(tài) UDA baselines,而 “FDA” 僅是在 2D模態(tài)。兩個變體 “xMUDA” 和 “xMUDAPL” 是我們的提出方法。我們評估了四種 UDA 場景(見圖 5)。對于 nuScenesLidarseg 數(shù)據(jù)集(‘nuSc-Lidarseg’),我們生成具有不同位置( USA/Singapore )和不同時間(Day/Night)的數(shù)據(jù)集劃分。VirtualKITTI (‘Virt.KITTI’) 到 SemanticKITTI ?探索了具有挑戰(zhàn)性的合成到真實的域適應(yīng)。兩個真實數(shù)據(jù)集 A2D2 /SemanticKITTI ?(‘Sem.KITTI’) 之間的域差距主要在于傳感器的分辨率。
4.3 xMUDA
我們在四種無監(jiān)督域適應(yīng)場景中評估 xMUDA,并與單模態(tài) UDA 方法進(jìn)行比較:Deep logCORAL [20]、熵最小化 (MinEnt) [5]、偽標(biāo)記 (PL) [7] 和傅里葉域適應(yīng) (FDA) [ 14]。對于 [7],image-to-image 轉(zhuǎn)換部分由于其不穩(wěn)定性、訓(xùn)練高復(fù)雜度以及與 LiDAR 數(shù)據(jù)的不兼容,而被排除在外。關(guān)于其他三種單模態(tài)技術(shù),我們將已發(fā)布的實現(xiàn)方法調(diào)整為我們的設(shè)定??傊覀兯阉髁烁髯宰詈玫某瑓?shù)。對于僅在 2D 上的 baseline FDA [14],我們實現(xiàn)了完整的 MTB 方法,使用了熵以及三個模型的融合來生成偽標(biāo)簽,并重新訓(xùn)練。我們發(fā)現(xiàn)沒有僅在 3D 上的 UDA baseline 可以直接適用于我們的場景。相反,我們在補充材料中比較了LiDAR transfer [21],這很大程度上優(yōu)于他們自己的場景。
我們在表 2 中報告了用于 3D 分割的目標(biāo)域測試集的平均交并比(mIoU)。我們使用在驗證集上獲得最佳分?jǐn)?shù)的 checkpoint, 對測試集進(jìn)行評估。除了 2D 和 3D 模型的分?jǐn)?shù)之外,我們還展示了集成結(jié)果('2D+3D'),它通過取預(yù)測的 2D 和 3D 概率在softmax 之后的平均值得到。單模態(tài) UDA baseline [5]、[7]、[20] 分別應(yīng)用于每個模態(tài),F(xiàn)DA [14] 是僅 2D 上的UDA ?baseline。
此外,我們提供了下界 “Baseline(僅限 src)” 的結(jié)果,這不是域適應(yīng),因為它僅在源域數(shù)據(jù)集上進(jìn)行訓(xùn)練,而上界 “Oracle” 僅在帶有標(biāo)簽的目標(biāo)域數(shù)據(jù)集上進(jìn)行訓(xùn)練。我們還指出了 “ 域差距 (O-B) ”,計算為 Oracle 和 Baseline 之間的差異。它表明了數(shù)據(jù)集內(nèi)域間隙在 ?的范圍內(nèi) (nuScenes-Lidarseg: USA/Singapore, Day/Night) ,相比數(shù)據(jù)集間域間隙在 ?的范圍內(nèi)要小得多(A2D2/SemanticKITTI, VirtualKITTI/SemanticKITTI) 。這表明傳感器設(shè)置的變化(A2D2/SemanticKITTI)實際上是一個非常困難的域適應(yīng)問題,類似于 synthetic-to-real的情況(VirtualKITTI/SemanticKITTI)。重要的是,請注意 A2D2/SemanticKITTI 和 VirtualKITTI/SemanticKITTI 之間的分?jǐn)?shù)不具有可比性,因為它們使用不同數(shù)量的類,且數(shù)量分別為 10 和 6。
與 “ Baseline ” 相比,xMUDA 使用跨模態(tài)損失而不是偽標(biāo)簽,這對所有四種 UDA 場景都帶來了顯著的域適應(yīng)效果,并且通常而言要優(yōu)于所有單模態(tài) UDA 的baseline 。xMUDA~PL~ 在所有場景中都獲得了最好的分?jǐn)?shù),唯一的例外是在 Day/Night 2D+3D 場景中 xMUDA 效果更好。此外,使用偽標(biāo)簽 (PL) 的跨模態(tài)學(xué)習(xí)和自訓(xùn)練是互補的,因為它們在 xMUDA~PL~ 中結(jié)合使用通常會比單獨使用一種方法獲得更高的分?jǐn)?shù),最高可達(dá)到分?jǐn)?shù)增加 4 或 7 。2D/3D oracle 的分?jǐn)?shù)表明,全部使用 LiDAR (3D) 數(shù)據(jù)集始終是最強的模態(tài),這與 3D 分割任務(wù)的選擇產(chǎn)生了共鳴。然而,xMUDA 不斷地改進(jìn)兩種模態(tài)(2D 和 3D),例如:即使是強模態(tài)也可以從較弱模態(tài)中學(xué)習(xí)。一個值得注意的例子,3D 模態(tài)在夜間時,xMUDA 的效果 ( ?) 要優(yōu)于 “ baseline ” 的效果 ( ?),盡管這是很小的域差距 () ,這與 LiDAR 主動傳感的能力相關(guān) 。dual-head 架構(gòu)可能是這里的關(guān)鍵:每個模態(tài)都可以改進(jìn)它的 main 分割頭,且獨立于其他模態(tài),因為一致性是通過mimicking 分割頭來間接實現(xiàn)的。
根據(jù) xMUDA,我們還觀察到了正則化效應(yīng)。例如在 VirtualKITTI/SemanticKITTI 數(shù)據(jù)集上,由于在非常小的 VirtualKITTI 數(shù)據(jù)集上過擬合,“ Baseline ” 和 “ PL ” 方法在 2D 模態(tài)上的表現(xiàn)非常差(26.8 和 21.5),而 3D 模態(tài)上則更穩(wěn)定(42.0 和 44.3)。相比之下,xMUDA 表現(xiàn)更好,因為 3D模態(tài) 可以正則化 2D模態(tài)。這種正則化甚至可以從偽標(biāo)簽中獲益,因為 xMUDA~PL~ 獲得了更好的分?jǐn)?shù)。
定性結(jié)果如圖 6 所示,在所有提出的 UDA 場景中,都顯示了 xMUDA 的多功能性。在這里, 相對于單模態(tài)偽標(biāo)簽 baseline ,xMUDA~PL~的優(yōu)勢在數(shù)據(jù)集間場景(最后兩行)中尤為明顯,在查找車輛類別的 nuScenes 場景(前兩行)中更為巧妙。我們在補充材料和視頻中提供了額外的定性結(jié)果,在 http://tiny.cc/cross-modal-learning 。
在一些相反的域適應(yīng)方向上,我們也成功地實驗了我們的方法,細(xì)節(jié)在補充材料中。
4.4 xMoSSDA
在本節(jié)中,我們在域適應(yīng)場景nuSc-Lidarseg:USA/Singap、A2D2/SemanticKITTI 和 Waymo OD 上評估了 xMoSSDA。為了創(chuàng)建實際相關(guān)的 SSDA 條件,我們確保未標(biāo)記的目標(biāo)域數(shù)據(jù)集 ?遠(yuǎn)大于標(biāo)記域的目標(biāo)數(shù)據(jù)集 。因此,數(shù)據(jù)集劃分不同于 UDA(參見表 1)。
我們將 xMoSSDA 與八個 baselines 進(jìn)行比較。三個 baselines 是純監(jiān)督的,要么僅在源域()數(shù)據(jù)集,或者僅標(biāo)記的目標(biāo)域()數(shù)據(jù)集上訓(xùn)練,要么在源域和標(biāo)記的目標(biāo)域^2^( + )上訓(xùn)練。此外,我們報告了兩個 UDA baselines,即 xMUDA 和 xMUDA~PL~,它們使用源域和未標(biāo)記的目標(biāo)域數(shù)據(jù)集 ( + ?)。最后,我們報告了三個 SSDA 的 baselines(在 ?+ ?+ ?上訓(xùn)練)改編自單模態(tài) UDA baselines [5]、[7]、[20]。如下所示:在 ?+ ?上,我們使用類似于監(jiān)督 baseline 所使用的 50%/50% 的 batches 來進(jìn)行訓(xùn)練,但在 ?上添加了相應(yīng)的域適應(yīng)損失。我們的提出半監(jiān)督方法 xMoSSDA 和 xMoSSDA~PL~ 也是以這種方式進(jìn)行訓(xùn)練。(注釋:2. 后者使用來自 ?和 ?的 50%/50% 示例進(jìn)行訓(xùn)練,且大小為 8 的 batch size,其中包括 4 個來自 ?的隨機樣本和 4 個來自 ?的隨機樣本。)
為了實現(xiàn) ,我們將 Waymo OD 和 SemanticKITTI(我們使用隱藏測試集)的未標(biāo)注數(shù)據(jù)包含到 ?中。因此,不可能像在表 2 中那樣訓(xùn)練 Oracle。相反,我們回答這個問題:“通過對 ?進(jìn)行額外訓(xùn)練,我們可以在有監(jiān)督的 baseline 上提高多少?”。我們將其稱為 “無監(jiān)督的優(yōu)勢”,計算的是 xMoSSDA~PL~ ( + ?+ ?) 和有監(jiān)督 baseline ( + ?) 之間的差異。請注意,由于目標(biāo)域和源域數(shù)據(jù)集較小,我們分別排除了 nuSc-Lidarseg: Day/Night 和 Virt.KITTI/Sem.KITTI,但仍然在補充材料中評估了 Virt.KITTI/Sem.KITTI。
我們在表 3 中報告了 3D 分割的 mIoU。注意后面的結(jié)果不能和表 2 相互比較。因為數(shù)據(jù)劃分不同。我們對表 3 進(jìn)行觀察,與表 2 類似,A2D2/SemanticKITTI (最大 ?)上的數(shù)據(jù)集間的域適應(yīng)差距 比 nuSc-Lidarseg:USA/Singap (最大 )和 Waymo OD(最大 )上的數(shù)據(jù)集內(nèi)的域適應(yīng)差距大得多。正如預(yù)期的那樣,xMUDA 和 xMUDA~PL~ ( + ) 比 baseline ?() 有所改善,但(Waymo OD 除外)比 baseline ?( ?+ ) 差。我們還觀察到 xMoSSDA 進(jìn)一步改進(jìn)了 2D 和 3D (最大 2.0),這比集成結(jié)果 2D+3D 要多(最大 0.4),相比較于 baseline( ?+ )。我們將此行為歸因于在 2D 和 3D 預(yù)測不同時集成 (2D+3D)的表現(xiàn)最佳,盡管我們的跨模態(tài)損失與 2D/3D 預(yù)測保持一致。在 xMoSSDA~PL~ 中,單獨的 2D/3D 偽標(biāo)簽作為這種對齊的平衡,導(dǎo)致類似的 2D、3D 和 2D+3D 改進(jìn)。
最后,在 9 個案例的 8 個案例中,xMoSSDA~PL~ 做的比所有的 baseline 高出 。圖 7 中的結(jié)果顯示了對薄結(jié)構(gòu)(灌木、自行車、行人)的分割效果更好。
4.5 Fusion 擴展
到目前為止,我們使用的是具有獨立 2D/3D streams 的架構(gòu)。但是,xMUDA 是否也可以應(yīng)用于兩種模態(tài)進(jìn)行聯(lián)合預(yù)測的融合設(shè)置?
一種常見的融合架構(gòu)是 late fusion,其中來自不同來源的特征被連接起來(見圖 8a)。然而,當(dāng) main 2D/3D 分支合并為一個獨特的 fusion head 時,我們不能再應(yīng)用跨模態(tài)學(xué)習(xí)(如圖 3a 所示)。為了解決這個問題,我們提出了“xMUDA Fusion”,我們在 fusion layer 之前為 2D 和 3D 網(wǎng)絡(luò) streams 添加了一個額外的分割頭,目的是模仿中間的 fusion head(見圖 8b)。請注意,這個想法也可以應(yīng)用于其他 fusion ?架構(gòu)之上。
在表 4 中,我們展示了不同的 fusion 方法得到的結(jié)果,其中我們指定了使用哪種架構(gòu)(圖 8a 中的 Vanilla late fusion 或圖 8b 中的 xMUDA Fusion)。我們觀察到 xMUDA fusion 架構(gòu)比使用 Vanilla 架構(gòu)的 UDA baselines 產(chǎn)生了更好的結(jié)果。這論證了如何在 fusion 設(shè)定中有效地應(yīng)用跨模態(tài)學(xué)習(xí)。

圖 6:xMUDA 的定性結(jié)果。對于UDA Baseline (PL) 和 xMUDA~PL~,我們目標(biāo)域測試數(shù)據(jù)集上展示了集成結(jié)果 (2D+3D)。
nuScenes-Lidarseg : USA/Singapore:UDA Baseline (PL) 未能正確地分類公共汽車,而 xMUDAPL 成功。
nuScenes-Lidarseg : Day/Night:迎面而來的摩托車。白天(摩托車可見)的視覺外觀與夜間(僅大燈可見)有很大不同。單模態(tài) UDA 的 baseline 無法學(xué)習(xí)這一新的視覺外觀。但是,在 xMUDA~PL~ 中,如果交換相機和 robust-at-night LiDAR 之間的信息,則可以在夜間正確地檢測出摩托車。
A2D2/SemanticKITTI:在傳感器發(fā)生變化時(帶有不同角度的 ?層的 LiDAR 變成 64 層的 LiDAR ),xMUDA~PL~ 有助于穩(wěn)定并提高分割的性能。
VirtualKITTI/SemanticKITTI:UDA baseline ?(PL) 對建筑物和道路的分割效果很差,而 xMUDA~PL~ 可以成功。
圖 7:xMoSSDA 的定性結(jié)果。我們展示了有監(jiān)督的 baseline (在 ?+ ?上訓(xùn)練)在目標(biāo)域測試數(shù)據(jù)集上的集成結(jié)果(2D+3D),以及 xMUDA~PL~(在 ?+ ?上訓(xùn)練)、xMoSSDA~PL~(在 + ?+ ? 上訓(xùn)練)。
nuScenes-Lidarseg : USA/Singapore:一個灌木叢被有監(jiān)督的 baseline 和 xMUDA~PL~ 錯誤地分類成了車輛類別,但 xMoSSDA~PL~ 能將其正確分類成植被類別。
A2D2/SemanticKITTI:對于有監(jiān)督的 baseline,中心的自行車沒有與 “Nature” 背景區(qū)分開來。但 xMUDA~PL~ 也是如此,仍然分類錯誤;而 xMoSSDA~PL~ 分類是正確的。
Waymo OD : SF,PHX,MTV/KRK:xMUDA~PL~ 對行人進(jìn)行分割的效果要優(yōu)于有監(jiān)督的 baseline ,而 xMoSSDA~PL~ 的分割效果最好。
表 3:關(guān)于 3D 語義分割的 xMoSSDA 實驗。我們報告每個網(wǎng)絡(luò) stream(2D 和 3D)在目標(biāo)域數(shù)據(jù)集上的 mIoU(最佳和第二最佳),并采用了 2D 和 3D上的概率(2D+3D)的平均值作為集成結(jié)果。在半監(jiān)督域適應(yīng) (SSDA) 中,我們有一個與 UDA 中類似的源域數(shù)據(jù)集 ,而與 UDA 不同的是,目標(biāo)域數(shù)據(jù)集由一個小的標(biāo)記部分 ? 和一個大的未標(biāo)記部分 ?組成。我們提供了三個 baseline ,我們要么只在源域數(shù)據(jù)集()上訓(xùn)練,要么只在標(biāo)記的目標(biāo)域數(shù)據(jù)集( ?)上訓(xùn)練,要么在兩者上同時訓(xùn)練( + ?),且每一 batch 的 ratio 設(shè)定為 50%/50%。為了比較,我們報告了不使用 ?數(shù)據(jù)集的 “ xMUDA” 和 “xMUDA~PL~” 的實驗結(jié)果。三個單模態(tài) SSDA 的 baseline “Deep logCORAL”、“MinEnt” 和 “PL” 以及我們的跨模態(tài)方法 “xMoSSDA” 和 “xMoSSDA~PL~” ,在 ?+ ? 數(shù)據(jù)集上進(jìn)行有監(jiān)督地訓(xùn)練,在每一 batch中的 ratio 設(shè)定為 50%/50%;并且在 ?數(shù)據(jù)集上進(jìn)行無監(jiān)督地訓(xùn)練。我們報告了域差距和 “Unsupervised advantage” ,即 xMoSSDA~PL~ 和 “baseline (src 和 lab.trg)” 之間的差異以及相對改進(jìn)。我們評估了 SSDA 場景:nuScenes-Lidarseg(USA/Singapore)、A2D2 /SemanticKITTI 和 Waymo OD。

圖 8:融合架構(gòu)。 (a) 在 Vanilla Fusion 中,將 2D 和 3D 的特征聯(lián)合起來,輸入到帶有 ReLU 的線性層中以混合它們,然后是另一個線性層和 softmax 以獲得融合預(yù)測 。(b) 在 xMUDA Fusion 中,我們添加了兩個單模態(tài)輸出 ?和 ,用于模擬融合輸出 。
五、消融研究
5.1 Single vs. Dual Segmentation Head
在這里,我們證明我們的 dual head 優(yōu)于更簡單的 single-head 架構(gòu),如圖 3 所示。在 single-head 架構(gòu)中(圖 3a),跨模態(tài)損失 ?直接應(yīng)用于 2D 和 3D main heads 之間。除了有監(jiān)督分割損失 ?之外,還通過對齊兩個輸出來增強一致性。因此,heads 必須同時滿足兩個目標(biāo),即分割和一致性。為了展示這種架構(gòu)的缺點,我們訓(xùn)練 xMUDA(如公式 4 所示)并改變目標(biāo)域上的跨模態(tài)損失 ?的權(quán)重 ?,這是 UDA 主要的 driver。圖 9 中 single-head ?架構(gòu)(圖 3a)的結(jié)果表明,將 λt 從 ?增加到 ?會略微提高 mIoU,但將 ?進(jìn)一步增加到 ?和 ?會產(chǎn)生很大的負(fù)面影響。在極端情況下,當(dāng) ,2D 和 3D 分支總是預(yù)測成同一個類別,因此只滿足了一致性,但不滿足分割的目標(biāo)。
dual head 架構(gòu)(圖 3b)通過引入一個輔助 mimicking head 來解決這個問題,其目的是在訓(xùn)練期間模仿其他模態(tài)的 main head ,并且在之后可以丟棄。這有效地將應(yīng)用于 mimicking head 的模仿目標(biāo)與應(yīng)用于 main head 的分割目標(biāo)分離出來。圖 9 表明,將 dual head 的 ?增加到 ?,總體上會產(chǎn)生最好的結(jié)果,這比 single-head 的 ?等于任何值時都要好。并且,即使在 ?時,結(jié)果也是魯棒的。
表 4:fusion 方法的比較。兩種 UDA 場景的 mIoU 性能:nuScenes-Lidarseg :USA/Singapore 和 A2D2 ?/ SemanticKITTI 。我們將有監(jiān)督的 baseline “Baseline(僅限 src)”和 UDA baseline (“Deep logCORAL”、“MinEnt”、“PL”)適應(yīng)于圖 8a 中描述的 vanilla fusion 的架構(gòu)。我們提出了使用圖 8b 架構(gòu)的 “ xMUDA Fusion ”。
圖 9:Single vs. Dual Head 架構(gòu)。 nuScenes-Lidarseg:USA/Singapore 數(shù)據(jù)集上兩種架構(gòu)的 mIoU,目標(biāo)損失權(quán)重 ?具有不同的值,且 。

表 5:提出的跨模態(tài)損失在有監(jiān)督學(xué)習(xí)中的益處。 在 nuScenes-Lidarseg(Singapore) 和 Waymo OD(KRK) 數(shù)據(jù)集上,且僅使用帶標(biāo)記的目標(biāo)域數(shù)據(jù)集 ,當(dāng)有和沒有跨模態(tài)損失 ?時,有監(jiān)督學(xué)習(xí)的 mIoU 性能 。在 Singapore 數(shù)據(jù)集的實驗中,使用跨模態(tài)損失訓(xùn)練的模型,相當(dāng)于表 2 中該數(shù)據(jù)集上的 oracle。
5.2 源域上的跨模態(tài)學(xué)習(xí)
在公式 4 中,跨模態(tài)損失 ?應(yīng)用于源域和目標(biāo)域,盡管我們已經(jīng)在源域上應(yīng)用了有監(jiān)督的分割損失 。當(dāng)在源域上添加 ?而不是只在目標(biāo)域上應(yīng)用時,我們觀察到 2D上的增益為 ?mIoU , 3D 上的增益為 。這表明,在源域數(shù)據(jù)上訓(xùn)練 mimicking head 是很重要的,從而穩(wěn)定預(yù)測,這可以在目標(biāo)域輸入時的域適應(yīng)過程中被利用。
5.3 跨模態(tài)的有監(jiān)督學(xué)習(xí)
為了評估跨模態(tài)學(xué)習(xí)對純有監(jiān)督學(xué)習(xí) settings 可能的益處,在兩個不同的目標(biāo)域數(shù)據(jù)集上:nuScenes-Lidarseg ?和 Waymo OD ,我們進(jìn)行了添加跨模態(tài)損失和不添加跨模態(tài)損失 ?的實驗。結(jié)果顯示在表 5 中,并展示了添加跨模態(tài)損失 ?時的性能提升。我們假設(shè)額外的跨模態(tài)目標(biāo)可能是有益的,類似于 multi-task learning 。在 Waymo OD 數(shù)據(jù)集上,我們觀察到 2D 上的顯著提升。在訓(xùn)練曲線(validation)中,我們觀察到跨模態(tài)學(xué)習(xí)減少了 2D 上的過擬合。我們假設(shè),受過擬合影響較小的 3D ,對 2D 可以產(chǎn)生正則化的效果。
六、總結(jié)
在這項工作中,在無監(jiān)督 (xMUDA) 和半監(jiān)督 (xMoSSDA) 設(shè)定中,我們提出了用于域適應(yīng)的跨模態(tài)學(xué)習(xí)。為此,我們設(shè)計了一種 ?two-stream、dual-head 的架構(gòu),并在 3D 語義分割任務(wù)中將跨模態(tài)損失應(yīng)用于圖像和點云模態(tài)??缒B(tài)損失由應(yīng)用于兩種模態(tài)預(yù)測間的 KL 散度組成,從而增強了一致性。
關(guān)于四個無監(jiān)督和四個半監(jiān)督的域適應(yīng)場景的實驗表明,跨模態(tài)學(xué)習(xí)優(yōu)于單模態(tài)域適應(yīng)的 baseline ,并且這與偽標(biāo)簽學(xué)習(xí)是互補的。
我們認(rèn)為跨模態(tài)學(xué)習(xí)可以泛化到許多涉及多模態(tài)輸入數(shù)據(jù)的任務(wù),并且不局限于域適應(yīng)或者只是圖像和點云模態(tài)。
七、參考文獻(xiàn)(部分)
[1] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Be- nenson, U. Franke, S. Roth, and B. Schiele, "The cityscapes dataset for semantic urban scene understanding," in CVPR, 2016.
[2] J. Behley, M. Garbade, A. Milioto, J. Quenzel, S. Behnke, C. Stach- niss, and J. Gall, "SemanticKITTI: A dataset for semantic scene understanding of LiDAR sequences," in ICCV, 2019.
[3] J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. Efros, and T. Darrell, "Cycada: Cycle-consistent adversarial domain adaptation," in ICML, 2018.
[4] J. Hoffman, D. Wang, F. Yu, and T. Darrell, "FCNs in the wild: Pixel-level adversarial and constraint-based adaptation," arXiv, 2016.
[5] T.-H. Vu, H. Jain, M. Bucher, M. Cord, and P. Prez, "Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation," in CVPR, 2019.
[6] Y.-H. Tsai, W.-C. Hung, S. Schulter, K. Sohn, M.-H. Yang, and M. Chandraker, "Learning to adapt structured output space for semantic segmentation," in CVPR, 2018.
[7] Y. Li, L. Yuan, and N. Vasconcelos, "Bidirectional learning for domain adaptation of semantic segmentation," in CVPR, 2019.
[8] B. Wu, X. Zhou, S. Zhao, X. Yue, and K. Keutzer, "Squeezesegv2: Improved model structure and unsupervised domain adaptation for road-object segmentation from a lidar point cloud," in ICRA,2019.
[9] M. Jaritz, T.-H. Vu, R. d. Charette, E. Wirbel, and P. Prez, "xmuda: Cross-modal unsupervised domain adaptation for 3d semantic segmentation," in CVPR, 2020.
[10] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, "nuScenes: A multimodal dataset for autonomous driving," CVPR, 2020.
[11] D.-H. Lee, "Pseudo-label: The simple and ef?cient semi- supervised learning method for deep neural networks," in ICML Workshops, 2013.
[12] O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," in MICCAI, 2015.
[13] B. Graham, M. Engelcke, and L. van der Maaten, "3d semantic segmentation with submanifold sparse convolutional networks," in CVPR, 2018.
[14] Y. Yang and S. Soatto, "FDA: Fourier domain adaptation for semantic segmentation," in CVPR, 2020.
[15] Y. Zou, Z. Yu, X. Liu, B. V. Kumar, and J. Wang, "Con?dence regularized self-training," in ICCV, 2019.
[16] A. Saporta, T.-H. Vu, M. Cord, and P. Prez, "Esl: Entropy-guided self-supervised learning for domain adaptation in semantic seg- mentation," in CVPR Workshop, 2020.
[17] L. T. Triess, M. Dreissig, C. B. Rist, and J. M. Zllner, "A survey on deep domain adaptation for lidar perception," in IV Workshop on Autonomy at Scale, 2021.
[18] C. Qin, H. You, L. Wang, C.-C. J. Kuo, and Y. Fu, "Pointdan: A multi-scale 3d domain adaption network for point cloud repre- sentation," in NeurIPS, 2019.
[19] I. Achituve, H. Maron, and G. Chechik, "Self-supervised learning for domain adaptation on point clouds," WACV, 2021.
[20] P. Morerio, J. Cavazza, and V. Murino, "Minimal-entropy corre- lation alignment for unsupervised deep domain adaptation," in ICLR, 2018.
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
更多干貨
歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計算機視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動駕駛、點云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長~
添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。