所有指標(biāo)全面領(lǐng)先!圖像-點(diǎn)云配準(zhǔn)最新SOTA!CoFiI2P詳細(xì)介紹!
作者:大森林 ?| 來源:3D視覺工坊
在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf。
添加微信:dddvisiona,備注:3D點(diǎn)云 ,拉你入群。文末附行業(yè)細(xì)分群。
本文介紹了 CoFiI2P,這是一種新穎的圖像到點(diǎn)云(I2P)配準(zhǔn)網(wǎng)絡(luò)。傳統(tǒng)的I2P配準(zhǔn)方法通常在點(diǎn)到像素級(jí)別估計(jì)對(duì)應(yīng)關(guān)系,但忽略了全局關(guān)系,這往往導(dǎo)致陷入局部最優(yōu)解。為了解決這個(gè)問題,CoFiI2P采用分層的方式提取對(duì)應(yīng)關(guān)系,使神經(jīng)網(wǎng)絡(luò)可以考慮全局信息,從而獲得全局最優(yōu)解。這里也推薦「3D視覺工坊」新課程《三維點(diǎn)云處理:算法與實(shí)戰(zhàn)匯總》。
具體來說:
圖像和點(diǎn)云首先通過 Siamese編碼器-解碼器網(wǎng)絡(luò)進(jìn)行分級(jí)特征提取。
設(shè)計(jì)了一個(gè)從粗到細(xì)的匹配模塊,建立魯棒的特征對(duì)應(yīng)關(guān)系。
在粗匹配模塊中,采用了一種新穎的 I2P Transformer 模塊,從圖像和點(diǎn)云中捕獲全局信息,并估計(jì)粗糙的超點(diǎn)到超像素匹配對(duì)。
在細(xì)匹配模塊中,在超點(diǎn)到超像素的對(duì)應(yīng)關(guān)系監(jiān)督下,建立點(diǎn)到像素對(duì)。
最后,使用 EPnP-RANSAC算法估計(jì)變換矩陣。
在 KITTI 數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,與直接在點(diǎn)像素層面進(jìn)行配準(zhǔn)的一階段密集預(yù)測(cè)和匹配方法相比,CoFiI2P能夠過濾掉大量錯(cuò)誤的對(duì)應(yīng)關(guān)系,并在所有指標(biāo)上都處于領(lǐng)先地位。并且,CoFiI2P 在各種環(huán)境下都具有準(zhǔn)確性、魯棒性和高效性。
圖1. 本文提出的從粗到細(xì)I2P配準(zhǔn)方案和現(xiàn)有的一階段I2P配準(zhǔn)方案的對(duì)比。(a)展示了兩階段配準(zhǔn)流程。(b)展示了一階段配準(zhǔn)流程。
圖像與點(diǎn)云(I2P)配準(zhǔn)是機(jī)器人導(dǎo)航和移動(dòng)建圖領(lǐng)域的基礎(chǔ)任務(wù)?,F(xiàn)有的I2P配準(zhǔn)工作通常在點(diǎn)與像素層面上估計(jì)對(duì)應(yīng)關(guān)系,但忽略了全局配準(zhǔn)。然而,如果沒有高層次的全局約束指導(dǎo),I2P匹配容易陷入局部最優(yōu)解。為解決這個(gè)問題,本文提出了 CoFiI2P,一種新的I2P配準(zhǔn)網(wǎng)絡(luò),它采用從粗到細(xì)的方式提取對(duì)應(yīng)關(guān)系,以獲得全局最優(yōu)解。圖像和點(diǎn)云首先被輸入到 Siamese編碼器-解碼器網(wǎng)絡(luò)中進(jìn)行分級(jí)特征提取。設(shè)計(jì)了一個(gè)從粗到細(xì)的匹配模塊,利用特征建立穩(wěn)健的特征對(duì)應(yīng)關(guān)系。在粗匹配模塊中,采用了一個(gè)新穎的 I2P Transformer 模塊,用于捕獲圖像和點(diǎn)云中的同質(zhì)和異質(zhì)全局信息。通過可判別的描述子,估計(jì)出粗粒度的超點(diǎn)與超像素匹配對(duì)。在細(xì)匹配模塊中,在超點(diǎn)與超像素對(duì)應(yīng)關(guān)系的監(jiān)督下,建立點(diǎn)與像素對(duì)。最后,基于匹配對(duì),利用 EPnP-RANSAC算法估計(jì)變換矩陣。在 KITTI數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,CoFiI2P實(shí)現(xiàn)了 2.25度的相對(duì)旋轉(zhuǎn)誤差(RRE)和 0.61米的相對(duì)平移誤差(RTE)。與目前最先進(jìn)(SOTA)的方法相比,這些結(jié)果在RRE上改進(jìn)了 **14%**,在RTE上改進(jìn)了 **52%**。
圖2. CoFiI2P的工作流程。該方法由特征提取、粗匹配、細(xì)匹配和姿態(tài)估計(jì)模塊組成。圖像和點(diǎn)云被送入特征提取模塊中獲得分層深度特征,分別。粗粒度特征由I2P Transformer 模塊增強(qiáng),然后用余弦相似性規(guī)則進(jìn)行匹配。細(xì)粒度特征從解碼器的最后一層收集。在每個(gè)超點(diǎn)與超像素對(duì)中,節(jié)點(diǎn)點(diǎn)被設(shè)置為候選點(diǎn),對(duì)應(yīng)像素從s×s窗口的超像素區(qū)域中選擇。生成的密集匹配對(duì)被用于姿態(tài)回歸。
為方便描述,定義部分重疊的圖像和點(diǎn)云對(duì)為和,其中W和H分別是寬度和高度,N是點(diǎn)的數(shù)量。I2P配準(zhǔn)的目的是估計(jì)圖像I和點(diǎn)云P之間的相對(duì)變換,包括旋轉(zhuǎn)矩陣和平移向量。
我們的方法采用從粗到細(xì)的方式找到正確的對(duì)應(yīng)關(guān)系集。CoFiI2P主要由四個(gè)模塊組成:特征提取(FE)、粗匹配(CM)、細(xì)匹配(FM)和姿態(tài)估計(jì)(PE)。FE是一個(gè)編碼器-解碼器結(jié)構(gòu)網(wǎng)絡(luò),將不同模態(tài)的原始輸入編碼成高維特征空間。CM和FM是級(jí)聯(lián)的兩階段匹配模塊。CM首先在超像素/超點(diǎn)層面構(gòu)建粗配準(zhǔn),然后FM在其指導(dǎo)下在像素/點(diǎn)層面構(gòu)建細(xì)配準(zhǔn)。最后,PE模塊利用點(diǎn)像素匹配對(duì)回歸相對(duì)變換,使用EPnP-RANSAC 算法。工作流程如圖2所示。
我們利用ResNet-34和KPConv-FPN作為圖像和點(diǎn)云的骨干網(wǎng)絡(luò),以提取多層次特征。編碼器逐步壓縮原始輸入為高維特征,解碼器通過跳躍連接將高層信息傳遞給低層細(xì)節(jié),為每個(gè)像素/點(diǎn)生成密集的特征。表明跳躍連接設(shè)計(jì)可以組合細(xì)節(jié)和語義信息進(jìn)行密集預(yù)測(cè)。因此,我們從多個(gè)分辨率中提取代表性特征進(jìn)行從粗到細(xì)的匹配。具體來說,在最粗糙的分辨率下選擇的超點(diǎn)集和超像素集作為粗匹配的候選項(xiàng)。超點(diǎn)和超像素相關(guān)的特征表示為和,其中n、w、h、C 分別表示超點(diǎn)數(shù)量、超像素特征圖的寬、高和維度。
對(duì)于每個(gè)超點(diǎn),其周圍的局部補(bǔ)丁點(diǎn)在特征空間中用點(diǎn)到節(jié)點(diǎn)策略構(gòu)建:
其中是選定的半徑。由于圖像上的像素?cái)?shù)組具有剛性順序,局部補(bǔ)丁像素簡(jiǎn)單地用金字塔匹配策略構(gòu)建。
圖3. I2P Transformer 模塊(左)和注意力模塊(右)示意圖。
在CM模塊中,利用I2P Transformer 捕獲圖像和點(diǎn)云之間的幾何和空間一致性。I2P Transformer 的每個(gè)階段由一個(gè)自注意力模塊和一個(gè)交叉注意力模塊組成,用于提取超點(diǎn)與超像素對(duì)應(yīng)關(guān)系匹配所需的混合特征。自注意力模塊和交叉注意力模塊重復(fù)N次,以提取混合特征。
I2P Transformer :與傳統(tǒng)基于CNN的方法相比,視覺 Transformer (ViT)在分類、檢測(cè)、分割和其他任務(wù)上都有巨大的性能提升。此外,最近的方法已經(jīng)在I2I和P2P配準(zhǔn)任務(wù)中引入了 Transformer 模塊。因此,我們引入了適用于異構(gòu)模態(tài)配準(zhǔn)任務(wù)的I2P Transformer 模塊,以增強(qiáng)描述子的表示能力和魯棒性。與用于同模態(tài)配準(zhǔn)任務(wù)的ViT不同,我們的I2P Transformer 包含自注意力模塊捕獲同質(zhì)數(shù)據(jù)的空間上下文,和交叉注意力模塊提取異質(zhì)數(shù)據(jù)的混合特征。
對(duì)于自注意力模塊,給定圖像或點(diǎn)云的粗粒度特征圖,查詢、鍵和值向量、、生成如下:
其中是可學(xué)習(xí)的權(quán)重矩陣,如圖3所示。然后,全局注意力計(jì)算為:
提取的包含全局感知信息的特征饋入前饋網(wǎng)絡(luò)(FFN),在通道維度上融合空間關(guān)系信息。給定特征圖F,相對(duì)位置用多層感知機(jī)(MLP)編碼。
交叉注意力被設(shè)計(jì)用于在I2P配準(zhǔn)任務(wù)中融合圖像和點(diǎn)云特征。給定超點(diǎn)集的自注意力特征圖和超像素集的自注意力特征圖,點(diǎn)云的交叉注意力特征 和圖像的交叉注意力特征計(jì)算如下:
其中是點(diǎn)云特征的查詢、鍵和值向量,是圖像特征的查詢、鍵和值向量。
自注意力模塊對(duì)每個(gè)超像素和超點(diǎn)編碼空間和幾何特征,而交叉注意力模塊分別向點(diǎn)云和圖像注入幾何結(jié)構(gòu)信息和紋理信息。I2P Transformer 的輸出攜帶了強(qiáng)大的跨模態(tài)信息,用于后續(xù)匹配。
超點(diǎn)/超像素匹配:對(duì)于單目相機(jī),視場(chǎng)(FoV)顯然小于3D激光雷達(dá)(如Velodyne-H64)的激光掃描范圍,后者通常在水平方向上掃描360度。因此,只有少數(shù)超點(diǎn)在攝像頭視錐體內(nèi)。為了過濾超出視錐體的超點(diǎn),我們添加了一個(gè)簡(jiǎn)單的二分類頭來預(yù)測(cè)超點(diǎn)在視錐體內(nèi)或外。去除超出視錐體的超點(diǎn)后,計(jì)算特征空間內(nèi)候選超點(diǎn)與超像素之間的距離矩陣。給定定義的超點(diǎn)集和超像素集,超點(diǎn)與超像素對(duì)應(yīng)的集合通過在特征空間內(nèi)為每個(gè)在視錐體內(nèi)的超點(diǎn)排序最近的超像素定義:
第一階段在粗粒度上的匹配構(gòu)建了粗粒度的超像素與超點(diǎn)對(duì),但導(dǎo)致較差的配準(zhǔn)準(zhǔn)確度。為了獲得高質(zhì)量的I2P對(duì)應(yīng)關(guān)系,我們?cè)诖峙錅?zhǔn)結(jié)果的基礎(chǔ)上生成細(xì)粒度對(duì)應(yīng)關(guān)系。在解碼器過程中,在每個(gè)超點(diǎn)/超像素對(duì)應(yīng)關(guān)系中,超點(diǎn)反向映射為個(gè)點(diǎn),超像素反向映射為個(gè)像素。考慮到點(diǎn)云的不均勻分布和計(jì)算效率,只選擇節(jié)點(diǎn)點(diǎn)建立對(duì)應(yīng)關(guān)系。對(duì)于每個(gè)節(jié)點(diǎn)點(diǎn),我們選擇特征空間中最近的像素。每個(gè)超點(diǎn)-超像素對(duì)中的點(diǎn)像素對(duì)被連接在一起形成密集對(duì)應(yīng)的對(duì)。用局部補(bǔ)丁的點(diǎn)特征圖和像素特征圖,整個(gè)細(xì)匹配過程定義為:
利用密集的點(diǎn)像素對(duì),可以用EPnP算法求解相對(duì)變換。如前面方法所述,錯(cuò)誤匹配可能滲透到點(diǎn)像素對(duì)中,降低配準(zhǔn)準(zhǔn)確度。在CoFiI2P中,使用EPnP-RANSAC算法進(jìn)行魯棒相機(jī)姿態(tài)估計(jì)。
損失函數(shù) 由分類損失,粗配準(zhǔn)損失和細(xì)配準(zhǔn)損失三部分組成。對(duì)視錐體內(nèi)/外超點(diǎn)分類采用二分類交叉熵?fù)p失,粗細(xì)粒度描述子學(xué)習(xí)采用對(duì)比損失。與像素的點(diǎn)云特征之間的特征空間相似度定義為:
距離定義為:
在粗粒度上,每個(gè)在視錐體內(nèi)超點(diǎn)的正樣本錨點(diǎn)從地面真值對(duì)集中采樣:
其中是從點(diǎn)云坐標(biāo)系統(tǒng)到圖像視錐坐標(biāo)系統(tǒng)的變換矩陣:
表示將點(diǎn)從攝像機(jī)視錐坐標(biāo)系統(tǒng)映射到圖像平面坐標(biāo)系統(tǒng)的函數(shù)。負(fù)樣本超像素遵循CorrI2P 的方法選擇,即與最近但遠(yuǎn)于安全半徑的超像素:
粗粒度描述子損失定義為三元組形式:
其中和分別是正樣本邊界和負(fù)樣本邊界。
細(xì)粒度描述子損失定義為修正的圓形損失。對(duì)于每個(gè)點(diǎn),其正樣本像素和負(fù)樣本集的定義與(11)相同,描述子損失定義為:
其中和分別是朝向負(fù)樣本和正樣本的動(dòng)態(tài)優(yōu)化率,是比例因子。和定義為:
超點(diǎn)分類損失是二分類交叉熵?fù)p失:
CoFiI2P相對(duì)于當(dāng)前最先進(jìn)的方法在相對(duì)旋轉(zhuǎn)和平移誤差方面取得了顯著的改進(jìn)。CoFiI2P通過提取特征并建立魯棒的特征對(duì)應(yīng)關(guān)系,在全局范圍內(nèi)進(jìn)行圖像和點(diǎn)云的對(duì)齊,從而避免了傳統(tǒng)方法在局部最優(yōu)解上收斂的問題。其粗匹配模塊利用了一種新穎的I2P轉(zhuǎn)換器模塊,從圖像和點(diǎn)云中捕獲了全局信息,并估計(jì)了粗糙的超點(diǎn)對(duì)超像素匹配對(duì)。精細(xì)匹配模塊利用超點(diǎn)對(duì)超像素對(duì)應(yīng)關(guān)系監(jiān)督建立了點(diǎn)對(duì)像素對(duì)應(yīng)關(guān)系。最后,使用EPnP-RANSAC算法估計(jì)變換矩陣。這里也推薦「3D視覺工坊」新課程《三維點(diǎn)云處理:算法與實(shí)戰(zhàn)匯總》。
CoFiI2P相對(duì)于CorrI2P方法在召回率、準(zhǔn)確率和F1得分方面都獲得了更高的結(jié)果。這表明CoFiI2P方法的粗匹配和精細(xì)匹配策略挖掘了更多的重疊區(qū)域,并有益于姿態(tài)估計(jì)過程。此外,CoFiI2P在相對(duì)旋轉(zhuǎn)誤差和相對(duì)平移誤差方面的改進(jìn)。CoFiI2P相對(duì)于CoFiI2P-C和CoFiI2P-F模塊,在相對(duì)旋轉(zhuǎn)和平移誤差方面都取得了更好的結(jié)果。具體結(jié)果如下:
表1. KITTI數(shù)據(jù)集上的配準(zhǔn)準(zhǔn)確度。
表2. 視場(chǎng)分類結(jié)果。
圖4. 定量配準(zhǔn)結(jié)果。
圖5. CoFiI2P估計(jì)的對(duì)應(yīng)關(guān)系定性結(jié)果。
圖6. RRE和RTE的錯(cuò)誤分布。(a)和(b)顯示CorrI2P的RRE和RTE分布。(c)和(d)顯示CoFiI2P的RRE和RTE分布。
圖7. 在不同閾值下的內(nèi)點(diǎn)比例比較。
圖8. CorrI2P和CoFiI2P的RMSE分布。
本文介紹了 CoFiI2P,一種用于圖像到點(diǎn)云配準(zhǔn)的新穎網(wǎng)絡(luò)。它的核心思想是采用從粗到細(xì)的匹配策略,首先在全局層面建立穩(wěn)健的對(duì)應(yīng)關(guān)系,然后在局部層面逐步學(xué)習(xí)精確的對(duì)應(yīng)關(guān)系。此外,CoFiI2P引入了具有自注意力和交叉注意力模塊的I2P Transformer ,以增強(qiáng)同質(zhì)數(shù)據(jù)和異質(zhì)數(shù)據(jù)中的全局感知能力。與直接在點(diǎn)像素層面進(jìn)行配準(zhǔn)的一階段密集預(yù)測(cè)和匹配方法相比,CoFiI2P能夠過濾掉大量錯(cuò)誤的對(duì)應(yīng)關(guān)系,并在所有指標(biāo)上都處于領(lǐng)先地位。在 KITTI 數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,CoFiI2P 在各種環(huán)境下都具有準(zhǔn)確性、魯棒性和高效性。