論文解讀 | DSC-PoseNet:通過雙尺度一致性學(xué)習(xí)6DoF物體姿態(tài)估計
原創(chuàng) | 文 BFT機(jī)器人

這篇論文是關(guān)于物體姿態(tài)估計的研究。
物體姿態(tài)估計的目標(biāo)是通過相機(jī)獲取一個物體的6個自由度(DoF),包括3D方向和3D平移。然而,由于物體可能會遭受各種光照變化和嚴(yán)重遮擋,從單個RGB圖像中準(zhǔn)確地估計姿態(tài)是非常具有挑戰(zhàn)性的。
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,許多基于深度學(xué)習(xí)的姿態(tài)估計算法已經(jīng)被提出并取得了很好的效果。
本文所遇到的難點(diǎn)是在沒有真實(shí)姿態(tài)注釋情況下訓(xùn)練RGB模型的性能問題。由于深度神經(jīng)網(wǎng)絡(luò)需要大量的真實(shí)圖像進(jìn)行訓(xùn)練,而標(biāo)注3D物體姿態(tài)比標(biāo)注2D圖像更加困難,特別是當(dāng)只提供RGB圖像時。因此,缺乏準(zhǔn)確的3D姿態(tài)注釋可能會導(dǎo)致姿態(tài)估計方法性能嚴(yán)重下降。
為了解決這個問題,本文提出了一種新穎的兩步物體姿態(tài)估計方法,并使用易于獲取的2D邊界框注釋進(jìn)行訓(xùn)練,從而顯著提高了在沒有真實(shí)姿態(tài)注釋情況下訓(xùn)練的RGB模型性能。

01
該篇論文的創(chuàng)新點(diǎn)主要有兩個:
1.提出了一種新的兩步物體姿態(tài)估計方法,該方法只使用易于獲取的2D邊界框注釋進(jìn)行訓(xùn)練,可以在沒有真實(shí)姿態(tài)監(jiān)督的情況下進(jìn)行訓(xùn)練以估計物體姿態(tài),并且還提供了一種在沒有3D姿態(tài)標(biāo)簽時涉及真實(shí)圖像的解決方案。
2.提出了一種自監(jiān)督雙尺度姿態(tài)估計網(wǎng)絡(luò)(DSC-PoseNet),通過構(gòu)建可微分渲染器的跨尺度自監(jiān)督來顯著減輕合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的領(lǐng)域差異。與其他基于RGB圖像的物體姿態(tài)估計方法相比,DSC-PoseNet在性能上具有優(yōu)勢。

02
提出兩步物體姿態(tài)估計方法:
第一步是使用2D邊界框進(jìn)行弱監(jiān)督分割。
該步驟的目標(biāo)是從單個RGB圖像中估計物體的姿態(tài)。具體來說,該算法使用DSC-PoseNet對真實(shí)圖像進(jìn)行裁剪和縮放,然后使用2D邊界框進(jìn)行弱監(jiān)督分割。這意味著算法只需要2D邊界框注釋而不需要真實(shí)的3D姿態(tài)注釋。
在這個步驟中,首先將真實(shí)圖像裁剪并縮放到固定大?。?80×640×3);
然后,使用2D邊界框?qū)ξ矬w進(jìn)行分割。為了提高網(wǎng)絡(luò)的性能,該算法還使用雙尺度一致性和可見輪廓對齊自監(jiān)督損失來訓(xùn)練網(wǎng)絡(luò)。這種方法可以使網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒的特征,并且可以在沒有真實(shí)姿態(tài)注釋的情況下進(jìn)行訓(xùn)練。
此外,該算法還可以使用真實(shí)姿態(tài)注釋進(jìn)行訓(xùn)練。在這種情況下,算法會將真實(shí)姿態(tài)注釋與2D邊界框一起用于訓(xùn)練網(wǎng)絡(luò)。這種方法可以進(jìn)一步提高網(wǎng)絡(luò)的性能,并且可以在有限數(shù)量的真實(shí)姿態(tài)注釋情況下獲得更好的結(jié)果。
總之,在第一步中,該算法使用2D邊界框進(jìn)行弱監(jiān)督分割,并使用雙尺度一致性和可見輪廓對齊自監(jiān)督損失來訓(xùn)練網(wǎng)絡(luò)。
此外,該算法還可以使用真實(shí)姿態(tài)注釋進(jìn)行訓(xùn)練。這種方法可以在沒有真實(shí)姿態(tài)注釋的情況下進(jìn)行訓(xùn)練,并且可以在有限數(shù)量的真實(shí)姿態(tài)注釋情況下獲得更好。具體如圖1左邊所示。
第二步是自監(jiān)督關(guān)鍵點(diǎn)學(xué)習(xí),它是DSC-PoseNet訓(xùn)練流程的一部分。
該步驟旨在通過學(xué)習(xí)圖像中的關(guān)鍵點(diǎn)來提高姿態(tài)估計的準(zhǔn)確性。這個過程可以分為以下幾個步驟:
首先,使用第一步中生成的偽標(biāo)簽和真實(shí)數(shù)據(jù),將圖像裁剪并調(diào)整大小以匹配網(wǎng)絡(luò)輸入大小。
然后,使用DSC-PoseNet對這些圖像進(jìn)行前向傳遞,并從輸出中提取2D關(guān)鍵點(diǎn)。接下來,將這些關(guān)鍵點(diǎn)與偽掩模進(jìn)行比較,并使用可微分PnP +渲染器對前景概率進(jìn)行計算。這些前景概率被用于生成可見渲染和可見輪廓對齊。
最后,在訓(xùn)練過程中,使用雙尺度一致性來強(qiáng)制執(zhí)行關(guān)鍵點(diǎn)之間的空間一致性。這可以通過將2D關(guān)鍵點(diǎn)投影到3D空間并在不同尺度上重新投影回2D空間來實(shí)現(xiàn)。

圖2展示了DSC-PoseNet網(wǎng)絡(luò)如何預(yù)測物體中每個像素的關(guān)鍵點(diǎn),并且如何使用注意力機(jī)制和加權(quán)平均來提高預(yù)測準(zhǔn)確性。
總之,在第二步中,利用自監(jiān)督學(xué)習(xí)方法來提高姿態(tài)估計的準(zhǔn)確性。通過比較偽掩模和2D關(guān)鍵點(diǎn),并使用雙尺度一致性來強(qiáng)制執(zhí)行空間一致性,可以獲得更好的結(jié)果。具體如圖1右邊所示。
03
實(shí)驗(yàn)結(jié)果

圖3描述了在Occluded LINEMOD數(shù)據(jù)集上的定性結(jié)果。其中,綠色代表真實(shí)姿態(tài),紅色代表未歸一化尺度的預(yù)測結(jié)果,黃色代表歸一化尺度的預(yù)測結(jié)果,藍(lán)色代表通過對兩種尺度預(yù)測出的關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行平均得到的集成預(yù)測結(jié)果。
簡單來說,這個圖展示了DSC-PoseNet網(wǎng)絡(luò)在Occluded LINEMOD數(shù)據(jù)集上的關(guān)鍵點(diǎn)坐標(biāo)預(yù)測結(jié)果,并且比較了不同尺度下的預(yù)測效果。

表1展示了DSC-PoseNet網(wǎng)絡(luò)在LINEMOD數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)的結(jié)果,以評估不同模型組件對關(guān)鍵點(diǎn)學(xué)習(xí)和分割性能的影響。
04
結(jié)論
該篇論文提出了一種新的兩步物體姿態(tài)估計方法,并顯著提高了沒有真實(shí)姿態(tài)注釋的基于RGB的最先進(jìn)模型的性能。
作者提出的姿態(tài)估計網(wǎng)絡(luò)名為DSC-PoseNet,只使用易于獲取的2D邊界框注釋進(jìn)行訓(xùn)練。通過可見輪廓對齊和雙尺度一致性自監(jiān)督損失,DSC-PoseNet可以在沒有真實(shí)姿態(tài)監(jiān)督的情況下進(jìn)行訓(xùn)練以估計物體姿態(tài),并且還提供了一種在沒有3D姿態(tài)標(biāo)簽時涉及真實(shí)圖像的解決方案。
此外,盡管該網(wǎng)絡(luò)是為未標(biāo)記的真實(shí)圖像設(shè)計的,但也可以使用真實(shí)姿態(tài)注釋進(jìn)行訓(xùn)練。
網(wǎng)址:https://arxiv.org/abs/2104.03658v1標(biāo)題:DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency
更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。