論文解讀|進一步融合:體積融合中6D姿態(tài)估計的多對象推理

01
背景
機器人等智能設備需要從它們的車載視覺系統(tǒng)中獲得高效的基于物體的場景表示,以解釋接觸、物理和遮擋。已識別的精確對象模型將與未識別結構的非參數重建一起發(fā)揮重要作用。
本文提出了一個系統(tǒng)用于估計實時的接觸和遮擋的精確姿態(tài)。從單個RGBD視圖中提出三維對象姿態(tài)建議,在攝像機移動時從多個視圖中積累姿態(tài)估計和非參數占用信息,并執(zhí)行聯(lián)合優(yōu)化,以估計接觸中的多個對象的一致的、不相交的姿態(tài)。
本文在兩個對象數據集上通過實驗驗證了該方法的準確性和魯棒性:YCB-Video和具有挑戰(zhàn)性的雜亂的YCB-Video。
其具有周圍空間感知的姿態(tài)預測,預測網絡接收占用網格作為對象的不可穿透空間;多對象姿態(tài)的聯(lián)合優(yōu)化,對多對象的場景配置進行評估和更新;將融合和6D姿態(tài)作為實時系統(tǒng),利用目標級體積圖進行增量和精確的姿態(tài)估計。
機器設備在執(zhí)行復雜的任務的時候,需要從相機中捕捉信息,從而對物體之間的接觸、物理和遮擋進行推理,實現它們在混亂的環(huán)境中進行精確操作。一些短期任務通過端到端連接感知和動作的端到端學習模型來完成,但擴展和多階段的任務可以在以后3D場景表示展現出巨大的潛力。


02
相關工作及文本思想
本文展開工作與這些RGB-D和基于學習的深度神經網絡方法最密切相關。與之前工作中基于點云和以目標對象為主的方法相比,使用更結構化的體積表示和目標對象周圍的幾何信息來處理幾何圖形。
(1)對象級的體積融合階段。
它將對象檢測產生的對象實例掩模與深度測量和相機跟蹤組件結合起來,以生成體積地圖。物體級體積融合建立體積圖是我們的姿態(tài)估計系統(tǒng)的第一階段,它允許系統(tǒng)逐漸增加對場景的知識,直到有了對場景中物體姿態(tài)的理解。
對于這個目標級的體積融合階段,本文構建了一個管道,結合了RGB-D相機跟蹤、目標檢測和被檢測對象的體積映射。為了跟蹤已經初始化的對象,使用當前幀中檢測到的掩模的交叉過并集,之后渲染掩模當前重建。對于已經初始化的對象,我們將新的深度測量值融合到該對象的體積圖中。
(2)體積姿態(tài)預測階段。
它利用來自體積圖的周圍信息和RGB-D掩模來為每個對象產生一個初始的姿態(tài)預測。系統(tǒng)從體積圖中檢索周圍的信息,以將目標物體周圍區(qū)域的空間感知整合到姿態(tài)預測中。周圍信息的邊界框應該覆蓋目標對象的整個區(qū)域,根據目標對象的大小而改變。由于使用固定的體素維數來進行網絡預測,所以需將每個對象從對象模型大小計算出來,使用不同的體素大小。
為了結合二維和三維特征進行姿態(tài)預測,從三維特征網格中提取與二維特征對應的點和三插值。這些三維和二維特征被連接為點向特征向量來進行姿態(tài)預測,獲取預測姿態(tài)和置信度。

由于對象的可見性降低(例如,黃色框),姿態(tài)預測具有對象之間的交叉。ICC通過使用來自附近對象的約束和自由空間重建,將對象姿態(tài)細化為比ICP更好的配置。從交叉物體姿態(tài)細化的角度出發(fā)理解,本文比較提出的迭代碰撞檢查(ICC)與迭代最近點(ICP)
(3)基于碰撞的姿態(tài)細化階段。
通過使用物體CAD模型和已占據空間之間的可微碰撞檢查,通過梯度下降聯(lián)合優(yōu)化多個物體的姿態(tài)。在聯(lián)合優(yōu)化中,引入了可微碰撞檢查,包括對象CAD模型的占用體素化和占用網格之間的交叉損失。由于兩者都是可微的,于是使用GPU上的優(yōu)化批處理操作來優(yōu)化對象姿態(tài)。
(4)CAD對齊階段。
它用一個包含緊湊和豐富的信息的CAD模型替換每個對象的中間表示。在進行姿態(tài)估計和細化之后,一旦在不同視圖中估計的姿態(tài)有足夠的一致性,我們就會將對象CAD模型衍生到地圖中。利用轉換后的對象姿態(tài)使用姿態(tài)損失進行比較,使用姿態(tài)損失來訓練姿態(tài)預測網絡。

圖4 網絡體系結構
利用目標對象的掩蔽RGB-D及其周圍信息作為占用網格進行姿態(tài)預測
03
總結
本文使用YCB-Video數據集在之前的工作中被廣泛用于評估6D姿態(tài)估計,但由于所有的場景都是桌面的,該數據集在對象方向和遮擋的多樣性方面受到限制。
MoreFusion系統(tǒng)在YCB-Video和ClutteredYCB-Video兩個物體數據集上進行了實驗驗證,并與其他方法進行了對比。
實驗結果表明,MoreFusion系統(tǒng)在物體姿態(tài)估計方面具有更高的準確性和魯棒性,特別是在存在遮擋和復雜背景的情況下。
此外,MoreFusion系統(tǒng)還可以在實時機器人應用程序中實現高效的物體檢測和姿態(tài)估計,從而實現了機器人在復雜環(huán)境中精確有序地拆卸物體堆的能力。
因此,MoreFusion系統(tǒng)的主要優(yōu)勢是:具有周圍空間感知的姿態(tài)預測、多物體姿態(tài)的聯(lián)合優(yōu)化和融合、6D姿態(tài)的完全集成以及在復雜環(huán)境中實現高效的物體檢測和姿態(tài)估計。
作者?|?George
排版 |?居居手
更多精彩內容請關注公眾號:BFT機器人
本文為原創(chuàng)文章,版權歸BFT機器人所有,如需轉載請與我們聯(lián)系。若您對該文章內容有任何疑問,請與我們聯(lián)系,將及時回應。