最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

HybridPose:混合表示下的6D對象姿態(tài)估計

2020-12-11 17:09 作者:3D視覺工坊  | 我要投稿

來源:公眾號|3D視覺工坊(系投稿)

作者:康斯坦奇

「3D視覺工坊」技術(shù)交流群已經(jīng)成立,目前大約有12000人,方向主要涉及3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等。工坊致力于干貨輸出,不做搬運工,為計算機視覺領(lǐng)域貢獻自己的力量!歡迎大家一起交流成長~

添加小助手微信:CV_LAB,備注學校/公司+姓名+研究方向即可加入工坊一起學習進步。

QQ群「3D視覺研習社」,群號:574432628

論文題目:HybridPose: 6D Object Pose Estimation under Hy Representations

論文地址:在公眾號「3D視覺工坊」后臺,回復「6D對象姿態(tài)估計」,即可直接下載。

摘要本文介紹了HybridPose,這是一種新穎的6D對象姿態(tài)估計方法。HybridPose利用混合中間表示在輸入圖像中表達不同的幾何信息,包括關(guān)鍵點,邊緣矢量和對稱對應關(guān)系。與單一表示相比,當一種類型的預測表示不準確時(例如,由于遮擋),本文的混合表示允許位姿回歸利用更多不同的特征。HybridPose利用強大的回歸模塊來過濾預測的中間表示中的異常值。本文通過證明可以通過相同的簡單神經(jīng)網(wǎng)絡預測所有中間表示而無需犧牲整體性能來展示HybridPose的魯棒性。與最新的位姿估計方法相比,HybridPose在運行時間上具有可比性,并且準確性更高。例如,在Occlusion Linemod數(shù)據(jù)集上,本文的方法實現(xiàn)了30 fps的預測速度,平均ADD(-S)精度為79.2%,比當前的最新方法提高了67.4%。

一、簡介

在本文中,本文介紹了HybridPose,它利用多個中間表示來表達輸入圖像中的幾何信息以進行位姿估計。除關(guān)鍵點外,HybridPose還集成了一個預測網(wǎng)絡,該網(wǎng)絡可以輸出相鄰關(guān)鍵點之間的邊緣矢量,如圖1所示。由于大多數(shù)對象都具有(部分)反射對稱性,因此HybridPose還利用了預測的密集逐像素對應關(guān)系,這些對應關(guān)系反映了像素之間的基本對稱關(guān)系。


圖1. HybridPose預測關(guān)鍵點,邊緣向量和對稱性對應。 在(a)中,本文顯示輸入的RGB圖像,其中感興趣的對象(鉆孔器)被部分遮擋。在(b)中,紅色標記表示預測的2D關(guān)鍵點。在(c)中,邊緣向量由所有關(guān)鍵點之間的有效連接圖定義。在(d)中,對稱對應關(guān)系將對象上的每個2D像素連接到其對稱對應對象。為了說明的目的,在此示例中,本文僅從5755個預測對象像素中繪制了50個隨機樣本的對稱對應關(guān)系。通過將預測與3D模板共同對齊來獲得預測姿態(tài)(f),這涉及解決非線性優(yōu)化問題。


二、方法

HybridPose的輸入是一個圖像I,其中包含一個已知類的對象,該圖像由針孔照相機以已知的固有參數(shù)拍攝。假設(shè)對象類別具有標準坐標系Σ(即3D點云),HybridPose在Σ下輸出圖像對象的6D相機姿態(tài)(RI∈SO(3),tI∈R3),其中RI是旋轉(zhuǎn) 組件,而tI是平移組件。

2.1 方法概述

如圖2所示,HybridPose由預測模塊和位姿回歸模塊組成。


圖2.方法概述。HybridPose由中間表示預測網(wǎng)絡和位姿回歸模塊組成。預測網(wǎng)絡將圖像作為輸入,并輸出預測的關(guān)鍵點,邊緣矢量和對稱對應關(guān)系。姿態(tài)回歸模塊由初始化子模塊和優(yōu)化子模塊組成。初始化子模塊使用預測的中間表示法求解線性系統(tǒng)以獲得初始姿態(tài)。改進子模塊利用GM魯棒范數(shù)進行優(yōu)化(9),以獲得最終的姿態(tài)預測。

2.2 混合表示

本節(jié)描述了“混合位姿”中使用的三種中間表示形式。

關(guān)鍵點。第一個中間表示由關(guān)鍵點組成,這些關(guān)鍵點已被廣泛用于位姿估計。給定輸入圖像I,本文訓練一個神經(jīng)網(wǎng)絡fKθ(I)∈R2×| K |。預測| K |的預定義集合的2D關(guān)鍵點坐標。在本文的實驗中,HybridPose使用了稱為PVNet的現(xiàn)成模型,該模型是基于關(guān)鍵點的最新姿態(tài)估計器,可以采用投票方案來預測可見和不可見的關(guān)鍵點。

邊緣。第二個中間表示由沿著預先定義的圖的邊緣向量組成,顯式地模擬每對關(guān)鍵點之間的位移。如圖2所示,HybridPose利用簡單網(wǎng)絡fEφ(I)∈R2×| E |。預測2D圖像平面中的邊緣矢量,其中| E |表示預定圖形中的邊緣數(shù)。在本文的實驗中,E是一個完全連通的圖,即| E | = | K |·(|| K | ?1)/2。

對稱性對應。第三中間表示由反映基礎(chǔ)反射對稱性的預測像素方向?qū)ΨQ性對應組成。在本文的實驗中,HybridPose擴展了FlowNet 2.0的網(wǎng)絡架構(gòu),該架構(gòu)結(jié)合了密集的像素流和PVNet預測的語義掩碼。通過在掩膜區(qū)域內(nèi)預測像素方向的流量,可以得出所得的對稱性對應關(guān)系。與前兩種表示相比,對稱對應的數(shù)量大得多,甚至為被遮擋的對象也提供了豐富的約束。但是,對稱對應僅約束對象旋轉(zhuǎn)分量的兩個自由度。有必要將對稱對應與其他中間表示相結(jié)合。

網(wǎng)絡設(shè)計摘要。在本文的實驗中,fKθ(I),fEφ(I)和fSγ均基于ResNet,具體實現(xiàn)細節(jié)在4.1節(jié)中討論。可訓練參數(shù)在除最后一個卷積層之外的所有參數(shù)之間共享。因此,引入邊緣預測網(wǎng)絡fEφ(I)和對稱預測網(wǎng)絡fSγ的開銷微不足道。

2.3 位姿回歸

HybridPose的第二個模塊將預測的中間表示{K,E,S}作為輸入,并為輸入圖像I輸出6D對象姿態(tài)RI∈SO(3),tI∈R3。類似于最新的姿態(tài)回歸方法,HybridPose結(jié)合了初始化子模塊和優(yōu)化子模塊。兩個子模塊均利用所有預測元素。優(yōu)化子模塊還利用強大的功能來對預測元素中的異常值進行建模。

在下文中,本文將規(guī)范坐標系中的3D關(guān)鍵點坐標表示為pk,1≤k≤| K |。為了使符號整潔,本文將第一個模塊的輸出表示為,即預測的關(guān)鍵點,邊緣向量和對稱對應關(guān)系為pk∈R2,1≤k≤| K |,ve∈R2,1≤e≤| E |,和 (qs,1∈R2,qs,2∈R2),1≤s≤| S |。本文的公式還分別使用了pk,ve,qs,1和qs,2的齊次坐標? pk∈R3,? ve∈R3,? qs,1∈R3和? qs,2∈R3。均質(zhì)坐標由相機固有矩陣標準化。

初始化子模塊。該子模塊利用了RI,tI和預測元素之間的約束,并在細微空間中求解Ri,tI,然后以交替優(yōu)化的方式將其投影到SE(3)。為此,本文為每種類型的預測元素引入以下差異向量:


其中es和et是邊e的端點,ve = pet-pes∈R3,而nr∈R3是規(guī)范系統(tǒng)中反射對稱平面的法線。

HybridPose修改了EPnP的框架以生成初始位姿。通過結(jié)合來自預測元素的這三個約束,本文生成Ax = 0形式的線性系統(tǒng),其中A為矩陣,其維數(shù)為(3 | K | +3 | E | + | S |)×12。x = [rT 1,rT 2,rT 3,tT] T 12×1是一個向量,在單個空間中包含旋轉(zhuǎn)和平移參數(shù)。為了建模關(guān)鍵點,邊緣向量和對稱對應之間的相對重要性,本文分別通過超參數(shù)αE和αS縮放(2)和(3),以生成A。

根據(jù)EPnP,本文將x計算為


其中vi是A的第i個最小的右奇異矢量。理想情況下,當預測元素無噪聲時,N = 1且x = v1是最佳解決方案。但是,這種策略在給出嘈雜預測的情況下效果不佳。與EPnP相同,本文選擇N =4。為計算最佳x,本文通過以下目標函數(shù)的交替優(yōu)化程序?qū)撟兞喀胕和旋轉(zhuǎn)矩陣R進行優(yōu)化:


其中,Ri∈R3×3是從vi的前9個元素重塑而成的。在獲得最佳γi之后,本文將得到的精細變換P4 i = 1γiRi投影為剛性變換。由于篇幅所限,本文將細節(jié)推遲到補充材料上。

優(yōu)化子模塊。盡管(5)結(jié)合了混合中間表示形式并接受了良好的初始化,但它并不直接對預測元素中的異常值建模。另一個限制來自(1)和(2),它們不能最小化投影誤差(即,關(guān)于關(guān)鍵點和邊緣),而投影誤差在基于界標的位姿估計中是有效的。

受益于具有初始對象位姿(Rinit,tinit),優(yōu)化子模塊執(zhí)行局部優(yōu)化以優(yōu)化對象位姿。本文介紹了兩個涉及投影誤差的差異向量:?k,e,s,


其中PR,t:R3→R2是從當前姿態(tài)(R,t)導出的投影算符。

為了修剪預測元素中的異常值,本文考慮廣義的German-Mcclure(或GM)魯棒函數(shù)


通過此設(shè)置,HybridPose解決了以下用于姿態(tài)優(yōu)化的非線性優(yōu)化問題:


其中βK,βE和βS是關(guān)鍵點,邊緣和對稱對應關(guān)系的單獨的超參數(shù)。Σk和Σe表示附加到關(guān)鍵點和邊緣預測的協(xié)方差信息。kxkA =(xTAx)1 2.當預測的協(xié)方差不可用時,本文只需設(shè)置Σk=Σe= I2。

從R init和t init開始,微調(diào)子模塊采用Gauss-Newton方法進行數(shù)值優(yōu)化。

2.4 HybridPose訓練

本節(jié)介紹如何使用標記的數(shù)據(jù)集T = {I,(Kgt I,Egt I,Sgt I,(Rgt I,tgt I))}訓練HybridPose的預測網(wǎng)絡和超參數(shù)。使用I,Kgt I,Egt I,Sgt I和(Rgt I,tgt I),本文分別表示RGB圖像,標記的關(guān)鍵點,邊緣,對稱對應關(guān)系和真值標定物體位姿。一種流行的策略是端到端訓練整個模型,例如使用循環(huán)網(wǎng)絡對優(yōu)化過程進行建模,并在對象姿態(tài)輸出以及中間表示上引入損耗項。但是,本文發(fā)現(xiàn)此策略不理想。訓練集上預測元素的分布與測試集上的分布不同。即使通過仔細調(diào)整對預測元素的監(jiān)督與最終對象位姿之間的權(quán)衡,適合訓練數(shù)據(jù)的位姿回歸模型也無法很好地概括測試數(shù)據(jù)。

初始化子模塊。令Rinit I和tinit I為初始化子模塊的輸出。本文通過解決以下優(yōu)化問題來獲得最優(yōu)超參數(shù)αE和αS:


由于超參數(shù)的數(shù)量很少,并且位姿初始化步驟不接受顯式表達式,因此本文使用有限差分方法來計算數(shù)值梯度,即通過將梯度擬合到超參數(shù)樣本周圍。當前的解決方案。然后,本文應用回溯線搜索進行優(yōu)化。

優(yōu)化子模塊。令β= {βK,βE,βS}是該子模塊的超參數(shù)。對于每個實例(I,(Kgt I,Egt I,Sgt I,(Rgt I,tgt I)))∈Tval,將(9)中的目標函數(shù)表示為fI(c,β),其中c =( cT,cT)T∈R6是RI和tI的局部參數(shù)化,即RI = exp(c×)Rgt I,tI = tgt I + c。

優(yōu)化模塊解決了無約束的優(yōu)化問題,其最佳解決方案由其臨界點和臨界點周圍的損耗表面決定。本文考慮兩個簡單的目標。第一個目標力?f/?c*(0,β)≈0,換句話說,真值標定大約是一個臨界點。第二個目標最小化條件數(shù)κ(?2f/?2c*(0,β))=λmax?2f/?2c(0,β)/λmin?2f/?2c(0,β)。該目標使每個最優(yōu)解周圍的損失面規(guī)則化,從而促進了fI(c,β)的大收斂半徑。通過此設(shè)置,本文制定了以下目標函數(shù)來優(yōu)化β:


其中μ設(shè)置為10-4。然后將(10)中使用的相同策略應用于優(yōu)化(11)。

三、實驗評估

本節(jié)介紹了對所提出方法的實驗評估。第4.1節(jié)介紹了實驗設(shè)置。第4.2節(jié)定量和定性比較了HybridPose和其他6D姿態(tài)估計方法。第4.3節(jié)提出了一項消融研究,以研究對稱對應,邊緣向量和修飾子模塊的有效性。

3.1 實驗設(shè)置

數(shù)據(jù)集。本文考慮了在6D位姿估計問題中廣泛使用的兩個流行的基準數(shù)據(jù)集,即Linemod和Occlusion Linemod。輸出張量中的第一個通道是二進制分割掩碼M。如果M(x,y)= 1,則(x,y)對應于輸入圖像I中感興趣對象上的像素。分割掩碼為 使用交叉熵損失進行訓練。

第二個2 | K | 輸出張量中的通道給出所有| K |的x和y分量 關(guān)鍵點。應用基于投票的關(guān)鍵點定位方案,以從該2 | K |通道張量和分割掩碼M中提取2D關(guān)鍵點的坐標。

下一個2 | E | 輸出張量中的通道給出所有| E |的x和y分量 邊緣,本文將其表示為Edge。i(0≤i <| E |)是邊緣的索引。然后


是一組包含第i個邊緣向量的逐像素預測的2元組,其均值被提取為預測邊緣。

輸出張量中的最后2個通道定義對稱對應關(guān)系的x和y分量。本文將此對稱對應關(guān)系的2通道“映射”表示為Sym。令(x,y)為輸入圖像中感興趣對象上的像素,即M(x,y)=1。假設(shè)?x = Sym(0,x,y)且?y = Sym(1,x ,y),本文認為(x,y)和(x + ?x,y + ?y)關(guān)于反射對稱平面是對稱的。

度量標準。本文使用兩個指標來評估HybridPose的性能:

1. ADD(-S)首先計算分別由預測姿態(tài)和真值標定姿態(tài)變換的兩個點集之間的距離,然后提取平均距離。當對象具有對稱位姿歧義性時,將從兩個變換后的集合之間的最近點計算平均距離。ADD(-S)精度定義為計算出的平均距離小于模型直徑的10%的示例的百分比。

2.在消融研究中,本文計算并報告角旋轉(zhuǎn)誤差|| log(RT gtRI)2 ||。預測姿態(tài)(RI,tI)與真值標定姿態(tài)(Rgt,tgt)之間的相對平移誤差ktI-tgtk d,其中d為物體直徑。

3.2 結(jié)果分析

如表1,表2和圖3所示,HybridPose可實現(xiàn)準確的位姿估計。在Linemod和遮擋Linemod上,HybridPose的平均ADD(-S)準確度分別為94.5和79.2。Linemod上的結(jié)果優(yōu)于所有其他方法,除了一種從中間表示回歸姿態(tài)的最新方法。Occlusion-Linemod的結(jié)果優(yōu)于所有最新方法。


圖3.位姿回歸結(jié)果。


表1.定量評估:Linemod上的ADD(-S)準確性


表2.定量評估:遮擋linemod數(shù)據(jù)集的ADD(-S)準確性

Linemod上的基線比較。HybridPose優(yōu)于PVNet ,PVNet是本文用來預測關(guān)鍵點的骨干模型。改進在所有對象類上都是一致的,這表明與單一中間表示相比,使用混合具有明顯的優(yōu)勢。HybridPose在對抗DPOD方面顯示出競爭性結(jié)果,在五個對象類上獲勝。DPOD在此特定數(shù)據(jù)集上的優(yōu)勢來自數(shù)據(jù)擴充和顯式建模的輸入和投影圖像之間密集的對應關(guān)系,bothof可以滿足不阻塞對象的情況。詳細的分析表明,HybridPose表現(xiàn)出次優(yōu)性能的對象類別是Linemod中最小的對象。這表明本文的流水線中使用的基于像素的描述符受圖像分辨率的限制。

Occlusion-Linemod的基線比較。HybridPose大大優(yōu)于所有基線方法。就ADD(-S)精度而言,本文的方法將PVNet從40.8提高到79.2,提高了94.1%。這種增強功能清楚地顯示了HybridPose在被遮擋對象上的優(yōu)勢,其中看不見的關(guān)鍵點的預測可能很嘈雜,可見的關(guān)鍵點可能無法單獨為位姿回歸提供足夠的約束。HybridPose還優(yōu)于Occlusion Linemod上最新的位姿估計器DPOD 67.4%。一種解釋是基于DPOD的基于渲染的方法在被遮擋的對象上效果較差,這是由于在數(shù)據(jù)擴充和對應計算中難以對遮擋進行建模。

運行時間。在配備16核Intel?Xeon?E5-2637 CPU和GeForce GTX 1080 GPU的臺式機上,HybridPose花費0.6秒來預測中間表示,花費0.4秒來回歸位姿。假設(shè)批大小為30,則平均處理速度為每秒30幀,從而可以進行實時分析。

3.3 消融實驗

本文繼續(xù)進行消融研究。表3總結(jié)了使用不同的預測中間表示形式的HybridPose的性能。由于Linemod上不同方法的性能接近飽和,因此本文在此處進行的消融研究基于Occlusion Linemod,它清楚地揭示了不同預測元素對位姿優(yōu)化的影響。Linemod的消融研究推遲到供應材料。


表3:具有不同中間表示形式的定性評估。

關(guān)鍵點。作為基線方法,本文首先僅通過利用關(guān)鍵點信息來估計對象的位姿。如表3所示,平均絕對旋轉(zhuǎn)誤差為1.648度,平均相對平移誤差為0.100。

關(guān)鍵點和對稱性。將對稱對應關(guān)系添加到關(guān)鍵點會導致旋轉(zhuǎn)組件獲得明顯的性能提升。相對性能提升為3.52%,并且在所有對象類別中這種改善幾乎是一致的。一致的改進清楚地表明了對稱對應的有效性。另一方面,使用關(guān)鍵點和使用關(guān)鍵點+對稱性的轉(zhuǎn)換誤差幾乎保持不變。一種解釋是對稱對應只約束三個旋轉(zhuǎn)參數(shù)的兩個自由度,而對平移參數(shù)沒有約束。

完整模型。將邊緣向量添加到關(guān)鍵點和對稱對應關(guān)系會在旋轉(zhuǎn)和平移估計中顯著提高性能。旋轉(zhuǎn)和平移的相對性能提升分別為25.85%和44.12%。一種解釋是,邊緣矢量在平移和旋轉(zhuǎn)上都提供了更多的約束。與關(guān)鍵點相比,邊緣向量表示平移,因為它表示相鄰關(guān)鍵點的位移,并提供了更多的回歸信息,因此對平移提供了更多約束。結(jié)果,翻譯錯誤顯著降低。與僅對旋轉(zhuǎn)提供2個約束的對稱對應相比,邊緣矢量在旋轉(zhuǎn)參數(shù)上約束3個自由度,從而提高了旋轉(zhuǎn)估計的性能。此外,改進的旋轉(zhuǎn)估計有助于改進子模塊中的GM魯棒功能,以識別關(guān)鍵點預測中的異常值。

四、總結(jié)和未來工作

在本文中,本文介紹了HybridPose,這是一種利用關(guān)鍵點,邊緣向量和對稱對應關(guān)系的6D姿態(tài)估計方法。實驗表明,HybridPose具有實時預測功能,并且在準確性方面優(yōu)于當前的最新姿態(tài)估計方法。HybridPose對遮擋和極端位姿具有魯棒性。將來,本文計劃將HybridPose擴展為包括更多的中間表示形式,例如形狀基元,法線和平面。未來工作的另一個可能方向是在不同表示形式之間加強一致性,這是網(wǎng)絡培訓中的自我監(jiān)督損失。

本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。


HybridPose:混合表示下的6D對象姿態(tài)估計的評論 (共 條)

分享到微博請遵守國家法律
花莲县| 石家庄市| 广安市| 郎溪县| 江西省| 康定县| 广饶县| 射洪县| 兰溪市| 满洲里市| 谢通门县| 忻城县| 千阳县| 河南省| 海兴县| 凌云县| 西宁市| 渑池县| 桑日县| 永定县| 周宁县| 三明市| 温州市| 灵寿县| 六安市| 朝阳区| 繁昌县| 宣化县| 界首市| 马公市| 白河县| 溧水县| 高台县| 永年县| 呼和浩特市| 华阴市| 澜沧| 梅河口市| 莎车县| 高平市| 卢龙县|