最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

CVPR 2022 | OVE6D:用于基于深度的6D對象姿勢估計的對象視點編碼

2022-04-03 22:38 作者:3D視覺工坊  | 我要投稿

OVE6D: Object Viewpoint Encoding for Depth-based 6D Object Pose Estimation

代碼鏈接:github.com/dingdingcai/

文章鏈接:arxiv.org/abs/2203.0107

作者:Yu 文章來源:微信公眾號「3D視覺工坊」

摘要:

本文提出了一個通用的框架,稱為OVE6D,從單個深度圖像和目標(biāo)物體遮罩中,基于模型進(jìn)行6D物體姿態(tài)估計。我們的模型是使用ShapeNet呈現(xiàn)的純合成數(shù)據(jù)進(jìn)行訓(xùn)練的,與大多數(shù)現(xiàn)有方法不同,它在沒有任何微調(diào)的情況下可以很好地概括新的真實對象。我們通過將6D姿勢分解為視點、圍繞相機(jī)光軸的平面內(nèi)旋轉(zhuǎn)和平移,并引入新的輕量級模塊以級聯(lián)方式估計每個組件來實現(xiàn)這一點。生成的網(wǎng)絡(luò)包含不到4M的參數(shù),同時在具有挑戰(zhàn)性的T-less和OCCLUSION-LINEMOD數(shù)據(jù)集上顯示出優(yōu)異的性能,而無需任何特定于數(shù)據(jù)集的培訓(xùn)。我們發(fā)現(xiàn),OVE6D的性能優(yōu)于一些專門針對具有真實訓(xùn)練數(shù)據(jù)的單個對象或數(shù)據(jù)集,基于深度學(xué)習(xí)的姿勢估計方法。

一、介紹

物體的6D姿勢是指從物體坐標(biāo)系到相機(jī)參考框架的幾何映射。最常見的是,這種轉(zhuǎn)換是根據(jù)三維旋轉(zhuǎn)(對象方向)和三維平移(對象位置)定義的。推斷物體姿態(tài)的能力是許多與環(huán)境交互的應(yīng)用程序的一項基本功能。例如,在機(jī)器人操作和增強現(xiàn)實中,需要姿勢來抓取或真實地渲染人工對象。在最近的工作中,通常通過在物體3D模型和觀測數(shù)據(jù)之間建立局部對應(yīng)關(guān)系(FFB6d[2021], PVN3D[2020], Pvnet[2019])或通過直接回歸(G2l-net[2020], Learning 6d object poses from geometrically stable patches.[2021])來解決物體姿態(tài)估計問題。在這兩種情況下,推理模型通常會針對每個對象實例進(jìn)行優(yōu)化和單獨存儲。隨著對象實例數(shù)量的增加,這種方法很快變得難以處理。同時,一些現(xiàn)有的工作(Densefusion:[2019], Pr-gcn[2021])考慮建立多個對象的單一模型。然而,為了保持性能,每次向數(shù)據(jù)庫中添加新的對象實例時,模型都需要重新訓(xùn)練。此外,大多數(shù)性能最好的方法都需要帶注釋的真實世界訓(xùn)練數(shù)據(jù),這很難獲得。雖然一些方法(Ssd-6d[2017], Multi-path learning for object pose estimation across domains[2020], Augmented autoencoders[2020])考慮使用合成的例子在訓(xùn)練中,他們的效果由于域間隙出現(xiàn)明顯的性能退化。有一種稱為LatenFusion的方法。在這項工作中,他們首先從一小組參考視圖中重建潛在的3D對象模型,然后使用該模型從輸入圖像中推斷相應(yīng)對象的6D姿勢。其主要優(yōu)點是能夠通過簡單地生成新的潛在模型來添加新對象,同時保持所有網(wǎng)絡(luò)參數(shù)不變。然而,由于該方法基于推理時的迭代優(yōu)化,因此計算成本較高。此外,延遲融合對輸入數(shù)據(jù)中的遮擋非常敏感,導(dǎo)致性能顯著下降。在本文中,我們提出了一種新的方法,稱為OVE6D,用于從單個深度圖像和對象分割模板估計6D對象姿勢。我們進(jìn)一步假設(shè)可以訪問目標(biāo)對象的三維網(wǎng)格模型。與LatenFusion類似,我們的方法在不重新訓(xùn)練模型參數(shù)的情況下推廣到新對象。此外,與LatentFusion不同,該方法計算效率高,對輸入數(shù)據(jù)中的遮擋具有魯棒性。事實上,OVE6D在具有挑戰(zhàn)性的無T數(shù)據(jù)集上獲得了最新的最先進(jìn)的結(jié)果,甚至超過了專門為此數(shù)據(jù)集優(yōu)化的方法。

圖1提出的方法包括三個階段,如圖1所示。首先(圖1A),我們使用ShapeNet數(shù)據(jù)集中的大量合成3D對象模型來訓(xùn)練模型參數(shù)。此階段僅執(zhí)行一次,生成的參數(shù)將在以后的階段中重新代入。其次(圖1b),我們將目標(biāo)對象的3D網(wǎng)格模型轉(zhuǎn)換為視點碼本。對每個對象執(zhí)行一次轉(zhuǎn)換,每個實例大約需要30秒。最后(圖1c),從輸入深度圖像和對象分割掩模推斷出6D姿勢。完整的OVE6D模型包含不到4M的參數(shù),并且需要大約50毫秒來推斷單個對象的姿勢。在第二階段,只需對相應(yīng)的3D網(wǎng)格模型進(jìn)行編碼,就可以添加新的、沒見過的對象。OVE6D的核心是一個基于深度的對象視點編碼器,它將對象視點捕捉到一個特征向量中。編碼的表示被訓(xùn)練為對圍繞相機(jī)光軸的平面內(nèi)旋轉(zhuǎn)不變,但對相機(jī)視點敏感,如圖2所示。在推理時,我們首先利用視點編碼來確定攝像機(jī)視點,然后根據(jù)獲得的視點估計剩余的姿態(tài)分量(攝像機(jī)平面內(nèi)旋轉(zhuǎn)和對象3D位置)。

圖2級聯(lián)管道允許為每個子任務(wù)提供緊湊的體系結(jié)構(gòu),并允許使用數(shù)千個合成對象進(jìn)行有效的訓(xùn)練。綜上所述,我們的主要貢獻(xiàn)是:1)我們提出了一個級聯(lián)目標(biāo)姿態(tài)估計框架,該框架在不進(jìn)行額外參數(shù)優(yōu)化的情況下推廣到以前看不見的目標(biāo)。2) 我們提出了一種視點編碼器,該編碼器能夠在不受攝像機(jī)光軸的面內(nèi)旋轉(zhuǎn)影響的情況下,穩(wěn)健地捕捉物體的視點。3) 我們在T-LESS上展示了最新的最新結(jié)果,而無需使用數(shù)據(jù)集中的任何圖像來訓(xùn)練我們的模型。

三、方法

在本節(jié)中,我們將介紹一個名為OVE6D的框架,用于6D對象姿勢估計。在這里,我們假設(shè)對象ID已知,3D網(wǎng)格模型可用,并且提供了對象分割遮罩。任務(wù)是預(yù)測從對象坐標(biāo)系到相機(jī)坐標(biāo)系的剛體變換。這種變換可以用旋轉(zhuǎn)R和平移t來表示。旋轉(zhuǎn)R可以進(jìn)一步分解為平面外旋轉(zhuǎn)(視點)Rγ和平面內(nèi)方向(圍繞相機(jī)光軸旋轉(zhuǎn))Rθ,即R=Rθ*Rγ(見圖2A)。補充材料中提供了更多細(xì)節(jié)。

3.1 方法概述

圖3OVE6D框架如圖1、3和4所示。在訓(xùn)練階段,使用ShapeNet中的合成3D對象優(yōu)化模型參數(shù)。接下來,使用視點編碼器模塊構(gòu)造對象視點碼本(參見圖5)。

圖4在推理時,我們以級聯(lián)方式執(zhí)行以下子任務(wù)。首先,使用輸入深度圖像和對象分割掩模計算初始位置估計,并應(yīng)用于深度圖像的預(yù)處理(參見圖3A)。其次,我們從對象視點碼本中檢索多個視點候選(參見圖3B)。第三,我們對每個檢索到的候選視點進(jìn)行平面內(nèi)2D旋轉(zhuǎn)回歸,并獲得一組完整的3D方向估計(見圖3C)。接下來,我們計算每個方向假設(shè)的一致性得分,并根據(jù)得分值輸出一個(或多個)估計值(見圖3D)。最后,基于獲得的3D方向?qū)Τ跏嘉恢霉烙嬤M(jìn)行細(xì)化(參見圖3E)。

3.2 預(yù)處理


首先,我們計算并從分割的輸入深度圖像DM(通過深度圖像和分割掩模M的元素相乘獲得)中減去中值距離dc。接下來,我們計算包圍輸入分割掩模的邊界框的中心坐標(biāo)(cx,cy),并形成對象3D位置的初始估計,即t^init=K^?1[cx,cy,dc]^T,其中K是相機(jī)固有矩陣。最后,我們按照LatenFusion重新縮放和裁剪DM,根據(jù)估計的位置t^init生成128×128預(yù)處理的輸入深度圖像,供后期使用。

3.3. 對象視點編碼器

視點編碼器是一個輕量級神經(jīng)網(wǎng)絡(luò),由一個基于CNN的主干(八個Conv2D+BN層)和一個編碼器頭F_OVE(單個Conv2D、池和FC層)組成。編碼器以預(yù)處理的128×128深度圖像為輸入,輸出64個元素的特征向量。特征向量旨在對相機(jī)視點進(jìn)行編碼,但對圍繞相機(jī)光軸的平面內(nèi)旋轉(zhuǎn)保持不變。我們使用ShapeNe渲染的深度圖像來訓(xùn)練視點編碼器。生成的樣本變成三元組{V,Vθ,Vγ},其中V和Vθ僅在平面內(nèi)旋轉(zhuǎn)(角度θ)方面不同,Vγ從不同的相機(jī)視點(角度γ)渲染。使用視點編碼器網(wǎng)絡(luò)將深度圖像進(jìn)一步嵌入到特征表示{v,vθ,vγ}中(參見圖4A)。編碼器參數(shù)被優(yōu)化,以根據(jù)余弦相似性對表示對進(jìn)行排序,即S(v,vθ)>S(v,vγ),其中S是余弦相似性函數(shù)。因此,等效損耗函數(shù)可以寫成:



其中m_vp∈(0,1)是ranking margin。經(jīng)過訓(xùn)練的視點編碼器后來被用于構(gòu)建新的真實世界對象的視點碼本。為了做到這一點,我們首先從以d_radius=f_base為半徑的對象為中心的球體上均勻采樣N個視點{Ri}Ni=1? d_diameter,其中d_diameter是對象直徑(從3D網(wǎng)格模型中獲得),f_base是距離因子(本文中為5)。然后,使用采樣的視點和對象3D網(wǎng)格模型渲染合成的無噪深度圖像{V syn i}Ni=1。最后,使用視點編碼器從這些圖像中提取視點表示{vi}Ni=1(如第3.2節(jié)所述進(jìn)行預(yù)處理),并與對象網(wǎng)格模型一起存儲到代碼本數(shù)據(jù)庫中,如圖5所示。生成的視點代碼本是一個集合{vi,Ri}Ni=1,Omesh,Oid},其中包含相應(yīng)的視點嵌入、旋轉(zhuǎn)矩陣、網(wǎng)格模型和對象ID。整個構(gòu)造對于每個對象大約需要30秒,N=4000個視點樣本。在推理時,首先使用視點編碼器從預(yù)處理的深度圖像V_real中提取對象視點表示v_real。然后,我們利用v_real計算對應(yīng)視點碼本(用已知對象ID索引)中所有條目的余弦相似性分?jǐn)?shù)。選擇v_real和v_knn之間相似度最高的條目{v_knn,R_knn}作為V real的最近視點??蛇x地,我們可以從代碼本中選擇多個候選條目



3.4. 平面內(nèi)方向回歸

已知視點后,可以使用深度圖像的2D旋轉(zhuǎn)來近似相機(jī)光軸周圍的平面內(nèi)旋轉(zhuǎn)(對于正交相機(jī)精確)。為此,我們通過在與視點編碼器共享的主干上附加一個回歸頭F_IOR(一個Conv2D和兩個連續(xù)FC層)來構(gòu)建回歸網(wǎng)絡(luò)。這個模塊需要同一視點的以不同的平面內(nèi)方向(視點內(nèi))的一對特征映射{z,z_θ}∈Rc×h×w作為輸入,并回歸相對平面內(nèi)旋轉(zhuǎn)角度θ(表示為矩陣Rθ),如圖4B所示。我們訓(xùn)練該模塊,以最小化由真值旋轉(zhuǎn)矩陣Rθ變換的深度圖像與預(yù)測的Rθ變換的深度圖像之間的差異。這里,我們使用負(fù)對數(shù)余弦相似性來衡量差異,如下所示:



其中,F(xiàn)表示展開操作,T_Rθ用R_θ表示2D空間變換,V表示視點深度圖像。



3.5. 旋轉(zhuǎn)一致性驗證

如第3.4節(jié)所述,可以從前面的模塊中導(dǎo)出多個完整的3D旋轉(zhuǎn)假設(shè){Restk}Kk=1。為了對候選對象進(jìn)行排序,我們采用了一個方向驗證模塊來估計候選對象與V_real中描述的實際對象方向之間的一致性。與回歸模塊類似,驗證模塊是通過將驗證頭F_OCV(兩個Conv2D層,一個池和FC層)附加到共享主干來構(gòu)建的。在訓(xùn)練時,我們采用基于排名的損失來優(yōu)化該模塊。如圖4C所示,首先使用平面內(nèi)旋轉(zhuǎn)對特征地圖z進(jìn)行空間變換,即?zθ=TRθ(z),其中T_Rθ是R_θ的空間變換。然后,我們沿著特征通道維度分別將?zθ與zγ和zθ連接起來,即[?zθ;zγ]和[?zθ;zθ],其中[; ]表示連接,并將它們輸入F_OCV以生成一致性分?jǐn)?shù)sγ和sθ。等效損失函數(shù)可以寫成:



其中mλ ∈(0,1)是ranking margin.在推理過程中,我們使用估計的平面內(nèi)旋轉(zhuǎn)Rθk,從檢索到的視點轉(zhuǎn)換特征地圖zknnk,并將其與觀察到的深度圖像中的特征地圖z_real一起提供給驗證頭F_css,如圖3D所示。通過這種方式,我們獲得了每個3D方向假設(shè)的一致性分?jǐn)?shù)。根據(jù)估計的分?jǐn)?shù),我們將所有假設(shè){Restk}Kk=1按降序排列,并選擇最前面的P∈ [1,K]方向建議{Restp}Pp=1作為輸出。

3.6. 位置優(yōu)化

我們根據(jù)獲得的3D方向進(jìn)一步細(xì)化初始位置估計t_init。具體來說,我們首先使用對象網(wǎng)格模型和姿勢[Restp | tinit]合成深度圖像Destp,其中Restp是第3.5節(jié)中獲得的3D方向。接下來,我們估計深度圖像Destp中物體的3D質(zhì)心tsynp,如第3.2節(jié)所述。此外,我們還計算了偏移量t0? = tinit? tsynp,可以看作是對象在當(dāng)前方向Restp中自遮擋引起的位置偏移。我們假設(shè)t0? 大約等于t? = 測驗? tinit,這使我們能夠獲得第p個方向建議的對象的最終3D位置估計testp=2tinit? tsynp,如testp? tinit=tinit? tsyn。

3.7. 姿勢假設(shè)的選擇與細(xì)化

如前幾節(jié)所述,我們可能會獲得多個方向建議,每個建議都會導(dǎo)致一個姿勢假設(shè)。我們?yōu)槊總€姿勢假設(shè)計算以下質(zhì)量度量,


圖片


此外,可以選擇使用迭代最近點算法ICP對獲得的姿勢進(jìn)行優(yōu)化。如實驗所示,ICP細(xì)化可以在姿勢假設(shè)選擇之前或之后進(jìn)行。

3.8. 組合損失函數(shù)

整個網(wǎng)絡(luò)由一個共享主干網(wǎng)和三個分支組成,并以端到端的方式進(jìn)行訓(xùn)練。總的訓(xùn)練損失是



其中,bs是批量,λ1、λ2和λ3是加權(quán)參數(shù)。在我們的實驗中,我們設(shè)置了ranking margins :mvpλ=mcssλ=0.1,權(quán)重λ1=100,λ2=10,λ3=1。

四、實驗

數(shù)據(jù)集OVE6D在三個公共基準(zhǔn)數(shù)據(jù)集上進(jìn)行評估:LINEMOD[18]、閉塞LINEMOD[1]和T-LESS。LINEMOD(LM)是最流行的單對象6D姿勢估計數(shù)據(jù)集之一,它包含了雜亂場景中13個無紋理家庭對象的RGB-D圖像和3D對象模型。我們在之前的工作[45,50]的基礎(chǔ)上構(gòu)建了測試集。我們注意到LINEMOD的訓(xùn)練集被完全忽略,因為OVE6D是使用ShapeNet進(jìn)行完全訓(xùn)練的。遮擋LINEMOD(LMO)是LINEMOD的一個子集,用于多對象6D姿勢估計,在1214張遮擋嚴(yán)重的測試圖像中包含八個注釋對象。T-LESS是一個具有挑戰(zhàn)性的數(shù)據(jù)集,包括30個形狀高度相似的無紋理對稱工業(yè)對象。評估是在PrimeSense測試集上進(jìn)行的,我們按照BOP挑戰(zhàn)中指定的協(xié)議報告每個類的單個對象的結(jié)果。

分割模板對象分割模板是提議的姿勢估計方法的輸入之一。在實驗中,我們使用Detectron2[54]庫中現(xiàn)成的掩模RCNN[15]實現(xiàn)來獲得掩模。我們使用從對象模型生成的大量合成圖像來訓(xùn)練掩模RCNN。在實驗中,我們使用Mask RCNN提供的類標(biāo)簽作為對象ID。此外,我們還報告了地面真相分割掩模的結(jié)果。

指標(biāo)和配置我們遵循之前的工作,并根據(jù)兩個標(biāo)準(zhǔn)的6D姿勢估計指標(biāo)ADD(-S)(用于LM和LMO)和VSD(用于T-LESS)報告結(jié)果。此外,如果沒有另外說明,我們使用N=4000、K=50和P=5表示OVE6D。

4.1. 與最新技術(shù)的比較

我們將OVE6D與最近(主要基于學(xué)習(xí))的姿勢估計工作進(jìn)行了比較,這些工作使用了流行的無遮擋、LINEMOD和遮擋LINEMOD數(shù)據(jù)集。我們根據(jù)泛化程度將這些方法分為三大類。第一組和第二組中的方法分別為每個單獨的對象或多個對象訓(xùn)練一個單獨的模型。第三組方法不需要任何特定于數(shù)據(jù)集的訓(xùn)練,只需要獲取目標(biāo)對象的三維模型。我們進(jìn)一步將這些組分為在模型訓(xùn)練期間使用真實和/或合成數(shù)據(jù)的方法。值得注意的是,OVE6D和LatenFusion屬于第三類,只使用合成數(shù)據(jù)進(jìn)行訓(xùn)練。

T-LESS

表1

表1根據(jù)VSD指標(biāo)報告了OVE6D和基線方法的結(jié)果。我們不報告LatentFusion的結(jié)果,因為它由于遮擋而表現(xiàn)不佳。請注意,所有其他基于學(xué)習(xí)的方法都是在T-LESS數(shù)據(jù)集上訓(xùn)練的,而OVE6D是在ShapeNet上訓(xùn)練的。盡管如此,OVE6D仍然實現(xiàn)了最先進(jìn)的性能。特別是,用ICP的OVE6D比最新的最先進(jìn)的方法StablePose提高了1.8%的顯著幅度,盡管StablePose使用帶有姿勢注釋的真實示例為每個對象訓(xùn)練單獨的模型?;诜菍W(xué)習(xí)的VidalPPf也表現(xiàn)良好,但該方法計算成本較高。此外,OVE6D在使用基本真相模板時實現(xiàn)了91%的召回率,這表明使用更好的分割模板可以提高性能。結(jié)果表明,OVE6D特別適用于無紋理和對稱的工業(yè)對象。

LINEMOD和遮擋LINEMOD

LINEMOD(LM)和閉塞LINEMOD(LMO)數(shù)據(jù)集的結(jié)果分別在表2和表3中報告。除OVE6D和LatenFusion外,所有方法都是針對LM數(shù)據(jù)集專門培訓(xùn)的。由于LMO嚴(yán)重閉塞,僅報告了LM的延遲融合結(jié)果。一般來說,基于RGBD的方法,經(jīng)過真實世界和合成數(shù)據(jù)的訓(xùn)練,可以獲得最佳性能(例如,使用FFB6D的LM上99.7%的召回率,使用PVNet的LMO上79.0%的召回率)。然而,OVE6D獲得了有競爭力的結(jié)果,尤其是與純合成數(shù)據(jù)訓(xùn)練的方法相比。在沒有ICP細(xì)化的情況下,OVE6D對LM和LMO的召回率分別為86.1%和56.1%。此外,OVE6D和ICP在LMO上的召回率為73%,這表明OVE6D能夠推廣到真實場景,即使在嚴(yán)重混亂和遮擋的情況下。此外,與另一種基于ShapeNet訓(xùn)練的通用模型LatenFusion相比,OVE6D在LM上獲得了9.3%(96.4%對87.1%)的明顯優(yōu)勢,同時在姿勢估計中僅依賴深度信息。


表2


4.2. 附加實驗

參數(shù)配置OVE6D中的主要參數(shù)是視點的采樣數(shù)(N)、候選視點的檢索數(shù)(K)和方向建議數(shù)(P)。我們研究了這些參數(shù)值如何影響性能,并觀察到該方法在廣泛的不同設(shè)置下相對穩(wěn)定。我們發(fā)現(xiàn)N=4000、K=50和P=5是精度和效率之間的一個很好的折衷。詳細(xì)結(jié)果見補充材料。

圖6

視點檢索

圖6(左)顯示了視點檢索模塊在多個閾值上的性能,使用LINEMOD數(shù)據(jù)集上的估計和真值分割遮罩。在這個實驗中,我們只考慮一個單一的,最高得分,姿勢假設(shè)。我們注意到,已經(jīng)有70%的情況檢索精度高于10°。此外,合成數(shù)據(jù)和真實數(shù)據(jù)之間的差距相對較小,表明盡管存在領(lǐng)域差距,但具有良好的泛化能力。

平面內(nèi)旋轉(zhuǎn)估計平面內(nèi)旋轉(zhuǎn)模塊的結(jié)果如圖6(中間)所示。給定使用預(yù)測遮罩檢索的視點,在10°誤差閾值下,我們通過單次向前傳遞達(dá)到73%的精度,并通過ICP細(xì)化將其進(jìn)一步提高到80%。我們還注意到,通過使用地面真相視角,即使沒有ICP,精度也可以進(jìn)一步提高90%以上。

位置優(yōu)化

圖6(右)展示了擬議的非參數(shù)位置優(yōu)化模塊的性能。我們觀察到,在誤差容限為10mm的情況下,細(xì)化可以將精度從初始估計的13%提高到60%,并通過ICP細(xì)化進(jìn)一步提高到81%。因此,無論是否采用ICP細(xì)化,所提出的細(xì)化模塊都能明顯改善位置估計。

推理時間使用OVE6D進(jìn)行全姿態(tài)推理時,使用Nvidia RTX3090 GPU和AMD 835 Ryzen 3970X CPU,每個對象大約需要50毫秒。相比之下,LatenFusion在100次反向傳播迭代中,每個對象大約需要20秒。

五、討論、局限和結(jié)論

在這項工作中,我們提出了一個名為OVE6D的模型,用于以級聯(lián)方式推斷對象的6D姿勢。該模型使用大量合成3D對象進(jìn)行訓(xùn)練,并使用三個具有挑戰(zhàn)性的真實基準(zhǔn)數(shù)據(jù)集進(jìn)行評估。結(jié)果表明,該模型在不需要任何參數(shù)優(yōu)化的情況下,能很好地推廣到看不見的數(shù)據(jù),這大大簡化了新對象的添加,并支持具有數(shù)千個對象的用例。這種方法的主要局限性包括對對象3D網(wǎng)格模型和實例分割遮罩的要求,這可能并不總是容易獲得。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

3D視覺精品課程推薦:

1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)

2.面向自動駕駛領(lǐng)域的3D點云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)

3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)

4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程

5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解

6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦

7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)

9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]

10.單目深度估計方法:算法梳理與代碼實現(xiàn)

11.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)

12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)

13.重磅!四旋翼飛行器:算法與實戰(zhàn)

14.ROS2從入門到精通:理論與實戰(zhàn)

15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)

更多干貨

歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計算機(jī)視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動駕駛、點云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長~

添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步!

CVPR 2022 | OVE6D:用于基于深度的6D對象姿勢估計的對象視點編碼的評論 (共 條)

分享到微博請遵守國家法律
古田县| 湘阴县| 罗江县| 太和县| 沭阳县| 卓资县| 广宗县| 乌苏市| 清镇市| 伊宁市| 五华县| 长春市| 改则县| 奉贤区| 阿图什市| 广西| 郴州市| 鄂托克前旗| 岳阳市| 南溪县| 镇康县| 新建县| 潍坊市| 中西区| 中牟县| 澳门| 黄陵县| 怀柔区| 平乐县| 香港| 岳阳市| 钟山县| 泾川县| 崇州市| 收藏| 济南市| 宜章县| 盐津县| 冀州市| 囊谦县| 呼和浩特市|