最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

論文解讀 | IROS 2022:MV6D:在RGB-D圖像上使用深度逐點(diǎn)投票網(wǎng)絡(luò)進(jìn)行多視角6D姿態(tài)估計(jì)

2023-05-26 16:12 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

圖片

01?研究背景


圖片


在計(jì)算機(jī)視覺領(lǐng)域,6D姿態(tài)估計(jì)是一種重要的任務(wù),用于確定物體在3D空間中的位置和方向。它在許多應(yīng)用領(lǐng)域具有廣泛的應(yīng)用,如機(jī)器人操作、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、物體跟蹤等。


然而,傳統(tǒng)的6D姿態(tài)估計(jì)方法存在一些限制。


這些方法通常只使用單個(gè)視角的相機(jī)數(shù)據(jù)或點(diǎn)云數(shù)據(jù)進(jìn)行估計(jì),忽略了其他視角的信息。這種單一視角的方法容易受到其他物體的遮擋影響,導(dǎo)致估計(jì)結(jié)果不準(zhǔn)確。當(dāng)物體被其他物體遮擋部分或部分視角無法觀測(cè)到時(shí),傳統(tǒng)方法可能無法準(zhǔn)確地估計(jì)物體的姿態(tài)。


為了解決這個(gè)問題,本文提出了一種新穎的多視角6D姿態(tài)估計(jì)方法,稱為MV6D。


該方法基于RGB-D圖像從多個(gè)視角準(zhǔn)確地預(yù)測(cè)雜亂場(chǎng)景中所有物體的6D姿態(tài)。MV6D使用了一個(gè)深度點(diǎn)投票網(wǎng)絡(luò)(PVN3D)來預(yù)測(cè)目標(biāo)物體關(guān)鍵點(diǎn),并通過密集融合層(DenseFusion)將多個(gè)視角信息融合起來以提高精度。


02??該篇論文的創(chuàng)新點(diǎn)


1. 提出了一種新穎的多視角6D姿態(tài)估計(jì)方法,稱為MV6D。


該方法可以從多個(gè)視角準(zhǔn)確地預(yù)測(cè)雜亂場(chǎng)景中所有物體的6D姿態(tài),并且可以處理不同相機(jī)設(shè)置和不同數(shù)量的輸入圖像。


2. 使用深度學(xué)習(xí)技術(shù)將RGB圖像和深度圖像進(jìn)行聯(lián)合處理,以提高6D姿態(tài)估計(jì)的精度。


MV6D使用了一個(gè)深度點(diǎn)投票網(wǎng)絡(luò)(PVN3D)來預(yù)測(cè)目標(biāo)物體關(guān)鍵點(diǎn),并通過密集融合層(DenseFusion)將多個(gè)視角信息融合起來。


3. 介紹了三個(gè)新穎的真實(shí)場(chǎng)景數(shù)據(jù)集:YCB-Video、LineMod-Video和Home-Video。


這些數(shù)據(jù)集具有嚴(yán)重遮擋和隨機(jī)性質(zhì),并采用領(lǐng)域隨機(jī)化技術(shù)來增加數(shù)據(jù)集的多樣性和泛化能力。


4. MV6D方法在實(shí)驗(yàn)中表現(xiàn)出比傳統(tǒng)方法更高的精度和魯棒性,


即使在相機(jī)位置不準(zhǔn)確或存在其他物體遮擋時(shí)也能夠準(zhǔn)確地估計(jì)物體的6D姿態(tài)。


03??算法具體介紹


本文提出了一種名為MV6D的多視角6D物體姿態(tài)估計(jì)方法。


該方法接受多個(gè)RGB-D圖像作為輸入(圖1),并從中提取視覺特征。同時(shí),通過融合所有深度圖像創(chuàng)建的點(diǎn)云,提取幾何特征。接下來,DenseFusion網(wǎng)絡(luò)將這些視覺和幾何特征進(jìn)行融合。


然后,通過使用三維關(guān)鍵點(diǎn)檢測(cè)、三維中心點(diǎn)檢測(cè)和實(shí)例語義分割模塊,預(yù)測(cè)目標(biāo)物體的6D姿態(tài)。最后,采用最小二乘擬合算法對(duì)結(jié)果進(jìn)行優(yōu)化。具體地說,本文的算法包含三個(gè)階段:特征提取、實(shí)例分割和6D姿態(tài)估計(jì)(圖2)。


在第一個(gè)階段,使用一個(gè)深度神經(jīng)網(wǎng)絡(luò)從多個(gè)RGB-D圖像中提取相關(guān)特征,并將它們?nèi)诤铣烧麄€(gè)輸入場(chǎng)景的聯(lián)合特征表示。


具體地說,使用了一個(gè)名為PVN3D的單視角網(wǎng)絡(luò)作為基礎(chǔ)模型,該模型可以從單個(gè)RGB-D圖像中提取物體的3D幾何信息和2D視覺信息。然后,對(duì)PVN3D進(jìn)行了修改,使其能夠處理多個(gè)RGB-D圖像,并將它們?nèi)诤铣梢粋€(gè)一致的特征表示。這樣做可以增強(qiáng)算法對(duì)場(chǎng)景中物體的幾何結(jié)構(gòu)和外觀信息的理解。


在第二個(gè)階段,使用實(shí)例語義分割和3D關(guān)鍵點(diǎn)檢測(cè)來識(shí)別每個(gè)物體,并確定其邊界框和關(guān)鍵點(diǎn)位置。


具體地說,使用了兩個(gè)獨(dú)立的CNN網(wǎng)絡(luò)來處理RGB圖像和深度圖像,并將它們的特征進(jìn)行融合。然后,使用實(shí)例語義分割模塊來識(shí)別每個(gè)物體,并確定其邊界框。接下來,使用3D關(guān)鍵點(diǎn)檢測(cè)模塊來預(yù)測(cè)每個(gè)物體的關(guān)鍵點(diǎn)位置。這些關(guān)鍵點(diǎn)可以用于計(jì)算物體的3D中心點(diǎn)和姿態(tài)。


在第三個(gè)階段,使用最小二乘擬合算法來估計(jì)每個(gè)物體的6D姿態(tài)。


具體地說,使用了一個(gè)基于迭代最近點(diǎn)(ICP)算法的最小二乘擬合方法來優(yōu)化物體的姿態(tài)。該方法可以將預(yù)測(cè)的3D關(guān)鍵點(diǎn)與真實(shí)的3D關(guān)鍵點(diǎn)進(jìn)行擬合,以確定物體的旋轉(zhuǎn)和平移。


圖片

圖1所示。概述MV6D方法。MV6D接受多個(gè)RGB-D輸入圖像,并預(yù)測(cè)混亂場(chǎng)景中所有物體的6D姿勢(shì)。


圖片

圖2 MV6D網(wǎng)絡(luò)架構(gòu)。


04??實(shí)驗(yàn)


圖片

表1


表1列出了MV-YCB MovingCam數(shù)據(jù)集上不同物體類別的AUC結(jié)果。


AUC是評(píng)估6D位姿估計(jì)性能的一種指標(biāo),其值越高表示性能越好。從表格中可以看出,MV6D網(wǎng)絡(luò)在所有物體類別和不同視角數(shù)量下都取得了最佳結(jié)果,并且相比于PVN3D和CosyPose有更高的AUC值。這表明MV6D網(wǎng)絡(luò)在多視角3D物體檢測(cè)和位姿估計(jì)方面具有很高的準(zhǔn)確性和魯棒性。


圖片

圖3


圖3展示了MV6D網(wǎng)絡(luò)在MV-YCB FixCam數(shù)據(jù)集上的6D位姿預(yù)測(cè)結(jié)果,并與PVN3D 、CosyPose 和ground truth進(jìn)行了比較。


三行顯示了三個(gè)不同的示例場(chǎng)景,代表了網(wǎng)絡(luò)的典型性能。為了清晰起見,只有五個(gè)最難的物體的姿勢(shì)被可視化:金槍魚罐頭(橙色),香蕉(黃色),番茄湯罐頭(綠色),明膠盒(藍(lán)色)和布丁盒(紅色)。從圖中可以看出,本文的算法可以準(zhǔn)確地預(yù)測(cè)所有物體的6D位姿,即使一些物體被嚴(yán)重遮擋。


相比之下,PVN3D只能從所示視角獲取單個(gè)RGB-D圖像,因此無法檢測(cè)到某些物體,例如第一行中的金槍魚罐頭和明膠盒。CosyPose通常比PVN3D表現(xiàn)更好,但對(duì)于嚴(yán)重遮擋的物體,MV6D仍然優(yōu)于它。


05??結(jié)論


本篇論文提出的多視角方法在6D位姿估計(jì)任務(wù)中表現(xiàn)出卓越的性能,即使相機(jī)位置存在不準(zhǔn)確的情況下也能取得良好的結(jié)果。


與當(dāng)前使用更復(fù)雜架構(gòu)的多視角姿態(tài)估計(jì)方法相比,本文的方法表現(xiàn)更出色。具體而言,在MV-YCB FixCam數(shù)據(jù)集上,MV6D算法可以準(zhǔn)確地預(yù)測(cè)所有物體的6D位姿,即使某些物體被嚴(yán)重遮擋。


相比之下,其他方法如PVN3D和CosyPose在某些情況下無法檢測(cè)到物體或者性能不及MV6D。因此,本文提出的算法可以為實(shí)際應(yīng)用場(chǎng)景中的機(jī)器人視覺、自動(dòng)駕駛等領(lǐng)域提供更準(zhǔn)確和魯棒的解決方案。


圖片


標(biāo)題

MV6D: Multi-View 6D Pose Estimation on RGB-D Frames

Using a Deep Point-wise Voting Network


更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。



論文解讀 | IROS 2022:MV6D:在RGB-D圖像上使用深度逐點(diǎn)投票網(wǎng)絡(luò)進(jìn)行多視角6D姿態(tài)估計(jì)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
泰宁县| 深圳市| 迁西县| 当雄县| 定襄县| 六安市| 安吉县| 郁南县| 花垣县| 阳曲县| 南宫市| 固始县| 丁青县| 桓台县| 申扎县| 阳谷县| 泗洪县| 岚皋县| 泌阳县| 七台河市| 南城县| 天门市| 元谋县| 石门县| 黄平县| 天柱县| 平乐县| 新邵县| 新兴县| 晋城| 甘孜县| 南召县| 吉木乃县| 灵宝市| 荆州市| 绥阳县| 井冈山市| 普陀区| 湟源县| 金昌市| 渭南市|