最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICRA 2022 | 基于多模態(tài)變分自編碼器的任意時(shí)刻三維物體重建

2022-03-19 22:17 作者:3D視覺工坊  | 我要投稿

論文題目:Anytime3D Object Reconstruction Using Multi-Modal Variational Autoencoder

論文地址:arxiv.org/abs/2101.1039

論文來源:IEEERobotics and Automation Letters (accepted with ICRA2022 options)

作者:夏初 ?文章來源:微信公眾號(hào)「3D視覺工坊」

摘要

對(duì)于有效的人-機(jī)器人團(tuán)隊(duì),機(jī)器人能夠與人類操作員分享他們的視覺感知是很重要的。在苛刻的遠(yuǎn)程協(xié)作環(huán)境中,可以利用autoencoder等數(shù)據(jù)壓縮技術(shù)以緊湊的形式獲取和傳輸潛在變量的數(shù)據(jù)。此外,為了確保即使在不穩(wěn)定的環(huán)境下也能獲得實(shí)時(shí)運(yùn)行性能,需要一種能夠從不完整信息中重建完整內(nèi)容的隨時(shí)估計(jì)方法。在此背景下,研究人員提出了一種方法來插補(bǔ)部分缺失元素的潛在變量。為了在只有幾個(gè)變量維度的情況下實(shí)現(xiàn)anytime屬性,利用類別級(jí)別的先驗(yàn)信息至關(guān)重要。在變分自動(dòng)編碼器中使用的先驗(yàn)分布被簡單地假設(shè)為各向同性高斯分布,而與每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的標(biāo)簽無關(guān)。這種類型的平坦先驗(yàn)使得難以從類別水平分布進(jìn)行插補(bǔ)。研究人員通過在潛在空間中利用特定類別的多模態(tài)先驗(yàn)分布來克服這一限制。通過根據(jù)剩余元素找到特定模態(tài),可以對(duì)部分傳輸數(shù)據(jù)中缺失的元素進(jìn)行采樣。由于該方法旨在使用部分元素進(jìn)行任何時(shí)間的估計(jì),因此也可用于數(shù)據(jù)過壓縮?;贛odelNet和Pascal3D數(shù)據(jù)集上的實(shí)驗(yàn),所提出的方法與自編碼器(AE)和變分自編碼器(VAE)相比表現(xiàn)出一致的優(yōu)越性能,數(shù)據(jù)丟失率高達(dá)70%。

研究貢獻(xiàn)

1.使得三維重建中具有隨時(shí)可用的屬性:為了只使用編碼向量的部分元素完全執(zhí)行重建,研究人員引入了缺失元素插補(bǔ)方法。研究人員的方法不僅考慮了整個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)的潛在空間,還考慮了缺失數(shù)據(jù)插補(bǔ)任務(wù)的特定類別分布。研究人員在AE結(jié)構(gòu)上驗(yàn)證了研究人員的方法,因?yàn)榇蠖鄶?shù)3D-3D或2D-3D網(wǎng)絡(luò)可以通過使用中間輸出作為潛在變量實(shí)現(xiàn)AE。在AE(或VAE)的情況下,研究人員可以按分類順序收集從訓(xùn)練數(shù)據(jù)中獲得的潛在變量;可以獲得每個(gè)類別的模態(tài)。因此,在訓(xùn)練后,可以找到最接近丟失的潛在變量的模態(tài),以表示潛在向量的標(biāo)簽。通過從該模式中采樣缺失元素,可以進(jìn)行缺失數(shù)據(jù)插補(bǔ)。

2.利用特定類別多模態(tài)先驗(yàn)的思想來實(shí)現(xiàn)VAE:該方法可以保障潛在空間按類別很好地分開,使得通過傳輸向量的剩余元素找到相應(yīng)類別的模態(tài)。假設(shè)每個(gè)維度在潛在空間中是獨(dú)立的,并且每個(gè)元素都被訓(xùn)練為投影到特定于類別的多模態(tài)分布上,即訓(xùn)練網(wǎng)絡(luò)進(jìn)行元素分類聚類。通過尋找包含不完全潛在變量部分元素的正確模式,從插補(bǔ)的過程中恢復(fù)潛在向量。這些恢復(fù)的潛在變量可以由解碼器轉(zhuǎn)換為完全重建的三維形狀。3.可應(yīng)用于魯棒的三維形狀估計(jì),既可以防止由于不穩(wěn)定網(wǎng)絡(luò)造成的數(shù)據(jù)丟失,也可以防止由于任意壓縮導(dǎo)致的部分丟棄。

研究方法



A. Priorof AE and VAE for Element Imputation

對(duì)于對(duì)象表示,讓I和x分別表示觀察到的2D或3D感官數(shù)據(jù)及其3D形狀;設(shè)z為從編碼器傳輸?shù)腘維潛在向量。針對(duì)由于算法突然中斷而丟失z的某些元素,以及AE中缺失足夠的先驗(yàn)信息,在這種情況下,通過對(duì)不完整的潛在變量從p(z)中采樣來檢索缺失元素,由于先驗(yàn)分布定義為各向同性,采樣的潛在變量的平均值接近于零向量。然后,可以大概地對(duì)缺失元素的潛在變量進(jìn)行數(shù)據(jù)插補(bǔ),如下所示:


B. Category-SpecificMulti-Modal Prior for Element Imputation

為了獲得類別或?qū)嵗南闰?yàn)知識(shí),從而保證每個(gè)模態(tài)都遵循高斯分布且彼此遠(yuǎn)離,研究人員根據(jù)每個(gè)對(duì)象的類別標(biāo)簽,利用了具有多模態(tài)先驗(yàn)分布的VAE。這個(gè)先驗(yàn)知識(shí)可以表示:



其中,μ函數(shù)作為先驗(yàn)網(wǎng)絡(luò)實(shí)現(xiàn)。先驗(yàn)網(wǎng)絡(luò)用于自動(dòng)查找每個(gè)模態(tài)的參數(shù)。在訓(xùn)練的一開始,參數(shù)被隨機(jī)初始化。這些參數(shù)是網(wǎng)絡(luò)根據(jù)類別的輸出,可以通過訓(xùn)練進(jìn)行更新;在KL散度損失下,先驗(yàn)分布中的每一個(gè)模態(tài)獲取潛在變量,并且也跟隨潛在變量。在附加限制損失的情況下,每個(gè)模態(tài)都被強(qiáng)制遵循高斯分布,并且彼此移動(dòng)得很遠(yuǎn),以便相互區(qū)分。訓(xùn)練結(jié)束后,研究人員只需在實(shí)際運(yùn)行時(shí)間之前將特定參數(shù)輸入到經(jīng)過訓(xùn)練的先驗(yàn)網(wǎng)絡(luò),即可獲得每個(gè)類別。根據(jù)平均場(chǎng)理論,研究人員可以假設(shè)潛在向量的每個(gè)元素遵循獨(dú)立的高斯分布。因此,研究人員可以選擇只有部分潛在變量元素的最接近模式,并按如下方式進(jìn)行插補(bǔ):



C. ModalSelection

提取不完全向量的關(guān)鍵是找到與原始潛變量對(duì)應(yīng)的先驗(yàn)?zāi)B(tài)。根據(jù)平均場(chǎng)定理,可以假設(shè)每個(gè)維度都是獨(dú)立的。因此,對(duì)于不完整的潛變量z,可以通過以下元素方式比較先驗(yàn)?zāi)B(tài),找到與原始z對(duì)應(yīng)的最佳標(biāo)簽l:



分類中僅使用潛在變量和多模態(tài)先驗(yàn)元素執(zhí)行,其中潛在變量沒有丟失。由于假設(shè)先驗(yàn)的每個(gè)模態(tài)都是高斯的,所以計(jì)算并比較了元素距離的總和。為了使這種方法保持不變,潛在空間中先驗(yàn)分布的每一個(gè)模態(tài)應(yīng)該通過一定的距離閾值或更大的距離彼此分離。為了滿足這個(gè)條件,研究人員在訓(xùn)練多模態(tài)VAE時(shí),在兩個(gè)不同的標(biāo)簽之間增加了一個(gè)約束:



潛在空間的每個(gè)維度遵循獨(dú)立的多模態(tài)分布,每個(gè)模態(tài)根據(jù)標(biāo)簽變得可區(qū)分。因此,僅使用潛在變量的一些非缺失元素就可以找到目標(biāo)模式,并且可以從所選模式中實(shí)現(xiàn)元素級(jí)插補(bǔ)。

D.Dropout for Element Pruning

研究人員的方法是只使用數(shù)據(jù)點(diǎn)的部分元素進(jìn)行任何時(shí)間的魯棒重建,或采用其他方案。這些方法的目的是不同的,因?yàn)樗鼈儾粓?zhí)行插補(bǔ),常應(yīng)用于語音識(shí)別或分類。但上下文是相似的,因?yàn)樗鼈兪褂貌糠衷鼗虿糠志W(wǎng)絡(luò)。因此,在研究人員的方法中,可以在訓(xùn)練期間采用elementpruning或elementmasking,以便執(zhí)行元素插補(bǔ)和重建。因此,即使在向量的某些元素被裁剪時(shí),解碼器也會(huì)被訓(xùn)練來執(zhí)行重建,從而可以實(shí)現(xiàn)更健壯的隨時(shí)重建算法。

E.Decoder and Prior Distribution

在訓(xùn)練完全收斂后,研究人員可以找到不完全變量的特定類別的模態(tài),并進(jìn)行補(bǔ)充。隨后,解碼器可以實(shí)現(xiàn)魯棒的三維重建。然而,由于變分似然在實(shí)際中很難精確地逼近先驗(yàn),因此使解碼器適應(yīng)先驗(yàn)分布也可以靈活地處理插補(bǔ)過程中的潛在變量。因此,研究人員將期望項(xiàng)替換為:


實(shí)驗(yàn)

為了驗(yàn)證所提出的方法,研究人員使用ModelNet40數(shù)據(jù)集進(jìn)行三維對(duì)象觀察、傳輸和三維重建,使用Pascal3D數(shù)據(jù)集進(jìn)行二維圖像中的對(duì)象檢測(cè)、傳輸和三維估計(jì)。ModelNet40中每個(gè)類別包含40個(gè)類和大約300個(gè)實(shí)例,Pascal3D中每個(gè)類別包含10個(gè)類和10個(gè)實(shí)例。研究人員將Pascal3D和ModelNet40的潛在維度設(shè)置為64。在傳輸潛在變量時(shí),由于意外中斷或壓縮率過高,某些元素可能會(huì)被拒絕傳輸。因此,在本實(shí)驗(yàn)中,元素的失敗率設(shè)置為30%、50%、70%和90%。對(duì)于三維形狀信息,研究人員將CAD模型轉(zhuǎn)換為643個(gè)具有二進(jìn)制變量的體素網(wǎng)格。由于Pascal3D數(shù)據(jù)集中也有多對(duì)象場(chǎng)景的圖像,研究人員使用邊界框?qū)D像進(jìn)行裁剪。

A.Classification



對(duì)于ModelNet40,與基于AE和VAE的方法相比,本研究方法顯示出更高的準(zhǔn)確率。在研究中,假設(shè)維度相互獨(dú)立,每個(gè)元素遵循一維多模態(tài)先驗(yàn),因此即使在潛在變量的大部分元素丟失的情況下,分類任務(wù)也能相對(duì)較好地執(zhí)行。此外,dropout通常會(huì)提高AE和VAE的性能,但不會(huì)對(duì)本研究中的方法產(chǎn)生一定的影響。

對(duì)于Pascal3D+,本研究中的方法性能更好,但與ModelNet40相比,沒有顯示出高性能差距。研究人員認(rèn)為Pascal3D+只有10個(gè)類,因此與ModelNet40有40個(gè)類的情況相比,它更容易執(zhí)行分類。此外,Pascal3D+具有高分辨率RGB圖像作為輸入,與低分辨率的3D模型相比,更容易提取功能豐富的信息。

B.Reconstruction



在ModelNet40中,除AE和VAE外的所有方法都顯示出更好的重建性能,在保持與插補(bǔ)前相同的精度的情況下,實(shí)現(xiàn)了較高的效果。在Pascal3D+中,本研究中的方法顯示了顯著改善。



總結(jié)

在惡劣環(huán)境或低帶寬通信網(wǎng)絡(luò)下的人-機(jī)器人協(xié)作環(huán)境中,實(shí)時(shí)目標(biāo)觀測(cè)和傳輸可能會(huì)中斷或失敗,因此只能傳輸壓縮數(shù)據(jù)的部分元素。為了在不穩(wěn)定環(huán)境下支持魯棒的實(shí)時(shí)人-機(jī)器人協(xié)作,研究人員提出了一種考慮特定類別多模態(tài)分布的隨時(shí)重構(gòu)方法。雖然AE和VAE已被用作壓縮和解碼數(shù)據(jù)的關(guān)鍵結(jié)構(gòu),但由于其先驗(yàn)分布的簡單性,基于丟失元素進(jìn)行重建仍然是一項(xiàng)挑戰(zhàn)。為了實(shí)現(xiàn)類別級(jí)的插補(bǔ)和完整的三維形狀重建,研究人員利用了潛在空間的多模態(tài)先驗(yàn)分布思想。與普通VAE不同,該方法中的每個(gè)模態(tài)都是在訓(xùn)練時(shí)自動(dòng)確定的,并且包含特定類別的信息。利用這種先驗(yàn)分布,研究人員僅利用潛在空間中的傳輸元素來確定潛在變量的模式。通過從所選模型中輸入采樣變量,研究人員可以穩(wěn)健地實(shí)現(xiàn)潛在向量檢索和三維形狀重建。本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

3D視覺精品課程推薦:

1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)

2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)

3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)

4.國內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程

5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解

6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦

7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)

9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]

10.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)

11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)

12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)

13.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)

14.ROS2從入門到精通:理論與實(shí)戰(zhàn)


更多干貨

歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計(jì)算機(jī)視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動(dòng)駕駛、點(diǎn)云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長~

添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。


ICRA 2022 | 基于多模態(tài)變分自編碼器的任意時(shí)刻三維物體重建的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
无棣县| 邵阳市| 灯塔市| 泰宁县| 宜丰县| 额尔古纳市| 镇宁| 石家庄市| 二连浩特市| 德保县| 上犹县| 东乡| 边坝县| 陇南市| 佛教| 隆德县| 商南县| 萨迦县| 绥阳县| 吴川市| 浮山县| 承德市| 卓尼县| 鹤山市| 互助| 大英县| 郯城县| 玉屏| 东源县| 镇宁| 平安县| 罗山县| 三江| 长寿区| 朝阳县| 大名县| 娄底市| 永安市| 武胜县| 清流县| 和静县|