最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

深度三維感知:數(shù)據(jù)、學(xué)習(xí)架構(gòu)與應(yīng)用

2021-05-28 12:05 作者:深藍(lán)學(xué)院  | 我要投稿

本文總結(jié)于弋力博士2021年5月19日在深藍(lán)學(xué)院關(guān)于深度三維感知的公開課——《深度三維感知:數(shù)據(jù)、學(xué)習(xí)架構(gòu)與應(yīng)用》。

本次公開課圍繞三維數(shù)據(jù)集構(gòu)建,三維深度學(xué)習(xí)骨干網(wǎng)絡(luò)的設(shè)計(jì),三維感知的應(yīng)用以及未來(lái)的研究方向來(lái)對(duì)深度三維感知展開介紹與討論 。

我們先從深度三維感知的簡(jiǎn)單介紹開始。

我們生活在三維的世界中,而讓機(jī)器理解三維的場(chǎng)景,進(jìn)而和環(huán)境進(jìn)行交互也是一個(gè)非常重要的任務(wù)。比如在AR,VR應(yīng)用中,通過(guò)對(duì)三維場(chǎng)景的理解可以創(chuàng)建虛擬的內(nèi)容,增強(qiáng)人們對(duì)于3d環(huán)境的體驗(yàn)。又比如在自動(dòng)駕駛中,通過(guò)讓車輛識(shí)別路標(biāo),其他車輛和行人等,可以幫助汽車分析路況,從而進(jìn)行預(yù)判和安全行駛。

因?yàn)槿S理解已經(jīng)超過(guò)了傳統(tǒng)三維傳感和捕捉的范疇,我們需要強(qiáng)大的一個(gè)感知系統(tǒng)去消化和理解這些信號(hào),比如讓一個(gè)機(jī)器人離開一個(gè)房間,我們需要讓它通過(guò)傳感數(shù)據(jù)分析三維場(chǎng)景,然后能找到房間的門把手,扭動(dòng)它,最后離開房間。

1.三維數(shù)據(jù)集構(gòu)建

如何去分析三維的傳感數(shù)據(jù),可以首先借鑒在二維圖像領(lǐng)域的成功經(jīng)驗(yàn)。

在過(guò)去十年,深度學(xué)習(xí)一直是整個(gè)AI領(lǐng)域發(fā)展最強(qiáng)大的助力,尤其是在二維圖像領(lǐng)域,完成了很多之前被認(rèn)為很困難的任務(wù)。而這些成功首先是基于二維圖像充分的數(shù)據(jù)集。不過(guò)針對(duì)三維數(shù)據(jù),相比之下,相關(guān)的數(shù)據(jù)集和測(cè)試平臺(tái)的發(fā)展卻遠(yuǎn)遠(yuǎn)落后 。

圖1 深度學(xué)習(xí)在二維圖像理解領(lǐng)域取得眾多成果

在二維圖像領(lǐng)域,ImageNet通過(guò)收集大量互聯(lián)網(wǎng)的圖像并進(jìn)行仔細(xì)的分類,使其成為二維圖像測(cè)試一個(gè)非常理想的平臺(tái)?;谶@樣的思路,考慮到互聯(lián)網(wǎng)同樣也存在大量的三維模型,因此,在ShapeNet中,我們也添加了4000多個(gè)類別物體的三百多萬(wàn)的模型,當(dāng)時(shí)這樣的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)大于此前存在的三維數(shù)據(jù)集。

在ShapeNet中,我們添加了三維物體的很多獨(dú)特屬性,在構(gòu)建ShapeNet時(shí),我們對(duì)于物體形狀進(jìn)行了仔細(xì)的分類,并對(duì)齊了形狀,讓三維物體有類別和位姿的信息。然后,我們研究了子物體級(jí)別的屬性,添加了每個(gè)物體所包括的語(yǔ)義部件。

接下來(lái),在PartNet的工作中,我們進(jìn)一步細(xì)化了語(yǔ)義標(biāo)簽,使其到達(dá)了一個(gè)可以進(jìn)行交互操作的水平,甚至可以支持對(duì)于物體運(yùn)動(dòng)性和功能性的研究,此外,PartNet將這些語(yǔ)義信息更加層次化的組織起來(lái),從而支持對(duì)于它們更加結(jié)構(gòu)化的感知。

圖2 ShapeNet豐富的物體模型

ShapeNet推出后,為三維骨干網(wǎng)絡(luò)的設(shè)計(jì)提供了首個(gè)測(cè)試平臺(tái),并為三維深度學(xué)習(xí)算法提供基本的測(cè)試,其次,ShapeNet包括了非常豐富的類別屬性,并且在不斷增加,從而支持各種各樣下游的應(yīng)用程序和新的研究趨勢(shì)。

此外,使用ShapeNet可以生成大量自動(dòng)標(biāo)簽的合成數(shù)據(jù),用以支持一些列標(biāo)注昂貴的三維感知任務(wù)如三維物體的位姿估計(jì)等。這些特性讓Shape Net成為很多新興領(lǐng)域的重要數(shù)據(jù)源。在2020年我們利用ShapeNet物體的豐富屬性構(gòu)建了Sapien這一針對(duì)機(jī)器人的模擬仿真環(huán)境,有了Sapien,我們就可以在安全,廉價(jià)和高效的仿真環(huán)境去訓(xùn)練機(jī)器人的感知算法,而不是在低效昂貴和危險(xiǎn)的現(xiàn)實(shí)世界去訓(xùn)練。我們也希望Sapein作為機(jī)器人技術(shù)和三維感知的交集,能夠幫助領(lǐng)域發(fā)展出更多有意思的研究方向。

圖3 Sapien仿真環(huán)境

除了剛才介紹的三維數(shù)據(jù)集外,這些年也陸續(xù)出現(xiàn)了其他不同特點(diǎn)的三維數(shù)據(jù)集。

在2016年的工作A large dataset of objects scan中,提供的數(shù)據(jù)集是由來(lái)自真實(shí)世界的3D掃描的物體組成,不過(guò)并沒(méi)有語(yǔ)義的標(biāo)注,也沒(méi)有按類別的信息進(jìn)行整合,這些也限制了這個(gè)數(shù)據(jù)集的應(yīng)用。

另外,在Thingi10K數(shù)據(jù)集中,包括了大量支持3D打印的模型。而在ABC這一數(shù)據(jù)集中,包含了大量的工業(yè)零件CAD模型數(shù)據(jù)集,為CAD的仿真模擬提供了很好的信息源,并且作者希望通過(guò)CAD模型更好的進(jìn)行幾何深度學(xué)習(xí)的研究。

此外,場(chǎng)景級(jí)別的3D數(shù)據(jù)集也得到了更多的關(guān)注。比如SceneNet,誕生于2016年,是一個(gè)合成場(chǎng)景的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集可以幫助人們更好的思考,如何利用合成數(shù)據(jù)來(lái)理解真實(shí)的室內(nèi)環(huán)境。Scannet是一個(gè)真實(shí)場(chǎng)景掃描的數(shù)據(jù)集,其中包括豐富的語(yǔ)義和實(shí)例標(biāo)注信息。

除此之外,隨著無(wú)人車的興起,在駕駛場(chǎng)景中通過(guò)3D激光雷達(dá)掃描得到的數(shù)據(jù)集也層出不窮,包括Waymo,Kitti和nuScenes等。這些室外數(shù)據(jù)集也幫助我們思考如何更好的理解激光雷達(dá)的數(shù)據(jù)。

2.三維深度學(xué)習(xí)骨干網(wǎng)絡(luò)

一旦有效地組織了三維數(shù)據(jù)集,我們就需要思考如何利用數(shù)據(jù)去更好的訓(xùn)練三維數(shù)據(jù)的骨干網(wǎng)絡(luò)。三維深度學(xué)習(xí)之所以有趣而且特別,是因?yàn)槿S數(shù)據(jù)有豐富的表述形式,比如早期的街景通常通過(guò)多視圖幾何來(lái)表示;而醫(yī)療三維圖像包括MRI通常利用體素化來(lái)呈現(xiàn);三維點(diǎn)云則是自動(dòng)駕駛場(chǎng)景下激光雷達(dá)可以采集得到的數(shù)據(jù)形式;針對(duì)室內(nèi)設(shè)計(jì),多邊形網(wǎng)格時(shí)最受歡迎的數(shù)據(jù)表述形式。

圖4 三維數(shù)據(jù)的多種表述方式

針對(duì)各種三維信息的表述形式,多視角圖像,體素圖和深度圖通常被認(rèn)為是常規(guī)的數(shù)據(jù)表現(xiàn)形式。它們類似于在二維網(wǎng)格存儲(chǔ)的數(shù)據(jù)圖像,因此也更容易被卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,從而減輕了我們?cè)O(shè)計(jì)和調(diào)整三維骨干網(wǎng)絡(luò)的負(fù)擔(dān)。

但是,它們也有相應(yīng)的問(wèn)題,多視角圖像和深度圖通常難以完整地刻畫一個(gè)物體的三維幾何形態(tài),比如深度圖背面的部分視角是光線照射不到的。而對(duì)于體素化的表征,需要對(duì)空間進(jìn)行均勻的切分,它的存儲(chǔ)形式更為復(fù)雜,會(huì)需要更多的存儲(chǔ)開銷。

不規(guī)則和弱結(jié)構(gòu)化的表達(dá)形式包括點(diǎn)云和多邊形網(wǎng)格,這兩種表示形式可以比較緊湊完整的表達(dá)三維信息,但是,它們?nèi)踅Y(jié)構(gòu)化的表述方式并不能直接的支持卷積神經(jīng)網(wǎng)絡(luò)的使用。如何針對(duì)他們?cè)O(shè)計(jì)高效的三維骨干網(wǎng)絡(luò)也因此成為了一個(gè)具有挑戰(zhàn)性的課題。

在我們選擇三維表述方式的時(shí)候,需要根據(jù)應(yīng)用需求,選擇不同的形式。比如,在資源有限的移動(dòng)設(shè)備中部署學(xué)習(xí)系統(tǒng),我們需要選擇更加緊湊的表述形式,致密的體素化表示就不是最佳的選擇。如果要通過(guò)參考圖像重建三維幾何形狀,那么接近二維圖像的表述形式可能會(huì)更加靈活,比如深度圖或者多視圖。

如果需要設(shè)計(jì)或者編輯三維形狀,我們會(huì)更加關(guān)心對(duì)于幾何或者拓?fù)滢D(zhuǎn)換的支持。對(duì)于簡(jiǎn)單的幾何變換,比如噪聲過(guò)濾,形狀修復(fù),點(diǎn)云和多邊形網(wǎng)格是更好的選擇,所有的變換都可以通過(guò)改變點(diǎn)的坐標(biāo)來(lái)實(shí)現(xiàn)。如果想做形狀簡(jiǎn)化和細(xì)節(jié)平滑,那么多邊形網(wǎng)格就更為合適,因?yàn)樗梢愿玫母櫲S數(shù)據(jù)的拓?fù)湫畔ⅰ?/p>

如果是為了支持渲染等圖形學(xué)應(yīng)用,常采用的表現(xiàn)形式是多邊形網(wǎng)格和體素??傊?,不同表現(xiàn)形式在不同的應(yīng)用場(chǎng)景中會(huì)體現(xiàn)出各自的優(yōu)勢(shì),所以設(shè)計(jì)不同的三維深度學(xué)習(xí)的架構(gòu)來(lái)支持不同格式的信息也至關(guān)重要。對(duì)于規(guī)則的數(shù)據(jù)表述形式,我們可以更多的參考二維數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),而如何處理點(diǎn)云等不規(guī)則化的數(shù)據(jù),方法則沒(méi)有那么的顯而易見。

接下來(lái),我們來(lái)介紹一下針對(duì)不規(guī)則的幾何數(shù)據(jù)形式(點(diǎn)云和多邊形網(wǎng)格),該如何設(shè)計(jì)深度學(xué)習(xí)的網(wǎng)絡(luò)。

PointNet

首先我們介紹PointNet,這個(gè)是第一個(gè)能夠在三維點(diǎn)云上進(jìn)行深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)??紤]一個(gè)點(diǎn)云處理網(wǎng)絡(luò),它輸入的N個(gè)點(diǎn)每一個(gè)都是通過(guò)D維(通常是3)的坐標(biāo)表示,因?yàn)辄c(diǎn)云的數(shù)據(jù)排列是無(wú)序的,因此我們也希望點(diǎn)的序列的改變不會(huì)影響到深度網(wǎng)絡(luò)所輸出的物體屬性,即所謂的置換不變性。那么,哪些函數(shù)的處理可以確保這種不變性呢?我們可以想到的是求和,求最大值。但是,它們對(duì)于特征的表述性都太弱,為了增強(qiáng)表述性,我們可以通過(guò)增加多層感知器來(lái)實(shí)現(xiàn),這其實(shí)就是PointNet的基本原理。PointNet是一個(gè)簡(jiǎn)單而又強(qiáng)大的網(wǎng)絡(luò),因?yàn)樗暮?jiǎn)便,如今在自動(dòng)駕駛和機(jī)器人領(lǐng)域得到了廣泛應(yīng)用。

當(dāng)然,PointNet并不完美,它提取的特征太過(guò)極端,只包含了每個(gè)點(diǎn)的特征以及全局的特征,除此之外沒(méi)有更多的內(nèi)容,也缺乏層次化的特征提取功能。然而局部的細(xì)節(jié)特征對(duì)于一系列感知任務(wù)其實(shí)是非常重要的。此外,PointNet對(duì)于數(shù)據(jù)的平移和旋轉(zhuǎn)等操作也是非常敏感的。這也使得PointNet無(wú)法用于全新的大型場(chǎng)景理解。

在PointNet++中,我們彌補(bǔ)了PointNet無(wú)法提取局部幾何特征和抽取上下文信息的缺陷。PointNet++的基本思想是在局部區(qū)域遞歸地使用PointNet,它類似于CNN,遵從分層設(shè)計(jì)的原則,并且保留了局部的平移不變性。而且,它還繼承了PointNet的優(yōu)勢(shì),不會(huì)因?yàn)檩斎朦c(diǎn)云次序的變化而改變點(diǎn)云特征。

在PointNet++中,我們隨機(jī)選擇種子點(diǎn),并裁減一個(gè)圓形區(qū)域,這樣的局部區(qū)域有單個(gè)點(diǎn)的周圍信息,并且相對(duì)于全局信息,幾何形狀更為簡(jiǎn)單。為了抽取局部特征,我們可以直接使用PointNet,在多次采樣種子點(diǎn),并覆蓋全局大部分區(qū)域后,我們就可以結(jié)束這個(gè)過(guò)程。 在這之后,通過(guò)PointNet處理這些特征種子點(diǎn),我們就可以得到最終的全局特征。

圖5 PointNet++中種子點(diǎn)的選取和處理

SyncSpecCNN

接下來(lái)要介紹的是將圖卷積網(wǎng)絡(luò)應(yīng)用于多邊形網(wǎng)格學(xué)習(xí)的工作——SyncSpecCNN。

由于在多邊形網(wǎng)格不規(guī)則的圖上,直接進(jìn)行卷積是有困難的,因此,光譜CNN被提出。

光譜CNN不是在整個(gè)圖上進(jìn)行卷積操作,而是將空間域的卷積操作轉(zhuǎn)換為光譜域的乘積操作。具體而言,我們通過(guò)傅里葉變換將信號(hào)轉(zhuǎn)換為譜域里的表示,在譜域里,我們定義卷積核和信號(hào)進(jìn)行乘積操作,再通過(guò)傅里葉逆變換就可以實(shí)現(xiàn)空間域的卷積。

但是,由于不同的多邊形網(wǎng)格如果圖結(jié)構(gòu)不同,通常具有不同的傅里葉基底,這將阻止譜卷積的濾波器在不同的圖之間的參數(shù)共享。這對(duì)于處理具有不同圖結(jié)構(gòu)的多邊形網(wǎng)格的集合來(lái)說(shuō),是一個(gè)大麻煩。

在SyncSpecCNN中,我們提出了用來(lái)同步基底的方法,利用一種光譜轉(zhuǎn)換網(wǎng)絡(luò),根據(jù)輸入光譜,預(yù)測(cè)一個(gè)線性同步映射,用以將傅里葉基底映射到一個(gè)規(guī)范域中,從而使得不同的圖結(jié)構(gòu)光譜CNN共享成為了一種可能。

3.三維感知的應(yīng)用

在接下來(lái)的環(huán)節(jié),我來(lái)介紹一下前沿的三維感知應(yīng)用方面的工作,其中包括三維實(shí)例分割,三維場(chǎng)景的預(yù)適應(yīng)問(wèn)題,三維與二維圖像的多模態(tài)學(xué)習(xí)問(wèn)題以及降低標(biāo)注量需求的自監(jiān)督三維感知問(wèn)題。

首先,我們來(lái)了解一下三維實(shí)例分割。三維點(diǎn)云實(shí)例分割可以說(shuō)是最重要的感知任務(wù)之一,它的定義如下:給定一個(gè)三維點(diǎn)云,我們希望能夠分割出點(diǎn)云中所有的實(shí)例對(duì)象,并且將前景點(diǎn)用語(yǔ)義與實(shí)例標(biāo)簽相關(guān)聯(lián)。

我們這里介紹的網(wǎng)絡(luò)叫GSPN(Gernerative Shape Proposal Network),它是第一個(gè)利用區(qū)域提案網(wǎng)絡(luò)(Region Proposal Network)的方法。在二維圖像的分割領(lǐng)域,基于區(qū)域的方法至今仍非常成功,也具有非常大的影響力。

這些方案的關(guān)鍵組成部分就叫做區(qū)域提案網(wǎng)絡(luò),它提取了圖像中可能存在對(duì)象的區(qū)域,這些區(qū)域通常被表現(xiàn)為二維的邊界框,網(wǎng)絡(luò)會(huì)處理這些區(qū)域來(lái)進(jìn)行進(jìn)一步的預(yù)測(cè)。比如說(shuō)對(duì)于實(shí)例分割的任務(wù),我們可以在邊界框內(nèi)進(jìn)行二元分割來(lái)獲得物體。

那么如何在三維信息中進(jìn)行區(qū)域提案來(lái)檢測(cè)和分割目標(biāo)對(duì)象呢?

如果在三維區(qū)域,直接使用邊界框去提出區(qū)域提案,質(zhì)量往往并不高,因?yàn)樵诟呔S度的空間尋找到確切的對(duì)象是個(gè)更復(fù)雜的任務(wù),因此經(jīng)常會(huì)出現(xiàn)一個(gè)提案中包含了多個(gè)物體或者只有一部分物體的情況。

圖6 兩種不同類型的實(shí)例分割提案方式

在GSPN這個(gè)工作中,我們基于的假設(shè)是,三維邊界框提供的監(jiān)督信息不足,而提出的新想法是使用能夠獲取的最強(qiáng)監(jiān)督信號(hào)來(lái)監(jiān)督區(qū)域提案網(wǎng)絡(luò),而所謂最強(qiáng)的監(jiān)督信號(hào)就是三維物體的幾何形狀信息。

不同于邊界框,通過(guò)生成目標(biāo)對(duì)象的形狀來(lái)迫使提案網(wǎng)絡(luò)來(lái)理解物體的本質(zhì),從而避免生成低質(zhì)量的局部物體或者多個(gè)物體的提案。因?yàn)槿S物體的形狀具有很強(qiáng)的幾何規(guī)整性,并且能夠保持物體比例,所以,三維物體形狀的分布要比二維物體簡(jiǎn)單很多,通過(guò)“生成類型”的模型,我們可以描述三維物體形狀的分布。

具體來(lái)說(shuō),我們訓(xùn)練了一個(gè)生成模型,通過(guò)采樣,生成逼真的三維物體形狀,然后,從分布中獲取樣本,來(lái)生成對(duì)象提案。值得注意的是,我們對(duì)網(wǎng)絡(luò)進(jìn)行了明確的訓(xùn)練,讓它了解物體可能出現(xiàn)的外觀,這將顯著提升提案的質(zhì)量。我們?cè)赟canNet上對(duì)于方法進(jìn)行了評(píng)估,證明了GSPN的方法相較于之前的工作會(huì)有更加優(yōu)秀的性能。

相比于室內(nèi),在室外的自動(dòng)駕駛的場(chǎng)景中,由于室外采用的激光雷達(dá)傳感器的差異,會(huì)引入更多有趣的研究問(wèn)題。室外場(chǎng)景采集的點(diǎn)云相較于室內(nèi),采樣模式不同,點(diǎn)云通常比較稀疏。而因此,適用于室內(nèi)場(chǎng)景的網(wǎng)絡(luò)架構(gòu)也要做出相應(yīng)調(diào)整。

如何讓深度網(wǎng)絡(luò)針對(duì)不同的激光雷達(dá)進(jìn)行預(yù)適應(yīng),也因此成為了一個(gè)值得關(guān)注的問(wèn)題。

我們?cè)谶@里重點(diǎn)關(guān)注激光雷達(dá)的語(yǔ)義分割問(wèn)題,這一問(wèn)題的具體描述是,通過(guò)激光雷達(dá)的點(diǎn)云輸入預(yù)測(cè)每一個(gè)點(diǎn)的語(yǔ)義標(biāo)簽,比如一個(gè)點(diǎn)對(duì)應(yīng)的是一棵樹還是路面,我們的目標(biāo)是通過(guò)給定的帶有標(biāo)簽的原域,去訓(xùn)練一個(gè)語(yǔ)義分割的網(wǎng)絡(luò),它能夠轉(zhuǎn)移到無(wú)標(biāo)記的目標(biāo)域。我們非常關(guān)注由不同的激光雷達(dá)傳感器所引起的差異,因?yàn)檫@會(huì)引起知識(shí)遷移的困難,因此想探索的是,如何利用對(duì)3D數(shù)據(jù)的理解,來(lái)解決這樣的差異帶來(lái)的知識(shí)遷移的障礙。

圖7 SVCN網(wǎng)絡(luò)架構(gòu)

我們所提出的觀點(diǎn)是,物理世界是三維的,而激光雷達(dá)是對(duì)于這些三維信息的采樣,如果能夠恢復(fù)采樣點(diǎn)背后的物體表面信息,并且對(duì)于物體表面進(jìn)行密集規(guī)范的重采樣,那么就可以彌合不同的采樣模式導(dǎo)致的差異。

為了實(shí)現(xiàn)這樣的想法,我們提出了以下流程,首先學(xué)習(xí)一個(gè)稀疏體素補(bǔ)全的網(wǎng)絡(luò)用來(lái)補(bǔ)全輸入的稀疏點(diǎn)云,從而得到更加稠密的采樣點(diǎn),我們稱這些稠密的點(diǎn)為規(guī)范域的點(diǎn)。然后,利用原域的語(yǔ)義標(biāo)注,可以去訓(xùn)練體素標(biāo)記的網(wǎng)絡(luò),來(lái)標(biāo)記這些規(guī)范域的點(diǎn)。在測(cè)試的階段,我們會(huì)使用另外一個(gè)稀疏體素補(bǔ)全網(wǎng)絡(luò)來(lái)對(duì)目標(biāo)域中的點(diǎn)云進(jìn)行補(bǔ)全。接下來(lái),我們可以利用訓(xùn)練好的體素標(biāo)記網(wǎng)絡(luò)應(yīng)用于規(guī)范域中的點(diǎn),推斷出目標(biāo)域語(yǔ)義分割的標(biāo)簽。

根據(jù)應(yīng)用的需要,我們也可以將規(guī)范域的語(yǔ)義標(biāo)簽投影回目標(biāo)域中,整個(gè)方法的流程相對(duì)簡(jiǎn)單,關(guān)鍵在于三維補(bǔ)全的部分,那如何高效的補(bǔ)全激光雷達(dá)的點(diǎn)云呢?

為此,我們需要訓(xùn)練一個(gè)稀疏體素補(bǔ)全網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)包括一個(gè)結(jié)構(gòu)生成模塊以及一個(gè)結(jié)構(gòu)優(yōu)化模塊,這兩個(gè)模塊都是利用了類似U-Net的結(jié)構(gòu)。其中,結(jié)構(gòu)生成模塊用于高效的生成結(jié)構(gòu)信息,而結(jié)構(gòu)優(yōu)化模塊用于剔除不準(zhǔn)確的信息。

從效果上來(lái)說(shuō),針對(duì)不同類型的雷達(dá),我們都可以生成具有相似的采樣模式的補(bǔ)全信息,而這些補(bǔ)全信息也將支持下游任務(wù)中跨域的知識(shí)遷移。

圖8 SVCN網(wǎng)絡(luò)點(diǎn)云補(bǔ)全效果對(duì)比

P4Contrast這一工作的目標(biāo)是針對(duì)RGBD場(chǎng)景來(lái)設(shè)計(jì)一個(gè)對(duì)比學(xué)習(xí)框架,在無(wú)需人工監(jiān)督的情況,學(xué)習(xí)如果從RGBD的數(shù)據(jù)中提取密集的點(diǎn)級(jí)特征。這些特征對(duì)對(duì)于語(yǔ)義分割和三維對(duì)象檢測(cè)都非常重要。

那么, 如何來(lái)學(xué)習(xí)這樣的表征呢?

一種常見的方法叫對(duì)比學(xué)習(xí)。對(duì)比學(xué)習(xí)方法通過(guò)優(yōu)化一個(gè)對(duì)比損失函數(shù)來(lái)解決數(shù)據(jù)集中的實(shí)例判別任務(wù),從而優(yōu)化特征提取器。

我們會(huì)定義一個(gè)錨點(diǎn)樣本,正樣本和負(fù)樣本,其中,正樣本和錨點(diǎn)樣本對(duì)應(yīng)同樣的實(shí)例,而負(fù)樣本和錨點(diǎn)樣本則對(duì)應(yīng)不同的實(shí)例。實(shí)例判別是為了訓(xùn)練網(wǎng)絡(luò),從而從大量負(fù)樣本中成功找到錨點(diǎn)樣本對(duì)應(yīng)的正樣本。為了實(shí)現(xiàn)這樣一個(gè)目標(biāo),我們通常會(huì)去優(yōu)化對(duì)比損失函數(shù)來(lái)將錨點(diǎn)樣本和正樣本在特征空間中拉近,和負(fù)樣本在特征空間推遠(yuǎn)。

那么,我們?cè)撊绻槍?duì)RGBD數(shù)據(jù)來(lái)設(shè)計(jì)對(duì)比學(xué)習(xí)框架并獲取密集特征呢?

一種原始方法是把二維圖像的RGB像素值附加到三維點(diǎn)上來(lái)創(chuàng)建特征點(diǎn),我們可以通過(guò)對(duì)比帶顏色的點(diǎn)來(lái)抽取一些特征。但是,這種方法并不能有效的實(shí)現(xiàn)信息的結(jié)合。而另一種替代的方法是從RGB和點(diǎn)云中分別提取特征,并且在模態(tài)之間進(jìn)行交叉對(duì)比,來(lái)訓(xùn)練RGB和點(diǎn)云各自的特征提取器。但是這種方法不能有效地利用兩種模態(tài)之間的協(xié)同作用,因?yàn)樗轻槍?duì)兩種模態(tài)分別作特征提取。

在P4Contract中,我們提出了對(duì)比點(diǎn)像素對(duì)的方式。具體來(lái)講,我們的錨點(diǎn)樣本是顏色和點(diǎn)的像素對(duì),我們的正樣本是成對(duì)的RGBD點(diǎn)像素對(duì),它可能是通過(guò)錨點(diǎn)樣本通過(guò)數(shù)據(jù)增強(qiáng)得到的,正樣本和錨點(diǎn)樣本中的數(shù)據(jù)對(duì)通常是來(lái)自己同一個(gè)位置的信息。

負(fù)樣本則包括了受到了擾動(dòng)干擾的像素對(duì)。比如, RGB點(diǎn)被換成了和三維點(diǎn)云不匹配的點(diǎn)。在P4Constrast中,我們把數(shù)據(jù)增強(qiáng),應(yīng)用于輸入的兩個(gè)版本,從而生成兩組對(duì)應(yīng)的密集的點(diǎn)像素對(duì)。

我們還要干擾顏色和幾何形狀,來(lái)生成受干擾的像素對(duì)。然后,我們將這些點(diǎn)像素對(duì)通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。在準(zhǔn)備負(fù)樣本的過(guò)程中,我們會(huì)逐漸增加難度,幫助網(wǎng)絡(luò)漸進(jìn)地學(xué)習(xí)特征。

除了預(yù)訓(xùn)練的目標(biāo),我們還精心設(shè)計(jì)了深度學(xué)習(xí)的主干網(wǎng)絡(luò)來(lái)進(jìn)行特征的提取。主干網(wǎng)絡(luò)結(jié)合了二維和三維的卷積分支,二維卷積分支利用了二維的卷積操作,它的上下文信息由二維的像素決定,而三維分支的上下文信息則來(lái)自三維的點(diǎn)。而通過(guò)對(duì)這種不同上下文信息的融合,就可以增強(qiáng)我們對(duì)于RGBD特征的提取。

圖9 P4Contrast流程

為了評(píng)估我們的表征學(xué)習(xí)框架,我們利用p4constrast對(duì)于數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,執(zhí)行語(yǔ)義分割,物體檢測(cè)等下游任務(wù),而實(shí)驗(yàn)結(jié)果也說(shuō)明,通過(guò)預(yù)訓(xùn)練后,結(jié)果要遠(yuǎn)優(yōu)于不進(jìn)行預(yù)訓(xùn)練或者用其他方法預(yù)訓(xùn)練的效果。

前面幾個(gè)項(xiàng)目主要介紹物體級(jí)別的三維場(chǎng)景的理解,接下來(lái)我想再深入討論一下子物體級(jí)別的研究,具體探究零部件的結(jié)構(gòu)和運(yùn)動(dòng)性,這對(duì)于機(jī)器人和物體的交互非常重要。這個(gè)工作叫做基于物體的零部件分割。

我們生活的環(huán)境充滿了大量的具有關(guān)節(jié)的物體,人類可以根據(jù)各個(gè)部分的運(yùn)動(dòng)性把物體分成各個(gè)功能不同的部分,而如何讓機(jī)器人分割物體并理解物體不同部分的運(yùn)動(dòng)性呢?

我們對(duì)于這個(gè)問(wèn)題的描述如下,通過(guò)物體在兩幀下的不同狀態(tài)的觀測(cè),推斷出物體做剛體運(yùn)動(dòng)的零部件,并且得到這些物體的運(yùn)動(dòng)規(guī)律。除此之外,在訓(xùn)練過(guò)程中,我們希望采用在合成數(shù)據(jù)中的無(wú)監(jiān)督訓(xùn)練取代有監(jiān)督訓(xùn)練,并且能夠遷移到真實(shí)數(shù)據(jù)中。

在對(duì)于解決這個(gè)問(wèn)題思路的探索中,我們關(guān)注的是不同狀態(tài)下物體點(diǎn)云的對(duì)應(yīng)關(guān)系,因?yàn)槔命c(diǎn)的對(duì)應(yīng)關(guān)系,不需要對(duì)于語(yǔ)義的深刻理解,所以可以泛化到不同的物體類別上,更重要的是,一旦具有了兩幀點(diǎn)的對(duì)應(yīng)關(guān)系,我們就可以將遵從相同的剛體運(yùn)動(dòng)的點(diǎn)進(jìn)行分組來(lái)完成分割任務(wù),繼而實(shí)現(xiàn)泛化的物體分割和部件分析。

圖10 物體零部件分割的問(wèn)題定義

為了讓點(diǎn)的估計(jì)遷移到真實(shí)的數(shù)據(jù)中,我們利用PointNet++開發(fā)了一個(gè)魯棒的點(diǎn)對(duì)應(yīng)估計(jì)網(wǎng)絡(luò),它對(duì)于第一級(jí)傳感噪聲并不敏感,而這也是合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的主要區(qū)別,因此這個(gè)網(wǎng)絡(luò)可以較好的實(shí)現(xiàn)知識(shí)遷移。

作為評(píng)估,我們把我們的數(shù)據(jù)應(yīng)用到訓(xùn)練時(shí)沒(méi)有接觸的新物體類別中,從實(shí)驗(yàn)結(jié)果上看,網(wǎng)絡(luò)成功的將物體按照運(yùn)動(dòng)性進(jìn)行了分割,這也驗(yàn)證了我們算法的泛化性以及可遷移性。

4.三維深度感知未來(lái)的發(fā)展方向

最后,我們一起討論一下三維深度感知未來(lái)的發(fā)展方向,三維深度學(xué)習(xí)仍然是一個(gè)比較新興的領(lǐng)域,并且有比較多的發(fā)展方向。

首先,不同于具有規(guī)則網(wǎng)格結(jié)構(gòu)的二維圖像,三維圖像通常是嵌入三維空間的二維流形,這種非歐幾里得的特性使得諸如卷積之類的基本計(jì)算操作的定義變得不同,除了今天介紹的方向,這個(gè)領(lǐng)域還有很大的探索空間。

其次,三維深度網(wǎng)絡(luò)所遇到的各種挑戰(zhàn)主要來(lái)自于多種不同的數(shù)據(jù)表現(xiàn)形式,除了之前介紹的顯式的表現(xiàn)形式之外,其他的隱式表達(dá)形式,比如帶符號(hào)的距離函數(shù),也在研究領(lǐng)域引起了廣泛的興趣。

如何利用多樣化的三維數(shù)據(jù)表現(xiàn)形式滿足各種不同任務(wù)的需求,仍然需要大量的研究和分析。

除了對(duì)于三維數(shù)據(jù)的分析,我們還有一個(gè)很重要的任務(wù)就是去合成高質(zhì)量的三維幾何物體的形狀,比如我們要進(jìn)行簡(jiǎn)單的三維重建,或者是對(duì)于簡(jiǎn)單幾何先驗(yàn)的建模,都需要三維的生成模型,而這一方向雖然在二維圖片領(lǐng)域已經(jīng)取得了一定成果,但是針對(duì)三維圖像,仍然有很多的工作要做。

此外,行業(yè)內(nèi)也在關(guān)注從互聯(lián)網(wǎng)AI到嵌入式AI的轉(zhuǎn)變。和針對(duì)在互聯(lián)網(wǎng)上搜集的圖像進(jìn)行學(xué)習(xí)的思路不同,嵌入式AI是通過(guò)和環(huán)境的交互進(jìn)行學(xué)習(xí)。毫無(wú)疑問(wèn),三維感知是這一領(lǐng)域非常重要的一個(gè)問(wèn)題。這需要我們把三維感知和機(jī)器人技術(shù)聯(lián)系起來(lái),其中就包括對(duì)于動(dòng)態(tài)環(huán)境的時(shí)域和空間信息的理解,以及與三維空間的交互。

除此之外,我們也需要關(guān)注機(jī)器人仿真環(huán)境的構(gòu)建,因?yàn)樵诜抡姝h(huán)境的訓(xùn)練是安全廉價(jià)并且公平的,我們能夠?qū)τ诩夹g(shù)的發(fā)展進(jìn)行合理的評(píng)價(jià)。不過(guò)為了在現(xiàn)實(shí)世界部署AI系統(tǒng),解決從虛擬到現(xiàn)實(shí)的預(yù)遷移問(wèn)題也至關(guān)重要,這就需要我們把虛擬環(huán)境的很多細(xì)節(jié)比如紋理,動(dòng)力學(xué)特征等,都和真實(shí)環(huán)境匹配起來(lái)。

希望大家通過(guò)這次講座能夠理解,三維深度感知是一個(gè)新興領(lǐng)域,并且如今在學(xué)術(shù)和工業(yè)領(lǐng)域都在扮演越來(lái)越重要的角色,也希望講座內(nèi)容能夠?qū)τ诟魑坏膶W(xué)習(xí)工作和研究有所幫助和啟發(fā)!

點(diǎn)擊鏈接即可進(jìn)入公開課:

深度三維感知:數(shù)據(jù)、學(xué)習(xí)架構(gòu)與應(yīng)用 - 深藍(lán)學(xué)院 - 專注人工智能的在線教育


深度三維感知:數(shù)據(jù)、學(xué)習(xí)架構(gòu)與應(yīng)用的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阳西县| 新建县| 北碚区| 霍山县| 金山区| 永济市| 玉山县| 商都县| 中西区| 淮北市| 邯郸县| 洪湖市| 兴安盟| 富顺县| 仲巴县| 平安县| 蒙山县| 伊金霍洛旗| 兴仁县| 宜宾市| 衡南县| 新平| 容城县| 广水市| 外汇| 嵊泗县| 册亨县| 万源市| 大余县| 肥东县| 丹寨县| 宁津县| 雷波县| 湖口县| 瓮安县| 淮南市| 临漳县| 根河市| 延津县| 罗田县| 张家界市|