最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

公開課精華 | 3D物體檢測(cè)的發(fā)展與未來

2021-01-25 15:11 作者:深藍(lán)學(xué)院  | 我要投稿

公開課內(nèi)容包括如下幾部分,3D物體檢測(cè)的研究背景,定義及應(yīng)用,學(xué)術(shù)界近期發(fā)展主要方向,未來趨勢(shì)和祁博士本人的研究心得分享。本文總結(jié)于現(xiàn)任Waymo高級(jí)科學(xué)家祁芮中臺(tái)博士在深藍(lán)學(xué)院關(guān)于3D物體檢測(cè)的公開課研究?jī)?nèi)容。祁博士作為PointNet, PointNet++ 等目標(biāo)檢測(cè)知名算法提出者,主要研究方向包括深度學(xué)習(xí),計(jì)算機(jī)視覺和自動(dòng)駕駛等。

-----本文約4000字,預(yù)計(jì)閱讀10分鐘 -----

(建議友友們收藏后,有時(shí)間時(shí)結(jié)合公開課視頻仔細(xì)學(xué)習(xí)喲~)

3D物體檢測(cè)的研究背景

近幾十年隨著互聯(lián)網(wǎng)行業(yè)的高速發(fā)展,我們目睹了在虛擬世界海量信息的高度整合和處理,但這些改變,似乎并沒有建立和“現(xiàn)實(shí)世界”緊密的聯(lián)系。

在Google,F(xiàn)acebook,Amazon這些公司如日中天的這些年,其實(shí),現(xiàn)實(shí)世界也在和人工智能逐漸建立更多的聯(lián)系,從2005年無人車首次完成DARPA挑戰(zhàn)賽,到Kinect等傳感器的發(fā)布,再到諸如KITTI,ShapeNet等數(shù)據(jù)集的出現(xiàn),現(xiàn)實(shí)世界也在和AI建立更多的互動(dòng)。

當(dāng)下,自動(dòng)駕駛也如火如荼的發(fā)展著,盡管如此,AI在物理世界,在機(jī)器人領(lǐng)域的應(yīng)用還有很長(zhǎng)的路要走。當(dāng)下超高市值的巨頭公司主要是在虛擬世界取得巨大成功的企業(yè),那在未來五年,會(huì)不會(huì)有更多的企業(yè)通過在物理世界的AI應(yīng)用,創(chuàng)造更高價(jià)值呢?我們拭目以待。

圖1:自動(dòng)駕駛場(chǎng)景(來源:Waymo)

3D檢測(cè)的介紹

3D檢測(cè)算法的信息輸入有很多種傳感器數(shù)據(jù)來源,包括普通圖像,深度圖像,激光雷達(dá)的點(diǎn)云數(shù)據(jù)等。而處理后的輸出信息也有很多可能性,包括物體的定位,形狀,具體的語義——物體的狀態(tài),物體的類別等。我們通常會(huì)用平均精度(average precison)來評(píng)判檢測(cè)器的好壞。

物體檢測(cè)的應(yīng)用領(lǐng)域也是非常多樣的,比如在自動(dòng)駕駛中,需要檢測(cè)出不同物體的位置和類別;在AR中需要增加對(duì)場(chǎng)景的識(shí)別和理解;為了讓機(jī)器人執(zhí)行物體抓取等任務(wù),我們也需要知道物體的位置,類別等等。

關(guān)于3D目標(biāo)檢測(cè)的算法,最早的方法是基于模板的,包括特征提取,描述,匹配,方向調(diào)整等步驟,但因?yàn)槲覀冃枰獮槟繕?biāo)對(duì)象建立對(duì)應(yīng)的特定模板,然后再匹配,有時(shí)候這種方法無法應(yīng)用在更廣泛的物體種類和場(chǎng)景,同時(shí),一系列繁雜的流程也讓優(yōu)化空間相對(duì)較小。

第二種常見的方法是通過聚類或分割得到可能的物體塊,然后再從特征將它們分類成前景和背景。這是一種自底向上的方法。

另一種流行的方法是通過滑動(dòng)窗口法把檢測(cè)問題轉(zhuǎn)化為分類問題,傳統(tǒng)的分類器通常用“手工特征”和支持向量機(jī)(SVM),這一方法的主要問題在于計(jì)算量太大,因?yàn)閷?duì)于空間每個(gè)位置都要進(jìn)行用分類器分類;因?yàn)槭蔷植糠诸?,這種方法也無法充分利用場(chǎng)景里物體間的關(guān)系。

雖然上述關(guān)于物體檢測(cè)的算法都有比較明顯的問題以及局限性,但是這些方法卻為后人的工作做了很重要的鋪墊,而這一切,也讓我們迎來了物體檢測(cè)的深度學(xué)習(xí)時(shí)代的到來。而這個(gè)時(shí)刻的到來,也有三個(gè)主要的先決條件,第一個(gè)是越來越多的3D數(shù)據(jù)集和傳感器的出現(xiàn),第二個(gè)是針對(duì)2D圖片已經(jīng)有很多的突破性算法,第三個(gè)是基于點(diǎn)云,深度圖像的深度學(xué)習(xí)方法的集體崛起。

深度學(xué)習(xí)下的3D目標(biāo)檢測(cè)

關(guān)于3D物體檢測(cè)在深度學(xué)習(xí)時(shí)代的開始,要提到2016年的一篇論文Deep Sliding shapes for amodal 3D object Detection in RGB-D images,在這篇論文里,作者提出用深度學(xué)習(xí)來產(chǎn)生具體的 object proposal,而不是簡(jiǎn)單的分類,盡量它基于3D CNN的網(wǎng)絡(luò)結(jié)構(gòu)在時(shí)間和空間上都非常的占用資源,但依然不能忽略它的開創(chuàng)性。

而當(dāng)下,關(guān)于3D物體檢測(cè)主要有三種思路,第一,是以2D圖像處理為驅(qū)動(dòng)的算法,第二種是是以降低維度為思路的算法,而當(dāng)下流行的第三種,是以利用3D信息的稀疏性(sparsity)為思路的方法。

圖2:深度學(xué)習(xí)時(shí)代的物體檢測(cè)的三種思路

關(guān)于圖像驅(qū)動(dòng)的3D目標(biāo)檢測(cè),它的核心思路是利用已經(jīng)比較成熟的2D目標(biāo)檢測(cè)器進(jìn)行目標(biāo)識(shí)別,之后可以直接從圖像估計(jì)3D物體位置與姿態(tài),也可以利用圖像重建的三維信息或直接結(jié)合深度圖像進(jìn)行3D檢測(cè)。

在我發(fā)布于CVPR 2018的論文 Frustum PointNets for 3D object detection from RGB-D Data中, 一種將RGB圖像和點(diǎn)云數(shù)據(jù)數(shù)據(jù)結(jié)合進(jìn)行目標(biāo)檢測(cè)的方法被提出,其出發(fā)點(diǎn)就是去充分利用RGB圖像對(duì)應(yīng)的高分辨率以及豐富的紋理特征,并且結(jié)合點(diǎn)云數(shù)據(jù)精準(zhǔn)的3D幾何信息和深度信息。

利用2D信息,我們可以得到二維的物體框,然后,在三維的視錐中,我們采用3D神經(jīng)網(wǎng)絡(luò)去尋找物體,當(dāng)然,這種方法也面對(duì)一定的問題,首先就是前方障礙物的阻礙會(huì)影響物體的識(shí)別,其次,將目標(biāo)與臨近物體進(jìn)行分割也需要技巧。

而在Frustum PointNets中,通過相對(duì)精巧的處理,比如對(duì)實(shí)例進(jìn)行分割時(shí)以點(diǎn)云信息而不是以圖像信息為準(zhǔn),注重對(duì)于點(diǎn)云進(jìn)行合理的坐標(biāo)轉(zhuǎn)換,最后檢測(cè)的效果也有了明顯提高。

在KITTI數(shù)據(jù)中可以觀察到對(duì)應(yīng)的效果:面對(duì)較嚴(yán)重的遮擋,物體大部分時(shí)候還是可以被成功檢測(cè)。盡管當(dāng)場(chǎng)景光線較差,或者多個(gè)物體重疊時(shí),檢測(cè)效果依然有待提高。

圖3:Frustum PointNets試圖解決的挑戰(zhàn)場(chǎng)景

除了通過圖像信息來輔助物體檢測(cè)外,針對(duì)3D數(shù)據(jù),第二種思路是將三維點(diǎn)云信息通過核處理(kernel)或者手工的特征轉(zhuǎn)化為鳥瞰圖,再在網(wǎng)格里進(jìn)行卷積處理等操作。

這種方法的優(yōu)勢(shì)在于計(jì)算速度快,可擴(kuò)展性強(qiáng),可以用在光流的預(yù)測(cè),物體的分割等應(yīng)用中。然而,這種方法的局限性在于,在更復(fù)雜的場(chǎng)景或者面對(duì)地面不平的路況,效果有待提高,并且因?yàn)榻稻S過程中丟失了部分信息,最后的結(jié)果也受到影響。

圖4:利用鳥瞰圖進(jìn)行物體檢測(cè)經(jīng)典框架

最后一種方法是利用三維點(diǎn)云的稀疏性設(shè)計(jì)的3D物體檢測(cè)算法。它的核心想法是直接在點(diǎn)云而不是在網(wǎng)格中進(jìn)行計(jì)算和proposal,我們?cè)噲D結(jié)合稀疏結(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu)和利用稀疏性的proposal方法(而不是anchor-based),比較有代表性的就包括我發(fā)表的PointNet++。

在2D檢測(cè)中經(jīng)常使用RPN(region proposal network)的結(jié)構(gòu),但是它的設(shè)計(jì)是基于二維圖像密集的像素分布 -- RPN會(huì)在二維空間均勻的產(chǎn)生proposal。

但是在三維空間中,傳感器一般只采集到物體表面的深度信息,而物體中心都是未被探測(cè)的,所以3D數(shù)據(jù)是十分稀疏的,直接在這種稀疏數(shù)據(jù)中采用RPN就會(huì)存在大量計(jì)算的浪費(fèi)。

為了避免這種計(jì)算浪費(fèi),我們?cè)噲D直接從物體表面產(chǎn)生proposal,提出了基于voting的思路,從物體表面的點(diǎn)產(chǎn)生通往中心的vote,再通過結(jié)合vote來產(chǎn)生proposal。

其實(shí)這種voting的想法在經(jīng)典算法廣義霍夫變換就被提出,只不過這種方法當(dāng)時(shí)沒有和深度學(xué)習(xí)結(jié)合,也沒有整體優(yōu)化,而我們的方法可以端對(duì)端進(jìn)行整體優(yōu)化并最終也取得了很好的效果。

圖5:3D空間的voting機(jī)制

對(duì)未來目標(biāo)檢測(cè)方向的思考

關(guān)于未來目標(biāo)檢測(cè)的發(fā)展,首先,我們將會(huì)有更豐富的輸入信息,可能包括多相機(jī),多個(gè)激光雷達(dá)等各種多模態(tài)的信息,如何結(jié)合和處理這些信息還有很多的工作,而且在單一傳感器的檢測(cè)效果收斂之后,多模態(tài)就會(huì)作為提高效果的一種重要手段,除此之外,針對(duì)時(shí)間維度的連續(xù)信息,比如視頻等,如何提供一個(gè)相對(duì)平滑的結(jié)果?

還有,我們能否可以從機(jī)器學(xué)習(xí)的角度來看待物體檢測(cè),將自監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、多任務(wù)學(xué)習(xí)等和3D物體檢測(cè)結(jié)合起來。檢測(cè)算法的可遷移性(跨地域、跨傳感器)也是一個(gè)重要課題。在機(jī)器人領(lǐng)域,目標(biāo)檢測(cè)有時(shí)候會(huì)更關(guān)注具體的實(shí)例(instance detection)而不是它對(duì)應(yīng)的廣義類別,這也是當(dāng)下沒有得到重點(diǎn)關(guān)注,卻有很大潛力的課題。最后,針對(duì)一些細(xì)節(jié)問題,比如被大幅度遮擋的物體,或者單目相機(jī)獲取的2D信息,如何從這些信息源獲得更好的3D識(shí)別效果,也還是值得一定探索的。

圖6:物體檢測(cè)在機(jī)器人中的應(yīng)用場(chǎng)景

關(guān)于科研的建議

關(guān)于學(xué)術(shù)研究,最重要的可能就是最開始的選題,如果選題的方向正確合理,那就意味著百分之五十的成功,之后如果選擇的數(shù)據(jù)合適、評(píng)價(jià)標(biāo)準(zhǔn)客觀,那就又成功了百分之二十五。選題的思路可以有很多種,可以依據(jù)當(dāng)前技術(shù)發(fā)展的節(jié)點(diǎn)和對(duì)應(yīng)的挑戰(zhàn),比如我們現(xiàn)在希望將AI應(yīng)用到機(jī)器人身上,那么是不是就需要解決物體檢測(cè)的相關(guān)問題呢?我們可以多思考一些類似的問題,爭(zhēng)取在技術(shù)成熟前進(jìn)入這個(gè)領(lǐng)域,開展課題研究。

橫向比較同樣也是一種思路,比如2D的目標(biāo)檢測(cè)已經(jīng)做得很好了,那是不是3D的情況下也可以借鑒其思路來提高呢?還有就是在工程實(shí)踐中尋找思路,比如去好的公司實(shí)習(xí),我們可以看到公司所面對(duì)的技術(shù)難題,然后這也就是需要突破的課題。而選題失敗或者失誤有時(shí)候也是難免的,比如選的題目太難,無從下手,或者選的題目太廣,感到無的放矢,這時(shí)候,及時(shí)的調(diào)整方向就非常重要。

在選題之后,優(yōu)秀的工程能力也是很重要的,因?yàn)檫@才能保證快速更新迭代,在實(shí)踐的過程中,跟著有經(jīng)驗(yàn)的人學(xué)習(xí)往往是一條捷徑,但我們自身也應(yīng)該去主動(dòng)觀察思考和總結(jié),從細(xì)節(jié)中學(xué)習(xí)并舉一反三。比如在一個(gè)項(xiàng)目完成后,可能就會(huì)有很多延伸的想法,能否去順著這些想法開展接下來的工作呢?這可能就會(huì)帶給你更廣闊的思路。

在學(xué)術(shù)研究的過程中,我們也要記得奧卡姆剃刀的原則,就是最簡(jiǎn)單的方法往往就是最正確的,去追求簡(jiǎn)約而不是復(fù)雜,對(duì)于提出的新方法,不應(yīng)該去追求把它設(shè)計(jì)或者表達(dá)的高深莫測(cè),晦澀難懂,而是應(yīng)該避免過于復(fù)雜的結(jié)構(gòu),用簡(jiǎn)潔的語言把它表達(dá)清楚,對(duì)于簡(jiǎn)單的方法,有時(shí)候即使沒有達(dá)到state of the art的效果,但如果它能在內(nèi)存消耗和速度上展現(xiàn)明顯的優(yōu)勢(shì),那么它也不失為一種好方法。

*感謝深藍(lán)學(xué)員何常鑫同學(xué)的整理,非常感謝祁芮中臺(tái)博士對(duì)本文章的審核與修改。

關(guān)于此次公開課,大家還有疑問么?歡迎在評(píng)論區(qū)交流~

我們會(huì)將大家的疑問挑選后反饋給公開課老師喲~


公開課精華 | 3D物體檢測(cè)的發(fā)展與未來的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
巍山| 彰武县| 错那县| 宣恩县| 郁南县| 灵武市| 龙泉市| 保康县| 呼玛县| 溧水县| 河间市| 阳曲县| 永吉县| 汪清县| 榆树市| 五寨县| 武清区| 高尔夫| 和硕县| 金塔县| 余庆县| 勃利县| 克什克腾旗| 巴彦县| 隆化县| 镇坪县| 南通市| 辽阳市| 通化县| 青海省| 高州市| 湘西| 美姑县| 河北区| 平乐县| 巴楚县| 家居| 宣汉县| 泾川县| 叙永县| 六盘水市|