最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

自動駕駛純視覺3D物體檢測算法

2021-09-24 10:42 作者:深藍學院  | 我要投稿

本文總結于王巖博士在2021年9月11日在深藍學院的公開課。王巖博士就讀于康奈爾大學,提出的基于偽點云的純視覺3D物體檢測算法廣泛應用于工業(yè)界。

本次的講座分為如下幾個部分,第一個是關于用相機做深度估計和背景檢測的背景和動機,第二個是單目和雙目深度估計算法的基礎,第三個是關于深度檢測的優(yōu)化和提升,第四個是關于目前存在的問題。

首先,為什么要做3d物體檢測,因為在自動駕駛場景中,我們通常需要去感知場景中的每一個物體,只有在這個基礎上,我們才能進一步進行物體跟蹤和路徑規(guī)劃,也就是說,物體檢測是自動駕駛感知流程的一個基石。

在自動駕駛場景中,比較常用的感知傳感器是激光雷達,但是,激光雷達所對應的問題之一在于高成本,而相比之下,相機就廉價了很多,因此,我們希望用相機而不是激光雷達去滿足一些感知需求。

另一方面,在雨,霧,霾等天氣條件下,激光雷達所獲取的深度圖將夾帶很大的噪聲,只依賴激光雷達將在很多場景造成不確定性。還有一個問題在于激光雷達點云的稀疏性,也就是近的點相對稠密,而遠的點會很稀疏,這會讓遠距離物體的估計非常困難。面對激光雷達的這些問題,我們關注的是能否通過相機來輔助甚至去取代激光雷達的功能。

我們再來回顧一下如何用激光雷達和相機去檢測3D物體。激光雷達的數(shù)據(jù)可以用點云或者柵格來直接表達物體。而針對圖像,我們還需要從圖像中獲取深度信息才能得到對應的檢測框。然后,一些實驗效果證明,當被檢測的物體在30米以外時,基于圖像3d檢測結果相對于激光雷達相差甚遠。

而這背后的原因又是什么呢?

我們所提出的的第一個猜想就是基于圖像得到的深度信息非常不不準確,因此得到的檢測框信息也很不準確。為了進行驗證,我們把從圖像估計出的深度圖通過轉換與激光雷達的點云進行對比,而觀察結果是,兩者非常接近,因此否定了深度圖估計不準的猜想。

除此之外,我們提出的另一個猜想就是深度圖的“表達方式”問題,因為在物體邊界位置,相鄰的像素可能?個在物體上,?個在背景,因此深度相差很?。在進?2D卷積時,卷積會對相鄰的點進?加權平均,在物體邊界處會把物體拉伸,不能反映真實世界的情況?;谶@個猜想,我們提出了一種偽激光雷達的方案,當我們得到深度圖后,我們將其轉化為點云的表達形式,而實驗結果顯示,檢測效果也因此得到了顯著地提升。此外,我們也對比了單目和雙目的識別效果,而實驗結果證明,雙目的效果要明顯好于單目相機。

圖1:相機和雷達在不同場景難度下的識別精度

然而,偽激光雷達得到的深度還是有一定誤差,如何對于深度估計的效果進行提升呢?

我們先來介紹一下相機的深度估計的原理,針對雙目相機和深度幾何,我們都可以利用對極幾何的基本原理來時實現(xiàn)深度估計,而對于單目相機,我們可以把視頻作為輸入,然后通過structure from motion的方式去實現(xiàn)。

而如何用深度學習的方式來實現(xiàn)對于深度以及不同幀的位姿的估計呢?比較有代表性的思路是使用兩個卷積神經網絡分別實現(xiàn)對于單幀圖像深度的估計以及多幀圖像的位姿估計,基于位姿和深度信息,我們可以預測一幀圖像上一點在下一幀的位置,然后計算這兩個位置像素值的差,稱為photometric損失函數(shù),來訓練?絡。最終這個網絡也將同時輸出深度和位姿信息。這個方案同樣存在一些明顯的問題,比如,它是基于場景物體都是靜止的假設,而這在自動駕駛的場景是基本不成立的。目前有一些工作就在研究估計運動物體的深度信息。

回到我們的主線,圖像信息的深度估計,當我們有雙目相機的圖片時,我們就可以通過圖像特征的視差(disparity)和焦距以及基線等信息實現(xiàn)對于深度的恢復。而如何用深度學習去解決這個問題呢?

接下來介紹一下現(xiàn)在的主流方法,當我們有了深度圖像后,我們可以通過一個2維的卷積去得到它的深度特征,在此基礎上,我們可以建立代價體(cost volumn),并用一個維度來存儲視差,對于這個維度,再通過softmax的處理方式,就可以得到不同視差的概率分布,并選擇最大值或者期望作為最終估計。為了訓練網絡,我們可以從lidar中采取真值進行訓練。然而,視差和深度存在著反比的關系,這會造成對于遠處的物體,微小的視差區(qū)別將造成深度估計的很大變化,因此,一種思路是直接用深度而不是視差參與網絡和代價體的設計,實驗證明,這樣確實可以讓物體檢測的效果顯著提升。

然而,深度圖的估計因為涉及到代價體的建立,通常需要較長的時間估計。通過降低分辨率的思路設計網絡雖然可以提高速度,但是也會降低精度。

對于深度圖,它自身的問題在于圖像近大遠小的特性,使得近處的物體對應的像素點多,因此訓練時的權重也就更大,另外,這也會造成代價體的信息分布不均勻。面對深度圖的諸多問題,一種解決思路是,直接從圖像生成偽3D點云。這樣,我們直接建立基于偽激光雷達的代價體,這時得到的代價體將會有均勻分布的優(yōu)點?;谶@樣的思路設計后,網絡的處理速度得到了很大提升,除此之外,識別精度也得到了提高,并接近激光雷達的識別效果。

圖2:偽點云和四線的激光雷達點云可視化

接下來介紹的工作關于多傳感器融合。激光雷達的價格和線束通常成正比,因此,我們想嘗試使用低線束的激光雷達點云和通過圖像生成的偽點云進行融合。融合的目的是為了把錯誤位置的偽點云進行糾正。去實現(xiàn)這樣的糾正,我們首先對于每個點進行K最近鄰搜索,并計算鄰居點的權重,權重的作用是為了通過最近鄰實現(xiàn)對于點的重構。然后,我們將激光雷達的點加入并投影到圖像上,并和偽點云的點進行匹配。接下來,我們將利用最小二乘的思想調整偽點云的點進行重構。

圖3:利用稀疏點云信息糾正圖像偽點云

關于今天的講座,做一個簡單的總結,今天我主要介紹了我自己關于用相機做三維目標跟蹤的一些工作。首先是使用點云而不是深度圖去代表3D點,然后是把基于視差的模型訓練改為了直接用深度,以及直接預測點云而不是深度圖,最后是關于我們提出的傳感器融合的方法。雖然,這些方法得到的點云和目標檢測的效果性能已經接近激光雷達,但是仍然有一定差距,也需要大家接下來的進一步努力。

感謝深藍學員何常鑫同學的整理,非常感謝王巖博士對本文章的審核與修改。

點擊下方可以觀看直播

https://www.shenlanxueyuan.com/open/course/112

自動駕駛純視覺3D物體檢測算法的評論 (共 條)

分享到微博請遵守國家法律
承德市| 珠海市| 名山县| 翁源县| 荣昌县| 防城港市| 景洪市| 江川县| 开远市| 阳东县| 宁陵县| 广丰县| 黄山市| 阿巴嘎旗| 鸡西市| 忻州市| 五河县| 游戏| 满城县| 泊头市| 辽阳市| 根河市| 锦州市| 林西县| 大名县| 都安| 龙门县| 浦东新区| 陇西县| 安庆市| 云南省| 九台市| 台安县| 米泉市| 岱山县| 册亨县| 安平县| 伊宁县| 梁河县| 唐山市| 古丈县|