最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

公開課精華 | 基于事件相機(jī)的SLAM/VO

2020-12-11 11:57 作者:深藍(lán)學(xué)院  | 我要投稿

本次公開課總結(jié)于香港科技大學(xué)Postdoc Research Fellow,澳大利亞國立大學(xué)的周易博士在深藍(lán)學(xué)院的關(guān)于“Towards Event-based SLAM”的公開課演講內(nèi)容。Event-based表示的是一種基于事件相機(jī)的方法,相比于傳統(tǒng)RGB相機(jī),事件相機(jī)擁有其很多獨(dú)特的優(yōu)良特性。

公開課視頻鏈接見底部,全文約4000字

  1. Introduction to Event-based Cameras.關(guān)于事件相機(jī)的簡要介紹,包括其特性和工作原理等。

  2. Event-based SLAM/VO.回顧一下基于事件相機(jī)的SLAM/VO現(xiàn)在的發(fā)展?fàn)顩r。

  3. ?ESVO System.介紹作者團(tuán)隊最近的開源項(xiàng)目。

  4. Conclusion.最后做一個總結(jié)。

1、Introduction to Event-based Cameras.

首先解決為什么需要事件相機(jī)這個問題。傳統(tǒng)的相機(jī)(就是現(xiàn)在最常見RGB相機(jī),如手機(jī)上的相機(jī))我們稱之為Standard Cameras,早期的圖像處理(其實(shí)現(xiàn)在更多也是)都是基于傳統(tǒng)相機(jī)來做的,然而傳統(tǒng)相機(jī)在應(yīng)用中有兩個很明顯的問題。

一個是運(yùn)動模糊,當(dāng)場景中的運(yùn)動速度超過相機(jī)的采樣速率之后,就會產(chǎn)生運(yùn)動模糊,如下圖左圖所示,雖然可以通過算法彌補(bǔ)運(yùn)動模糊,但是計算開銷很大,不滿足實(shí)時需求。

另一個問題是由于光線的問題造成曝光不足或者過曝的動態(tài)范圍問題,強(qiáng)烈的陽光可能會使傳統(tǒng)相機(jī)無法看清視野物體,如下圖中圖所示。比如在無人機(jī)災(zāi)后救援中,基于傳統(tǒng)相機(jī)的無人機(jī),就會受到運(yùn)動模糊和動態(tài)范圍不足的干擾,如下圖右圖所示。而事件相機(jī)就沒有上述的問題。

事件相機(jī)從傳感器層面解決上述問題。同傳統(tǒng)相機(jī)不同,事件相機(jī)只觀測場景中的“運(yùn)動”,確切地說是觀察場景中的“亮度的變化”。?

它的理論時間分辨率高達(dá)一百萬hz,因此產(chǎn)生的延遲非常低,低于常見場景中的絕大多數(shù)的運(yùn)動速率,因此就不會出現(xiàn)運(yùn)動模糊問題。除此之外,事件相機(jī)的每個像素點(diǎn)是獨(dú)立異步工作的,所以動態(tài)范圍很大。事件相機(jī)還有能耗低的優(yōu)勢。?

總結(jié)就是,傳統(tǒng)相機(jī)以固定的幀率對場景進(jìn)行全幀拍攝,所有像素同步工作。事件相機(jī)是每個像素獨(dú)立異步工作,采樣率高達(dá)一百萬hz,且僅對亮度變化(event)進(jìn)行輸出,一個事件(event,亮度變化)包括發(fā)生的時刻、發(fā)生的像素坐標(biāo)和事件發(fā)生的極性。?

所謂事件發(fā)生的極性表示的是亮度相比于前一次采樣是增加還是減少,如下圖所示,紅點(diǎn)表示為正極性,藍(lán)色表示為負(fù)極性。

可以說,傳統(tǒng)相機(jī)獲取的是場景的靜態(tài)畫面,而事件相機(jī)捕捉的是場景中的運(yùn)動畫面,可想而知,如果場景中沒有運(yùn)動物體,那么事件相機(jī)就什么都看不到了。

如下圖,在運(yùn)動過程中,傳統(tǒng)相機(jī)和事件相機(jī)獲取的畫面的不同。

事件相機(jī)由于其獨(dú)特的優(yōu)良特性,有著非常多的應(yīng)用。如物聯(lián)網(wǎng)中低功耗的在線監(jiān)測和監(jiān)控設(shè)備,自動駕駛中低延遲和高動態(tài)范圍需求,VR/AR中的低延遲需求,以及工業(yè)自動化中的基于事件相機(jī)的快速拾取和放置。下圖是5個事件相機(jī)的供應(yīng)商,價格都比較貴。

2、Event-based SLAM/VO.

這一部分,作者將帶大家簡單過一下近年來基于事件相機(jī)的SLAM/VO的主要工作。?

基于傳統(tǒng)相機(jī)的VO問題是解決mapping和tracking兩個子問題,工程實(shí)踐中兩個子問題一般放在獨(dú)立線程處理,一般mapping相比于tracking要占用較多的運(yùn)算資源,因?yàn)閙apping要處理大量的3D點(diǎn)深度估計問題。而基于事件相機(jī)的SLAM/VO也是要處理這兩個子問題。?

首先基于事件相機(jī)的mapping,深度估計問題。這方面的工作可以分為兩類。?

一類是Instantaneous Stereo(瞬時雙目深度估計)。這類方法都是使用一對標(biāo)定好的雙目事件相機(jī),包括外參數(shù)標(biāo)定和時鐘同步。?

瞬時雙目深度估計,顧名思義就是進(jìn)行一瞬間的深度估計,一瞬間可以短到逐個event的量級,比如對于左目相機(jī)的一個event,在右目相機(jī)中都要找到對應(yīng)的匹配event,然后便可以通過視差來感知深度距離,我們聚焦于如何找到匹配event。

?尋找匹配事件的通常方法如通過判斷發(fā)生時間是否接近、通過幾何上的關(guān)聯(lián)、通過時空鄰域來進(jìn)行關(guān)聯(lián)。讀者想了解這方面的工作可以閱讀“neuromorphic event-based generalized time-based stereo vision”這篇論文。?

作者認(rèn)為此類方法在相機(jī)靜止的時候,環(huán)境中出現(xiàn)運(yùn)動的物體,可以得到不錯的結(jié)果,但是當(dāng)相機(jī)開始運(yùn)動,會產(chǎn)生更多的事件,屆時就會遇到計算量瓶頸問題,因此基于逐個event匹配的方法不適合SLAM。

第二類工作是Temporal Stereo,其多見于單目深度估計領(lǐng)域,且已知相機(jī)運(yùn)動的前提下,在一個較長的時間窗口進(jìn)行事件信息的融合,沒有直接使用逐個event匹配,而是采用multi-view的方法。作者推薦了兩個相關(guān)的論文工作。

第一個是emvs: event-based multi-view stereo,其認(rèn)為同一個3D點(diǎn)的觀測向量會匯聚到3維空間的一點(diǎn),因此對每一個event對應(yīng)的射線,投回3維空間,實(shí)現(xiàn)建圖。

第二個工作是A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation,其引入對比度Contrast 的概念,作為誤差項(xiàng),支持連續(xù)的優(yōu)化。?

接下來講述基于事件相機(jī)的tracking,運(yùn)動估計問題。作者從運(yùn)動復(fù)雜度從低到高進(jìn)行回顧,如下圖的Planar Motion、3D Rotation、6-DoF Motion。

首先Planar Motion,解決的是地面移動平臺的運(yùn)動估計問題,一共有3個自由度,兩個平移自由度加一個旋轉(zhuǎn)。?

參考論文是“simultaneous localization and mapping for event-based vision systems”,它是觀測天花板上的2D結(jié)構(gòu)圖案來進(jìn)行定位。更為復(fù)雜的是3D Rotation,即3個自由度的旋轉(zhuǎn)問題。?

參考論文是"imultaneous mosaicing and tracking with an event camera”和”accurate angular velocity estimation with an event camera”。最復(fù)雜的是6自由度的運(yùn)動估計,主要應(yīng)用在AR/VR這種小尺度的環(huán)境,參考論文是"vent-based 6-dof camera tracking from photometric depth maps”和”event-based direct camera tracking from a photometric 3d map using nonlinear optimization”。?

從環(huán)境角度來看,最早的是在環(huán)境中布置一些幾何結(jié)構(gòu)已知的圖案,用于運(yùn)動估計,對于傳統(tǒng)相機(jī)難度較大,因?yàn)檫\(yùn)動模糊很嚴(yán)重。更為復(fù)雜的是沒有已知圖案的現(xiàn)實(shí)環(huán)境。如上圖的6自由度運(yùn)動估計問題。?

目前來看,基于事件相機(jī)的SLAM的全系統(tǒng)工作幾乎是寥寥無幾,原因是在16年之前基于單目事件相機(jī)的深度估計問題沒有很好解決。因此早期工作都是使用其它傳感器來解決深度估計問題,有的是使用傳統(tǒng)相機(jī),有的是深度相機(jī)。?

從工程實(shí)現(xiàn)角度,這些解決方法都是可以的,但是由于引入了傳統(tǒng)相機(jī),整個系統(tǒng)的動態(tài)范圍就降低了,需要解決跨模態(tài)的標(biāo)注和同步等問題。

如果系統(tǒng)中僅使用單目事件相機(jī)進(jìn)行slam系統(tǒng)構(gòu)建,作者介紹了以下兩個工作。

第一個工作是“real-time 3d reconstruction and 6-dof tracking with an event camera”。這篇工作包含了3個模塊,分別是Tracks global 6-DoF camera motion、Estimates the log intensity gradients in a keyframe image、Estimate the inverse depths of a keyframe。?

首先是第一個模塊,Tracks global 6-DoF camera motion,如下圖。采用的是擴(kuò)展卡爾曼濾波EKF。在預(yù)測階段使用constant position motion model。觀測模型計算了同一個像素在對數(shù)域上的亮度變化。更新部分就是正常的EKF的更新。

第二個模塊,Estimates the log intensity gradients in a keyframe image,如下圖。依舊是關(guān)注觀測模型,兩個時域上相鄰的坐標(biāo)一致的event,投射到關(guān)鍵幀,進(jìn)行計算梯度,并且做了恢復(fù)對數(shù)域上的超分辨的亮度圖。

第三個模塊,Estimate the inverse depths of a keyframe,如下圖。這里的做法和LSD-SLAM基本一致,不同的是這里是關(guān)注的是亮度變化并且是在對數(shù)域上衡量的。?

最后再加一個regularization操作,目的是讓深度圖更加平滑,達(dá)到降噪的效果。

第二個工作是“EVO: A Geometric Approach to Event-Based 6-DOF Parallel Tracking and Mapping in Real Time”。該工作分為tracking和mapping兩個子問題。?

首先是tracking運(yùn)動估計問題,如下圖。方法是 image-to-model alignment。即通過當(dāng)前獲得的圖像,與所對應(yīng)的3D model進(jìn)行對齊配準(zhǔn),得到運(yùn)動參數(shù)。?

將短時間的事件累積得到2D的累積圖。再從Mapping得到的相鄰關(guān)鍵幀對應(yīng)的local map中,選取具有逆深度的地圖點(diǎn),假設(shè)當(dāng)前相機(jī)位置將這個local map投影到當(dāng)前圖像平面,再利用LK方法進(jìn)行對齊。

然后是mapping問題,如下圖。這個方法是基于前面提到的emvs方法,將3D空間進(jìn)行體素化,將event射線投射到空間中,統(tǒng)計射線的intersection的密集程度,做了voting得到深度值。

如何在SLAM中充分利用event相機(jī)的優(yōu)勢呢?如果將event相機(jī)復(fù)原的圖像作為輸入,需要大量的計算資源,所以學(xué)術(shù)屆更希望找到直接作用在event相機(jī)數(shù)據(jù)上的work的方法。?

相機(jī)在3維空間中運(yùn)動,對場景進(jìn)行拍攝,需要我們反解出相機(jī)的運(yùn)動和場景的幾何信息,解SLAM問題就是對上述問題的建模,解出來狀態(tài)量和觀測量以及觀測量之間的數(shù)據(jù)關(guān)聯(lián)問題。?

在傳統(tǒng)相機(jī)的數(shù)據(jù)關(guān)聯(lián)領(lǐng)域,有如顯式的feature correspondence,或者隱式的photometric consistency、geometric distance。在基于事件相機(jī)的數(shù)據(jù)關(guān)聯(lián)領(lǐng)域,如之前的“real-time 3d reconstruction and 6-dof tracking with an event camera”的數(shù)據(jù)關(guān)聯(lián)都是基于對數(shù)域上的常亮度假設(shè)和線性梯度假設(shè)。?

事件相機(jī)整體的方法框架和傳統(tǒng)相機(jī)領(lǐng)域基本一致,即數(shù)據(jù)關(guān)聯(lián)、觀測模型、計算殘差、解決問題。?

綜上,作者提出設(shè)計事件相機(jī)SLAM需要考慮的三個問題。?

1)如何設(shè)計直接基于事件相機(jī)數(shù)據(jù)的方法,并滿足計算量不高的要求。?

2)如何找到某種information,用于建立事件的數(shù)據(jù)關(guān)聯(lián)。?

3)該用單目事件相機(jī)還是雙目事件相機(jī)。?

接下來介紹作者團(tuán)隊的ESVO工作,并回答上述問題。

3、ESVO System.

ESVO系統(tǒng),即Event-based Stereo Visual Odometry系統(tǒng)。系統(tǒng)分為三個模塊,如下圖,Event Processing模塊是前端雙目事件數(shù)據(jù)處理模塊,然后就是mapping和tracking模塊。

首先Event Processing模塊。如下圖是一個事件相機(jī)從上往下觀測運(yùn)動點(diǎn)的場景。得到的數(shù)據(jù)張成了平面加時間維度的三維空間,根據(jù)“HOTS: a hierarchy of event-based time-surfaces for pattern recognition”中的方法,使用time-surface map映射到一個二維的圖像上,來表征三維空間事件數(shù)據(jù)。?

如果想套用基于photometric consistency這類方法的數(shù)據(jù)關(guān)聯(lián),則需要在不同視角進(jìn)行觀測,基于亮度不變假設(shè)進(jìn)行數(shù)據(jù)關(guān)聯(lián)。然而事件相機(jī)的觀測不僅于視角有關(guān),還和事件相機(jī)本身的運(yùn)動有關(guān),在單目事件相機(jī)中很難進(jìn)行time-surface map的數(shù)據(jù)關(guān)聯(lián),因此作者認(rèn)為單目事件相機(jī)不適合做基于事件數(shù)據(jù)的SLAM,作者因此嘗試了雙目事件相機(jī)的配置,效果不錯。

基于雙目事件相機(jī)得到的雙目事件數(shù)據(jù),理論上時間戳是相同的,像素坐標(biāo)是通過可以彼此固連的剛體參數(shù)進(jìn)行約束的,但是在實(shí)際中,由于會有傳感器抖動現(xiàn)象,因此僅考慮逐個event匹配不是一個好的策略,還需要考慮空間上的鄰域信息。?

如下圖所示,一個像素點(diǎn)在左右兩個time-surface map圖上對應(yīng)的patch的差異是最小的,這個假設(shè)作者稱之為Spatial-Temporal Consistency,這就是ESVO系統(tǒng)中采用的數(shù)據(jù)關(guān)聯(lián)的方法。

然后是mapping模塊。基于上述Spatial-Temporal Consistency的假設(shè),作者將深度估計問題設(shè)計成一個逆深度的優(yōu)化問題,最優(yōu)的深度對應(yīng)著最低的Spatial-Temporal inconsistency,優(yōu)化問題的初值采用ZNCC-block matching方法得到。

由于逆深度估計的結(jié)果通常是稀疏的,同時為了降低深度圖估計的不確定性,作者團(tuán)隊設(shè)計了深度圖的特征融合方法,如下圖所示。將過去時間的深度圖估計傳播到當(dāng)前時刻,進(jìn)行融合操作。

最后是tracking模塊。由于time-surface map包括了邊緣運(yùn)動的歷史信息,map上值較大的像素對應(yīng)的最近產(chǎn)生的event,即最近產(chǎn)生的邊緣位置。?

作者從其之前的Canny-vo工作得到啟發(fā),提出了一個time-surface negative,將event-based tracking設(shè)計成minimization問題。問題建模如下圖所示,目標(biāo)函數(shù)是估計最優(yōu)的相機(jī)pose,將reference frame的3D信息和time-surface map對齊。?

能量函數(shù)在每個自由度的表現(xiàn)如下圖右上角所示,可以發(fā)現(xiàn)最小值和真值基本都是重疊的。

ESVO項(xiàng)目的主頁、論文和code鏈接如下圖所示。

4、Conclusion.

最后做一個簡短的總結(jié)。事件傳感器有著高動態(tài)范圍、高采樣率、低延時、低功耗的優(yōu)點(diǎn),同時也有一些諸如空間分辨率低、信噪比低、價格昂貴等缺點(diǎn)。?

基于事件相機(jī)的SLAM的challenge,首先需要更多的相關(guān)高質(zhì)量數(shù)據(jù)集,其次需要和其它傳感器協(xié)同工作。?

從一般的研究角度來看,我們需要全新的硬件來適應(yīng)事件相機(jī)工作特性,同時基于事件相機(jī)的其它問題,如識別、行為理解等也需要去解決,當(dāng)然以及如何更好采用深度學(xué)習(xí)的方法去處理事件數(shù)據(jù)。

公開課視頻:https://www.shenlanxueyuan.com/open/course/89

公開課精華 | 基于事件相機(jī)的SLAM/VO的評論 (共 條)

分享到微博請遵守國家法律
正定县| 建瓯市| 永吉县| 华坪县| 灵丘县| 马龙县| 房山区| 东源县| 新宾| 荥经县| 金坛市| 九寨沟县| 大关县| 瓮安县| 尼木县| 苍梧县| 吉首市| 雷州市| 福建省| 巨野县| 青阳县| 安远县| 汝州市| 长治县| 平陆县| 祁连县| 赤壁市| 浑源县| 绥棱县| 绥中县| 彭山县| 宜都市| 稷山县| 葫芦岛市| 上杭县| 永安市| 汶川县| 青川县| 灌阳县| 长寿区| 黔南|