最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

NeurlPS'23開源 | 動態(tài)場景下的自監(jiān)督單目深度估計

2023-11-21 20:30 作者:3D視覺工坊  | 我要投稿

作者:泡椒味的口香糖 | 來源:計算機視覺工坊

在公眾號「計算機視覺工坊」后臺,回復「原論文」可獲取論文pdf、官方主頁、代碼鏈接

添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細分群

0. 筆者個人體會

自監(jiān)督單目深度估計的訓練可以在大量無標簽視頻序列來進行,訓練集獲取很方便。但問題是,實際采集的視頻序列往往會有很多動態(tài)物體,而自監(jiān)督訓練本身就是基于靜態(tài)環(huán)境假設,動態(tài)環(huán)境下會失效。

之前學習過TPAMI 2023的工作SC-Depth V3,也是動態(tài)場景下的自監(jiān)督單目深度估計方案。最近在NeurlPS 2023中又看到了類似動態(tài)環(huán)境深度估計的工作Dynamo-Depth,就想對比學習一下。

1. 效果展示

先看看這項工作的效果,對比方案是CVPR 2023的工作Lite-Mono,顯然Dynamo-Depth的動態(tài)物體深度估計結果更準確。當然Lite-Mono本身不是針對動態(tài)場景的,而是結合CNN和Transformer實現(xiàn)嵌入式部署,作者這樣對比主要是驗證他們的Motivation。這里也推薦工坊推出的新課程《單目深度估計方法:算法梳理與代碼實現(xiàn)》。


2. 摘要

無監(jiān)督單目深度估計技術已經展示了令人鼓舞的結果,但通常假設場景是靜態(tài)的。當在動態(tài)場景中訓練時,這些技術受到影響,在動態(tài)場景中,明顯的物體運動可以通過假設物體的獨立運動或改變其深度來解釋。這種模糊性導致深度估計器對移動物體預測錯誤的深度。為了解決這個問題,我們引入了Dynamo-Depth,這是一種通過聯(lián)合學習單目深度、3D獨立光流場和來自未標記單目視頻的運動分割來消除動態(tài)運動歧義的統(tǒng)一方法。具體而言,我們提供了我們的關鍵見解,即良好的運動分割初始估計足以用于聯(lián)合學習深度和獨立運動,盡管存在基本的潛在模糊性。我們提出的方法在Waymo Open和nuScenes數(shù)據集上實現(xiàn)了最先進的單目深度估計性能,顯著改善了移動對象的深度。

3. 算法解析

先重述一下傳統(tǒng)的自監(jiān)督單目深度估計的原理:

網絡包括DepthNet和PoseNet兩部分,輸入是單目視頻序列中的前后兩幀(也可以跳幀訓練)。首先給第一幀圖像估計深度圖,同時估計兩幀圖像中的位姿,之后利用深度圖和位姿重建第一幀圖像,去計算重建圖像和真實圖像之間的光度損失。

注意,這個框架假設場景是完全靜態(tài)的,動態(tài)物體的擾動會極大影響損失函數(shù)的計算。

當然這只是最基本的框架,還有很多優(yōu)化策略,比如引入各種各樣的損失函數(shù)。它也有很多問題,比如尺度不確定、幀間不連續(xù)。本文主要討論動態(tài)場景,就不贅述這些問題了。

室外單目深度估計最主要的應用場景是哪里?

那肯定是自動駕駛了,而且這個場景的大多數(shù)情況是:自車在路上行駛,其他動態(tài)車輛共線行駛。

這個場景的深度估計有什么難點嗎?

想象一個場景,我們開車的時候會感覺車輛附近的物體速度很快,但是遠處的物體速度很慢(從數(shù)學上講叫極線歧義)。也就是說,如果某個車輛與自車同向行駛,因為幾乎相對靜止,所以網絡會認為車輛離自己非常遠。同理,某個車輛與自車對向行駛,網絡會認為車輛離自己非常近。

那么問題來了:錯誤的深度估計促成了正確的光流(位姿)估計!

直接添加正則化可行嗎?

學習這種運動規(guī)律比學習靜態(tài)背景的深度要困難得多。

那Dynamo-Depth這篇文章是怎么做的呢?

核心思想是,僅建模相機運動引起的剛性流的話,不能完整描述動態(tài)對象。因此要再學習一個獨立的三維光流場(場景流?),捕捉動態(tài)對象的運動。

具體的Pipeline包括兩部分,上半部分是依據靜態(tài)假設,借助target幀的深度和位姿估計靜態(tài)3D光流場,下半部分是借助獨立光流估計和運動mask估計動態(tài)3D光流場。兩個光流場疊加再去恢復target圖像并做損失。

為啥不直接預測動態(tài)物體的3D光流場呢?

有兩個原因:

1、在訓練過程中,當輸入幀中的目標運動是相機和獨立運動的疊加時,直接預測目標的獨立運動非常困難;

2、獨立剛體運動FI更傾向稀疏化,也就是傾向沒有動態(tài)物體。在訓練初期,當深度和位姿的預測有噪音時,會出現(xiàn)一個高稀疏項導致網絡直接收斂。

4. 實驗結果

數(shù)據集使用的Waymo Open、nuScenes還有KITTI Eigen split,訓練使用了4塊NVIDIA 2080 Ti,batch size為12,初始學習率5e-5(深度估計的bs和lr都很?。?。平均指標就用的普通的Abs Rel、Sq Rel、RMSE、RMSE log還有三個準確率。

深度估計的精度定量對比,K表示KITTI,N表示nuScenes,W表示Waymo Open。nuScene和Waymo Open的Abs Rel分別降低了57%和21%,性能提升明顯。KITTI上的效果不太好,作者認為這是因為KITTI上的動態(tài)目標太少。

動態(tài)和靜態(tài)區(qū)域深度估計性能對比,分割nuScene、Waymo Open為靜態(tài)背景和動態(tài)對象,并評估每個區(qū)域上的深度估計性能。Waymo Open效果最明顯,精度提高了48.2%,誤差減少了67.6%。

深度和光流估計的定性對比,可以發(fā)現(xiàn)他們這種方法解決了極線歧義問題。也就是說,不會用錯誤的深度值去預測正確的光流場。這里也推薦工坊推出的新課程《單目深度估計方法:算法梳理與代碼實現(xiàn)》。

Waymo Open上的曲線對比,也算是消融實驗,使用精確度和召回率評估聯(lián)合學習的二進制運動掩碼網絡的質量。隨著召回率的增加,Dynamo-Depth也有很高的精確度,在Waymo Open上達到了71.8%的F1得分。

5. 總結

Dynamo-Depth這項工作面向自動駕駛場景中的車輛共線運動,感覺還像是特殊場景的應用,主要原理是聯(lián)合學習深度、位姿、3D獨立運動和運動分割。在Waymo Open和nuScenes數(shù)據集效果比較好,但感覺應用場景很局限。從動態(tài)物體的處理上,還是SC-DepthV3要更勝一籌。


NeurlPS'23開源 | 動態(tài)場景下的自監(jiān)督單目深度估計的評論 (共 條)

分享到微博請遵守國家法律
工布江达县| 仲巴县| 定远县| 通辽市| 海南省| 阳山县| 汾阳市| 八宿县| 镇康县| 柳州市| 汉寿县| 宜阳县| 资溪县| 辽阳县| 尚志市| 循化| 盖州市| 张家界市| 台北市| 鹤山市| 宁安市| 嵊州市| 惠水县| 双鸭山市| 江华| 乌拉特后旗| 甘德县| 荥阳市| 安化县| 中卫市| 呈贡县| 互助| 崇明县| 乐昌市| 宜春市| SHOW| 特克斯县| 紫阳县| 叶城县| 宿松县| 静宁县|