2022最新 | 室外單目深度估計(jì)研究綜述
原文鏈接:https://mp.weixin.qq.com/s/Gryx3NGEtD-lzWhTczRnKA
論文標(biāo)題:Outdoor Monocular Depth Estimation: A Research Review
論文鏈接:https://arxiv.org/pdf/2205.01399.pdf
1摘要
深度估計(jì)在自動駕駛中有諸多應(yīng)用方式。結(jié)合目標(biāo)檢測,可以達(dá)到偽激光檢測或者三維重建的效果;結(jié)合語義分割,可以將其從2D擴(kuò)展到3D,獲取像素的語義和深度信息,如車道線檢測;此外,深度估計(jì)還可以用來做通用障礙物檢測。因此深度估計(jì)是自動駕駛中一項(xiàng)重要的視覺任務(wù),本文對單目深度估計(jì)做了全面調(diào)研,包括數(shù)據(jù)集、技術(shù)發(fā)展歷史、未來趨勢和挑戰(zhàn)等。

2數(shù)據(jù)集
本文將深度估計(jì)數(shù)據(jù)集分為以下幾類:通用室外數(shù)據(jù)集、全景數(shù)據(jù)集和生成式方法。
通用數(shù)據(jù)集
數(shù)據(jù)的收集通常使用移動的車輛或短距離(小于 100 米)焦距有限的建筑物和場景的圖片來完成。此類深度估計(jì)數(shù)據(jù)集包括 KITTI 數(shù)據(jù)集[1]、Make3D數(shù)據(jù)集[2]、Newer College數(shù)據(jù)集[3]、Megadepth數(shù)據(jù)集[4]、DIODE[5]和DrivingStereo數(shù)據(jù)集 [6]。
KITTI
最為常見的便是KITTI數(shù)據(jù)集。用于室外單目深度估計(jì)的主要有兩個部分,一部分包含23488對訓(xùn)練圖像和697張測試圖像,另一部分包含42949對訓(xùn)練圖像、1000張驗(yàn)證圖像和500張測試圖像。

Make3D
Make3D數(shù)據(jù)集的圖像主要由白天的城市或自然場景組成。該數(shù)據(jù)集共包含53對RGBD圖像,其中40對用于訓(xùn)練,13對用于測試。原生RGB圖像分辨率為2272 x 170,深度圖分辨率為55 x 305像素。

全景數(shù)據(jù)集
這些數(shù)據(jù)集是使用全景相機(jī)收集的,旨在供大焦距輸入設(shè)備和3D相機(jī)使用。目前室外全景數(shù)據(jù)集的數(shù)量仍然較少,導(dǎo)致缺乏對其深度估計(jì)的研究。比較常見的數(shù)據(jù)集包括Multi-FoV(城市峽谷)數(shù)據(jù)集[7]、ETH3D[8]和Forest Virtual[9]。

生成式方法
根據(jù)特定研究工作所關(guān)注的應(yīng)用領(lǐng)域生成,特定數(shù)據(jù)集的可用性可能受限。生成式方法主要指基于公開數(shù)據(jù)集(如KITTI)進(jìn)行調(diào)整,以生成具有遠(yuǎn)距離和360全景場景的新數(shù)據(jù)集。
FarSight
FarSight[10]提出了一種生成超遠(yuǎn)距離戶外圖像以及帶注釋的深度圖的策略?;谠摬呗訤arSight使用來自Google地球的圖像以適當(dāng)?shù)谋壤匦聞?chuàng)建不同城市的大型3D模型。獲取的3D模型和相關(guān)RGB視圖及其遠(yuǎn)程深度渲染的存檔用作深度預(yù)測的訓(xùn)練數(shù)據(jù)。

KITTI to panoramic dataset adaption
該數(shù)據(jù)集[11]使用KITTI數(shù)據(jù)結(jié)合360度FOV相機(jī)通過兩個步驟轉(zhuǎn)換得到。第一步是通過基于學(xué)習(xí)的方法[12]將360度圖像的風(fēng)格轉(zhuǎn)移到目標(biāo)數(shù)據(jù)集中的圖像。第二步涉及將生成的圖像與相關(guān)注釋一起重新投影為所需的格式。

3深度學(xué)習(xí)方法
卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)使用卷積層、池化層等學(xué)習(xí)輸入圖像的2D空間特征,也成功應(yīng)用到深度估計(jì)任務(wù)中。目前比較經(jīng)典的室外深度估計(jì)方法主要在KITTI上展開實(shí)驗(yàn),例如Convolutional Neural Fields[13]、AdaBins[14]、FarSight[10]等等。下圖展示了CNN預(yù)測深度圖的算法框架。

循環(huán)神經(jīng)網(wǎng)絡(luò)
下圖概述了基于RNN的深度預(yù)測模型涉及的一般模塊,代表性的算法有[15]其使用卷積LSTM來利用數(shù)據(jù)集中的時空一致性,[16]比較了ConvLSTM[17]和ConvGRU[18]的注意力機(jī)制。

分割模型應(yīng)用于單目深度估計(jì)
單目深度估計(jì)和語義分割任務(wù)都是逐像素級別的任務(wù),區(qū)別在于單目深度估計(jì)是回歸任務(wù)而語義分割任務(wù)是分類任務(wù)。因此有許多工作將兩者結(jié)合起來,除一般的分割模型以外,一些工作如[19]和[20]基于知識蒸餾的思想實(shí)現(xiàn)單目深度估計(jì),[21]的工作使用一種新穎的基于分割的學(xué)習(xí)網(wǎng)絡(luò)來估計(jì)單目360度視頻的深度。此外,全景分割[22]的進(jìn)步具有在該領(lǐng)域產(chǎn)生影響的巨大潛力,[23]和[24]使用全景分割對優(yōu)化單目深度估計(jì)。下圖展示了[22]使用全景分割輔助深度估計(jì)的模型架構(gòu)。

4訓(xùn)練范式
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)旨在利用標(biāo)注真值訓(xùn)練單目深度網(wǎng)絡(luò),利用深度相關(guān)的損失函數(shù)[25]優(yōu)化網(wǎng)絡(luò),使得模型預(yù)測的深度值盡可能接近標(biāo)注真值。下圖展示了使用深度圖作為真值進(jìn)行監(jiān)督學(xué)習(xí)的通用框架。

無監(jiān)督學(xué)習(xí)
逐像素標(biāo)注需要大量的人力資源,因此無監(jiān)督單目深度估計(jì)也獲得了廣泛的關(guān)注。一般而言,無監(jiān)督單目深度估計(jì)通常使用成對的立體圖像或單目圖像序列中進(jìn)行訓(xùn)練,并在單目圖像中進(jìn)行測試。立體匹配的經(jīng)典算法是[26],其使用傳統(tǒng)的信念傳播的方法實(shí)現(xiàn)深度估計(jì)系統(tǒng)。[27]提出了一種基于CNN的架構(gòu),其中模型學(xué)習(xí)左右視圖的深度圖 MonoDepth[28]采用2D CNN架構(gòu),使用無監(jiān)督學(xué)習(xí)方法以及視差平滑損失、外觀匹配損失和左右視差一致性損失的組合,在 KITTI 數(shù)據(jù)集上對當(dāng)時的SOTA模型進(jìn)行了顯著改進(jìn)。下圖展示了基于立體匹配實(shí)現(xiàn)單目深度估計(jì)的算法架構(gòu)。

另一種方法是使用單目圖像序列。由于單目深度估計(jì)的數(shù)據(jù)集具有更高的可用性且更容易收集,因此該類方法也獲得了廣泛的關(guān)注,并且使用單目圖像序列還避免了涉及與投影和左右源映射相關(guān)的立體匹配所帶來的問題。[29]和[30]的后續(xù)相關(guān)工作提出了在非結(jié)構(gòu)化單目視頻序列以及 SLAM 和光流等其他元素上訓(xùn)練無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的方法。下圖展示了這種方法的通用架構(gòu)。

半監(jiān)督學(xué)習(xí)
回到監(jiān)督學(xué)習(xí)需要大量標(biāo)注數(shù)據(jù)的問題上,半監(jiān)督學(xué)習(xí)可以充分的利用大量無標(biāo)注數(shù)據(jù)和少量標(biāo)注數(shù)據(jù)訓(xùn)練更好的模型。這些方法可以使用來自合成數(shù)據(jù)、激光雷達(dá)和表面法線等來源的其他傳感器和深度信息,以減少模型對標(biāo)注數(shù)據(jù)的需求,同時提高網(wǎng)絡(luò)的泛化性和深度圖的準(zhǔn)確性。[31]引入了一個可學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)以立體對齊的幾何約束方式處理稀疏數(shù)據(jù)和RGB數(shù)據(jù)。然后,該模型從這些輸入源生成兩個深度圖,分別計(jì)算其損失,實(shí)驗(yàn)表明該模型優(yōu)于有監(jiān)督的模型。[32]在半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)設(shè)置中使用基于相互蒸餾的損失函數(shù),在KITTI和Cityscapes數(shù)據(jù)集上表現(xiàn)出非常好的性能。
自監(jiān)督學(xué)習(xí)
最后一種范式是自監(jiān)督學(xué)習(xí)。由于實(shí)際應(yīng)用中的深度值遠(yuǎn)大于這些神經(jīng)網(wǎng)絡(luò)可以持續(xù)生成的值,因此合適的深度表示將顯著提高模型性能。合適的深度表示的選擇以促進(jìn)特征表示學(xué)習(xí)在深度的學(xué)習(xí)和自監(jiān)督單目運(yùn)動中起著重要作用。自監(jiān)督從未標(biāo)記的樣本中獲取信息,是一種介于有監(jiān)督和無監(jiān)督之間的學(xué)習(xí)方式。
自監(jiān)督學(xué)習(xí)包含兩個階段,首先使用偽標(biāo)簽學(xué)習(xí)來獲得更好的網(wǎng)絡(luò)初始化權(quán)重,其次使用有監(jiān)督或無監(jiān)督學(xué)習(xí)的方式完成深度估計(jì)。自監(jiān)督學(xué)習(xí)的主要好處是它允許使用質(zhì)量較低的數(shù)據(jù)進(jìn)行訓(xùn)練,并非專注于提升模型性能。自監(jiān)督學(xué)習(xí)通過使用數(shù)據(jù)集的稀疏注釋部分并生成新數(shù)據(jù)進(jìn)行訓(xùn)練來實(shí)現(xiàn)。下圖展示了自監(jiān)督學(xué)習(xí)深度估計(jì)的網(wǎng)絡(luò)架構(gòu)。

MonoDepth2[33]在諸多工作中脫穎而出,其基于U-Net的結(jié)構(gòu)進(jìn)行深度預(yù)測以及姿態(tài)網(wǎng)絡(luò)來解釋視頻幀中的時間一致性。為了考慮遮擋,他們利用具有特定損失函數(shù)的逐像素重投影,然后對深度圖進(jìn)行上采樣。SuperDepth [34]提出了一種基于超分辨率的深度估計(jì)解決方案以及一個提高預(yù)測精度的新型增強(qiáng)層。[35]通過對自監(jiān)督學(xué)習(xí)訓(xùn)練范式中涉及的不確定性進(jìn)行建模來實(shí)現(xiàn)當(dāng)時最先進(jìn)的結(jié)果。[36]使用自監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)進(jìn)行深度估計(jì),該網(wǎng)絡(luò)與 LiDAR 數(shù)據(jù)一起用于室外場景中的深度補(bǔ)全任務(wù)。
5挑戰(zhàn)和趨勢
遠(yuǎn)距離數(shù)據(jù)收集
無人機(jī)、機(jī)器人的應(yīng)用都需要超過百米的深度范圍,而當(dāng)前大多數(shù)研究都是針對室內(nèi)、短程室外和室外移動車輛數(shù)據(jù)集進(jìn)行的。長期數(shù)據(jù)集的缺乏也使得模型的持續(xù)優(yōu)化或調(diào)整可用數(shù)據(jù)變得困難,因此與此類數(shù)據(jù)集的收集將是未來領(lǐng)域發(fā)展的一大重點(diǎn)。
使用合成數(shù)據(jù)可以一定程度緩解上述問題,但必須注意將真實(shí)世界的元素包含到這些數(shù)據(jù)集中,例如照明和霧霾的自然條件、動態(tài)對象的遮擋等等。
多任務(wù)學(xué)習(xí)
已經(jīng)有許多工作將分割和單目深度估計(jì)使用一個網(wǎng)絡(luò)輸出,但目前仍然是使用解耦的方式分別輸出兩者的預(yù)測結(jié)果。未來可以考慮從深度和分割的特性出發(fā),將兩者進(jìn)行整合。
實(shí)時推理
由3D CNN、LSTM 和其他注意力機(jī)制實(shí)現(xiàn)的對時間一致性的利用仍然容易受到實(shí)際應(yīng)用中每幀變化的靜態(tài)性質(zhì)的影響,這就導(dǎo)致室外深度估計(jì)任務(wù)仍然是單個圖像深度估計(jì)的問題。目前為了平衡這個問題,仍然需要大量的計(jì)算資源。類似輕量級分割網(wǎng)絡(luò),未來輕量級深度估計(jì)網(wǎng)絡(luò)會是另一大研究熱點(diǎn)。
6參考文獻(xiàn)
[1] Geiger, Andreas, et al. ”Vision meets robotics: The kitti dataset.” The International Journal of Robotics Research 32.11 (2013): 1231-1237.
[2] Saxena, Ashutosh, Min Sun, and Andrew Y. Ng. ”Make3d: Learning 3d scene structure from a single still image.” IEEE transactions on pattern analysis and machine intelligence 31.5 (2008): 824-840.
[3] Ramezani, Milad, et al. ”The newer college dataset: Handheld lidar, inertial and vision with ground truth.” 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2020.
[4] Li, Zhengqi, and Noah Snavely. ”Megadepth: Learning single-view depth prediction from internet photos.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[5] Vasiljevic, Igor, et al. ”Diode: A dense indoor and outdoor depth dataset.” arXiv preprint arXiv:1908.00463 (2019).
[6] Yang, Guorun, et al. ”Drivingstereo: A large-scale dataset for stereo matching in autonomous driving scenarios.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
[7] Chao, Fang-Yi, et al. ”A Multi-FoV Viewport-Based Visual Saliency Model Using Adaptive Weighting Losses for 360 Images.” IEEE Transactions on Multimedia 23 (2020): 1811-1826.
[8] Schops, Thomas, et al. ”A multi-view stereo benchmark with highresolution images and multi-camera videos.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[9] Mancini, Michele, et al. ”Toward domain independence for learningbased monocular depth estimation.” IEEE Robotics and Automation Letters 2.3 (2017): 1778-1785.
[10] Reza, Md Alimoor, Jana Kosecka, and Philip David. ”FarSight: Long-Range Depth Estimation from Outdoor Images.” 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018.
[11] de La Garanderie, Greire Payen, Amir Atapour Abarghouei, and Toby P. Breckon. ”Eliminating the blind spot: Adapting 3d object detection and monocular depth estimation to 360 panoramic imagery.” Proceedings of the European Conference on Computer Vision (ECCV). 2018.
[12] Zhu, Jun-Yan, et al. ”Unpaired image-to-image translation using cycleconsistent adversarial networks.” Proceedings of the IEEE international conference on computer vision. 2017.
[13] Liu, Fayao, Chunhua Shen, and Guosheng Lin. ”Deep convolutional neural fields for depth estimation from a single image.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
[14] Bhat, Shariq Farooq, Ibraheem Alhashim, and Peter Wonka. ”Adabins: Depth estimation using adaptive bins.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[15] Zhang, Haokui, et al. ”Exploiting temporal consistency for real-time video depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[16] Maslov, Dmitrii, and Ilya Makarov. ”O(jiān)nline supervised attention-based recurrent depth estimation from monocular video.” PeerJ Computer Science 6 (2020): e317.
[17] CS Kumar, Arun, Suchendra M. Bhandarkar, and Mukta Prasad. ”Depthnet: A recurrent neural network architecture for monocular depth prediction.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018.
[18] Wang, Rui, Stephen M. Pizer, and Jan-Michael Frahm. ”Recurrent neural network for (un-) supervised learning of monocular video visual odometry and depth.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
[19] Cho, Jaehoon, et al. ”Deep monocular depth estimation leveraging a large-scale outdoor stereo dataset.” Expert Systems with Applications 178 (2021): 114877.
[20] Nekrasov, Vladimir, et al. ”Real-time joint semantic segmentation and depth estimation using asymmetric annotations.” 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019.
[21] Feng, Qi, Hubert PH Shum, and Shigeo Morishima. ”360 Depth Estimation in the Wild-the Depth360 Dataset and the SegFuse Network.” 2022 IEEE Conference on Virtual Reality and 3D User Interfaces (VR). IEEE, 2022.
[22] Yuan, Haobo, et al. ”PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation.” arXiv preprint arXiv:2112.02582 (2021).
[23] Saeedan, Faraz, and Stefan Roth. ”Boosting monocular depth with panoptic segmentation maps.” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021.
[24] Qiao, Siyuan, et al. ”Vip-deeplab: Learning visual perception with depthaware video panoptic segmentation.” Proceedings of the IEEE/CVFConference on Computer Vision and ?Pattern Recognition. 2021.
[25] Eigen, David, and Rob Fergus. ”Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture.” Proceedings of the IEEE international conference on computer vision. 2015.
[26] Sun, Jian, Nan-Ning Zheng, and Heung-Yeung Shum. ”Stereo matching using belief propagation.” IEEE Transactions on pattern analysis and machine intelligence 25.7 (2003): 787-800.
[27] Garg, Ravi, et al. ”Unsupervised cnn for single view depth estimation: Geometry to the rescue.” European conference on computer vision. Springer, Cham, 2016.
[28] Godard, Cl′ement, Oisin Mac Aodha, and Gabriel J. Brostow. ”Unsupervised monocular depth estimation with left-right consistency.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[29] A. Moreau, M. Mancas and T. Dutoit, ”Unsupervised depth prediction from monocular sequences: Improving performances through instance segmentation,” 2020 17th Conference on Computer and Robot Vision (CRV), 2020.
[30] Wang, Guangming, et al. ”Unsupervised learning of depth, optical flow and pose with occlusion from 3d geometry.” IEEE Transactions on Intelligent Transportation Systems 23.1 (2020): 308-320.
[31] Kuznietsov, Yevhen, Jorg Stuckler, and Bastian Leibe. ”Semi-supervised deep learning for monocular depth map prediction.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[32] Baek, Jongbeom, Gyeongnyeon Kim, and Seungryong Kim. ”Semi-Supervised Learning with Mutual Distillation for Monocular Depth Estimation.” arXiv preprint arXiv:2203.09737 (2022).
[33] Godard, Cl′ement, et al. ”Digging into self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[34] Pillai, Sudeep, Rares? Ambrus?, and Adrien Gaidon. ”Superdepth: Selfsupervised, super-resolved monocular depth estimation.” 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019.
[35] Poggi, Matteo, et al. ”O(jiān)n the uncertainty of self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[36] Ma, Fangchang, Guilherme Venturelli Cavalheiro, and Sertac Karaman. ”Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera.” 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019.
文章僅用于學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪除。
獨(dú)家重磅課程官網(wǎng):cvlife.net

全國最大的機(jī)器人SLAM開發(fā)者社區(qū)

技術(shù)交流群

—? ?版權(quán)聲明? —
本公眾號原創(chuàng)內(nèi)容版權(quán)屬計(jì)算機(jī)視覺life所有;從公開渠道收集、整理及授權(quán)轉(zhuǎn)載的非原創(chuàng)文字、圖片和音視頻資料,版權(quán)屬原作者。如果侵權(quán),請聯(lián)系我們,會及時刪除。