最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

多視圖立體匹配論文分享:BlendedMVS

2021-02-20 22:27 作者:3D視覺工坊  | 我要投稿
作者:Toddi-Qi
來源:微信公眾號|3D視覺工坊(系投稿)

論文題目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks

數(shù)據(jù)集和預(yù)訓(xùn)練模型地址:在公眾號「3D視覺工坊」,后臺回復(fù)「BlendedMVS」,即可直接下載。

摘要:

盡管深度學(xué)習(xí)在多視圖立體匹配領(lǐng)域取得了很大的進展,但是有限的訓(xùn)練數(shù)據(jù)使得訓(xùn)練模型很難泛化到看不見的場景。與其他的計算機視覺任務(wù)相比,制作大規(guī)模的MVS數(shù)據(jù)集是相對困難的,因為它需要昂貴的主動激光掃描儀和勞動密集的處理去獲得ground-truth的三維結(jié)構(gòu)。本文提出一個新的大規(guī)模數(shù)據(jù)集BlendedMVS,為基于學(xué)習(xí)的MVS算法提供了足夠的訓(xùn)練樣本。為了創(chuàng)建數(shù)據(jù)集,首先利用三維重建算法從給定的場景圖像中恢復(fù)出帶紋理的三維網(wǎng)格模型。然后將重建得到的三維網(wǎng)格模型渲染得到彩色圖像和深度圖。為了在模型訓(xùn)練中引入環(huán)境的光照信息,渲染得到的彩色圖像和原始輸入圖像進行混合,混合得到的彩色圖像作為網(wǎng)絡(luò)模型的訓(xùn)練輸入。BlendedMVS數(shù)據(jù)集中包含超過17k的高分辨率圖像,涵蓋了各種場景,包括城市、建筑、雕塑和小物體。實驗表明:和其他數(shù)據(jù)集相比,使用BlendedMVS訓(xùn)練的網(wǎng)絡(luò)模型具有更好的泛化能力。



圖 1 渲染數(shù)據(jù)的生成流程,首先從輸入圖像中生成帶紋理的三維模型,然后將三維模型渲染到不同的視點下得到渲染圖像和深度圖。

一、數(shù)據(jù)集的制作:

數(shù)據(jù)集制作的流程如圖1所示,首先使用三維重建算法從輸入的圖像中生成帶紋理的三維網(wǎng)格模型。接下來,將三維網(wǎng)格模型渲染到每個相機視點下以獲得渲染的圖像和對應(yīng)的深度圖。最終用于訓(xùn)練的輸入圖像是渲染圖像和輸入圖像進行混合得到混合圖像。

1.1. 生成帶紋理的三維網(wǎng)格模型

構(gòu)建合成MVS數(shù)據(jù)集的第一步是生成高質(zhì)量的帶紋理的三維網(wǎng)格模型。給定輸入圖像,首先利用Altizure平臺進行三維網(wǎng)格重建。該軟件會執(zhí)行完整的三維重建算法,三維重建的輸出結(jié)果為帶紋理的三維網(wǎng)格模型和相機位姿。

如圖1所示,根據(jù)三維網(wǎng)格模型和輸入圖像的相機位姿,可以把三維模型渲染到各個視點下得到渲染的圖像和渲染的深度圖。渲染得到的深度圖將作為模型訓(xùn)練時深度圖的ground-truth。



圖 2 混合圖像生成的流程,高通濾波器用于從渲染圖像中提取視覺線索,而低通濾波器從輸入圖像中提取環(huán)境光照信息。

1. 2. 生成混合圖像

直觀上講,渲染得到的圖像可以直接作為網(wǎng)絡(luò)訓(xùn)練。然而,一個潛在的問題是渲染得到的圖像不包含依賴視圖的光照。事實上,一個理想的MVS網(wǎng)絡(luò)訓(xùn)練樣本應(yīng)該滿足以下兩個條件:

① 圖像和深度圖應(yīng)該一致對齊,訓(xùn)練樣本應(yīng)該提供從輸入圖像到ground-truth深度圖的可靠映射。

② 圖像應(yīng)該反射視點相關(guān)的光照。逼真的環(huán)境光照可以增強模型對真實場景的泛化能力。



二、場景

BlendedMVS數(shù)據(jù)集包含113個場景,涵蓋了各種不同的場景,包括建筑、街景、雕塑和小型物體。每個場景包含20到1000張不等的輸入圖像,整個數(shù)據(jù)集共有17818張圖像。與DTU數(shù)據(jù)集相比,DTU數(shù)據(jù)集場景是通過一個固定的機械臂獲取的,BlendedMVS數(shù)據(jù)集中的場景包含各種不同的相機軌跡。非結(jié)構(gòu)化的相機軌跡可以更好地建模不同的圖像捕捉風(fēng)格,使得網(wǎng)絡(luò)對真實世界的重建具有更好的泛化性能。



圖 3 BlendedMVS數(shù)據(jù)集中帶有相機軌跡的三維紋理模型,圖中藍色框表示三維空間中相機的位置。

三、實驗結(jié)果

為了驗證提出的數(shù)據(jù)集的有效性,作者在BlendedMVS數(shù)據(jù)集上訓(xùn)練和評測了MVSNet、R-MVSNet和Point-MVSNet三種網(wǎng)絡(luò)模型。

3.1. 深度圖驗證

為了驗證BlendedMVS數(shù)據(jù)集的有效性,作者比較了在1)DTU訓(xùn)練集、2)ETH3D低分辨率訓(xùn)練集、3)MegaDepth數(shù)據(jù)集和4)BlendedMVS訓(xùn)練集上訓(xùn)練模型的效果。評測在對應(yīng)數(shù)據(jù)集的驗證集上進行的。實驗中考慮的三個指標(biāo):1)終點誤差(end point error, EPE),即預(yù)測的深度圖與深度圖ground-truth的平均誤差;2)大于1像素誤差,即誤差大于1個深度像素的比例;3)大于3像素誤差。定量結(jié)果如圖4所示。



圖 4 模型訓(xùn)練過程中驗證集上的深度圖誤差。使用BlendedMVS數(shù)據(jù)集(紅線)訓(xùn)練的模型在DTU和ETH3D驗證集上都表現(xiàn)出良好的泛化性能。

3.2. 點云評測

除了深度圖評測之外,作者還比較了在DTU、ETH3D、MegaDepth和BlendedMVS數(shù)據(jù)集訓(xùn)練的模型在Tanks and Temples訓(xùn)練集上的點云重建效果。點云評測包括三個評價指標(biāo),即精度(accuracy)、召回率(completeness)和整體來衡量重建質(zhì)量。如表5所示,在DTU和MegaDepth數(shù)據(jù)集上訓(xùn)練的模型取得了接近的分數(shù),而在BlendedMVS數(shù)據(jù)集上訓(xùn)練的模型在所有場景上都優(yōu)于其他三個數(shù)據(jù)集上訓(xùn)練的模型。將訓(xùn)練數(shù)據(jù)從DTU改為BlendedMVS,從47.5%提高到53.2%.深度圖的可視化比較如圖6所示。



圖 5 Tanks and Temples數(shù)據(jù)上的點云評測,在BlendedMVS數(shù)據(jù)上訓(xùn)練的模型在所有場景上性能優(yōu)于在其他數(shù)據(jù)集上訓(xùn)練的模型。



圖 6 深度圖重建的可視化比較,與其他三個數(shù)據(jù)集相比,使用BlendedMVS數(shù)據(jù)集訓(xùn)練的模型預(yù)測的深度圖結(jié)果更清晰。

結(jié)論:

本文提出用于MVS網(wǎng)絡(luò)模型訓(xùn)練的BlendedMVS數(shù)據(jù)集。數(shù)據(jù)集提供了超過17k的高質(zhì)量訓(xùn)練樣本,涵蓋了各種場景。為了構(gòu)建數(shù)據(jù)集,首先從輸入圖像中重建帶紋理的三維網(wǎng)格模型,然后將三維網(wǎng)格模型渲染得到彩色圖像和深度圖。將渲染的彩色圖像和輸入圖像進行混合作為模型訓(xùn)練的輸入。使用了BlendedMVS數(shù)據(jù)集和其他MVS數(shù)據(jù)集對三種網(wǎng)絡(luò)模型進行訓(xùn)練。定量和定性結(jié)果表明,在BlendedMVS數(shù)據(jù)集上訓(xùn)練的模型具有更好的泛化能力。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

3D視覺工坊-CV交流群

已建立3D視覺工坊-CV微信交流群!想要進CV交流群的同學(xué),可以直接加微信號:CV_LAB 。加的時候備注一下:研究方向+學(xué)校+昵稱,即可。然后就可以拉你進群了。

強烈推薦大家關(guān)注「小凡」知乎和「3D視覺工坊」微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺論文。


多視圖立體匹配論文分享:BlendedMVS的評論 (共 條)

分享到微博請遵守國家法律
迁西县| 澎湖县| 漳州市| 筠连县| 屯昌县| 墨竹工卡县| 东平县| 左权县| 银川市| 广水市| 鹿邑县| 临猗县| 石台县| 婺源县| 神农架林区| 彭阳县| 抚州市| 永定县| 隆德县| 孟村| 铜梁县| 九寨沟县| 阿勒泰市| 呼和浩特市| 临漳县| 德保县| 乐亭县| 汉寿县| 同心县| 长汀县| 桂阳县| 阿城市| 大兴区| 大埔区| 普定县| 江川县| 大港区| 榆中县| 金坛市| 乌鲁木齐县| 丁青县|