多視圖立體匹配論文分享:BlendedMVS
作者:Toddi-Qi
來源:微信公眾號|3D視覺工坊(系投稿)
論文題目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks
數(shù)據(jù)集和預(yù)訓(xùn)練模型地址:在公眾號「3D視覺工坊」,后臺回復(fù)「BlendedMVS」,即可直接下載。
摘要:
盡管深度學(xué)習(xí)在多視圖立體匹配領(lǐng)域取得了很大的進展,但是有限的訓(xùn)練數(shù)據(jù)使得訓(xùn)練模型很難泛化到看不見的場景。與其他的計算機視覺任務(wù)相比,制作大規(guī)模的MVS數(shù)據(jù)集是相對困難的,因為它需要昂貴的主動激光掃描儀和勞動密集的處理去獲得ground-truth的三維結(jié)構(gòu)。本文提出一個新的大規(guī)模數(shù)據(jù)集BlendedMVS,為基于學(xué)習(xí)的MVS算法提供了足夠的訓(xùn)練樣本。為了創(chuàng)建數(shù)據(jù)集,首先利用三維重建算法從給定的場景圖像中恢復(fù)出帶紋理的三維網(wǎng)格模型。然后將重建得到的三維網(wǎng)格模型渲染得到彩色圖像和深度圖。為了在模型訓(xùn)練中引入環(huán)境的光照信息,渲染得到的彩色圖像和原始輸入圖像進行混合,混合得到的彩色圖像作為網(wǎng)絡(luò)模型的訓(xùn)練輸入。BlendedMVS數(shù)據(jù)集中包含超過17k的高分辨率圖像,涵蓋了各種場景,包括城市、建筑、雕塑和小物體。實驗表明:和其他數(shù)據(jù)集相比,使用BlendedMVS訓(xùn)練的網(wǎng)絡(luò)模型具有更好的泛化能力。

圖 1 渲染數(shù)據(jù)的生成流程,首先從輸入圖像中生成帶紋理的三維模型,然后將三維模型渲染到不同的視點下得到渲染圖像和深度圖。
一、數(shù)據(jù)集的制作:
數(shù)據(jù)集制作的流程如圖1所示,首先使用三維重建算法從輸入的圖像中生成帶紋理的三維網(wǎng)格模型。接下來,將三維網(wǎng)格模型渲染到每個相機視點下以獲得渲染的圖像和對應(yīng)的深度圖。最終用于訓(xùn)練的輸入圖像是渲染圖像和輸入圖像進行混合得到混合圖像。
1.1. 生成帶紋理的三維網(wǎng)格模型
構(gòu)建合成MVS數(shù)據(jù)集的第一步是生成高質(zhì)量的帶紋理的三維網(wǎng)格模型。給定輸入圖像,首先利用Altizure平臺進行三維網(wǎng)格重建。該軟件會執(zhí)行完整的三維重建算法,三維重建的輸出結(jié)果為帶紋理的三維網(wǎng)格模型和相機位姿。
如圖1所示,根據(jù)三維網(wǎng)格模型和輸入圖像的相機位姿,可以把三維模型渲染到各個視點下得到渲染的圖像和渲染的深度圖。渲染得到的深度圖將作為模型訓(xùn)練時深度圖的ground-truth。

圖 2 混合圖像生成的流程,高通濾波器用于從渲染圖像中提取視覺線索,而低通濾波器從輸入圖像中提取環(huán)境光照信息。
1. 2. 生成混合圖像
直觀上講,渲染得到的圖像可以直接作為網(wǎng)絡(luò)訓(xùn)練。然而,一個潛在的問題是渲染得到的圖像不包含依賴視圖的光照。事實上,一個理想的MVS網(wǎng)絡(luò)訓(xùn)練樣本應(yīng)該滿足以下兩個條件:
① 圖像和深度圖應(yīng)該一致對齊,訓(xùn)練樣本應(yīng)該提供從輸入圖像到ground-truth深度圖的可靠映射。
② 圖像應(yīng)該反射視點相關(guān)的光照。逼真的環(huán)境光照可以增強模型對真實場景的泛化能力。

二、場景
BlendedMVS數(shù)據(jù)集包含113個場景,涵蓋了各種不同的場景,包括建筑、街景、雕塑和小型物體。每個場景包含20到1000張不等的輸入圖像,整個數(shù)據(jù)集共有17818張圖像。與DTU數(shù)據(jù)集相比,DTU數(shù)據(jù)集場景是通過一個固定的機械臂獲取的,BlendedMVS數(shù)據(jù)集中的場景包含各種不同的相機軌跡。非結(jié)構(gòu)化的相機軌跡可以更好地建模不同的圖像捕捉風(fēng)格,使得網(wǎng)絡(luò)對真實世界的重建具有更好的泛化性能。

圖 3 BlendedMVS數(shù)據(jù)集中帶有相機軌跡的三維紋理模型,圖中藍色框表示三維空間中相機的位置。
三、實驗結(jié)果
為了驗證提出的數(shù)據(jù)集的有效性,作者在BlendedMVS數(shù)據(jù)集上訓(xùn)練和評測了MVSNet、R-MVSNet和Point-MVSNet三種網(wǎng)絡(luò)模型。
3.1. 深度圖驗證
為了驗證BlendedMVS數(shù)據(jù)集的有效性,作者比較了在1)DTU訓(xùn)練集、2)ETH3D低分辨率訓(xùn)練集、3)MegaDepth數(shù)據(jù)集和4)BlendedMVS訓(xùn)練集上訓(xùn)練模型的效果。評測在對應(yīng)數(shù)據(jù)集的驗證集上進行的。實驗中考慮的三個指標(biāo):1)終點誤差(end point error, EPE),即預(yù)測的深度圖與深度圖ground-truth的平均誤差;2)大于1像素誤差,即誤差大于1個深度像素的比例;3)大于3像素誤差。定量結(jié)果如圖4所示。

圖 4 模型訓(xùn)練過程中驗證集上的深度圖誤差。使用BlendedMVS數(shù)據(jù)集(紅線)訓(xùn)練的模型在DTU和ETH3D驗證集上都表現(xiàn)出良好的泛化性能。
3.2. 點云評測
除了深度圖評測之外,作者還比較了在DTU、ETH3D、MegaDepth和BlendedMVS數(shù)據(jù)集訓(xùn)練的模型在Tanks and Temples訓(xùn)練集上的點云重建效果。點云評測包括三個評價指標(biāo),即精度(accuracy)、召回率(completeness)和整體來衡量重建質(zhì)量。如表5所示,在DTU和MegaDepth數(shù)據(jù)集上訓(xùn)練的模型取得了接近的分數(shù),而在BlendedMVS數(shù)據(jù)集上訓(xùn)練的模型在所有場景上都優(yōu)于其他三個數(shù)據(jù)集上訓(xùn)練的模型。將訓(xùn)練數(shù)據(jù)從DTU改為BlendedMVS,從47.5%提高到53.2%.深度圖的可視化比較如圖6所示。

圖 5 Tanks and Temples數(shù)據(jù)上的點云評測,在BlendedMVS數(shù)據(jù)上訓(xùn)練的模型在所有場景上性能優(yōu)于在其他數(shù)據(jù)集上訓(xùn)練的模型。

圖 6 深度圖重建的可視化比較,與其他三個數(shù)據(jù)集相比,使用BlendedMVS數(shù)據(jù)集訓(xùn)練的模型預(yù)測的深度圖結(jié)果更清晰。
結(jié)論:
本文提出用于MVS網(wǎng)絡(luò)模型訓(xùn)練的BlendedMVS數(shù)據(jù)集。數(shù)據(jù)集提供了超過17k的高質(zhì)量訓(xùn)練樣本,涵蓋了各種場景。為了構(gòu)建數(shù)據(jù)集,首先從輸入圖像中重建帶紋理的三維網(wǎng)格模型,然后將三維網(wǎng)格模型渲染得到彩色圖像和深度圖。將渲染的彩色圖像和輸入圖像進行混合作為模型訓(xùn)練的輸入。使用了BlendedMVS數(shù)據(jù)集和其他MVS數(shù)據(jù)集對三種網(wǎng)絡(luò)模型進行訓(xùn)練。定量和定性結(jié)果表明,在BlendedMVS數(shù)據(jù)集上訓(xùn)練的模型具有更好的泛化能力。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊-CV交流群
已建立3D視覺工坊-CV微信交流群!想要進CV交流群的同學(xué),可以直接加微信號:CV_LAB 。加的時候備注一下:研究方向+學(xué)校+昵稱,即可。然后就可以拉你進群了。
強烈推薦大家關(guān)注「小凡」知乎和「3D視覺工坊」微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺論文。