CVPR2023 I NeRF-Supervised Deep Stereo:不需ground-truth數(shù)據(jù)
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
論文題目:NeRF-Supervised Deep Stereo
作者:Fabio Tosi ;Alessio Tonioni; Daniele De Gregorio等人
作者機構:University of Bologna(博洛尼亞大學);Google Inc(全球最大的搜索引擎之一);Eyecan.ai(韓國專注于開發(fā)眼動追蹤技術的公司)
在公眾號「計算機視覺工坊」后臺回復「原論文」,可獲取對應論文pdf文件。
項目代碼:https://github.com/fabiotosi92/NeRF
項目主頁:https://nerfstereo.github.io/
本文提出了一種新的深度立體網(wǎng)絡訓練框架,可以從使用單個手持相機拍攝的圖像序列中生成立體訓練數(shù)據(jù)。這種方法利用了神經(jīng)渲染解決方案提供的立體圖像,跳過了基于ground-truth的訓練,使用三元組來補償遮擋和深度圖像作為代理標簽進行NeRF監(jiān)督訓練。實驗結果表明,訓練模型的效果比現(xiàn)有的自我監(jiān)督方法提高了30-40%,在Middlebury數(shù)據(jù)集中達到了受監(jiān)督模型的效果,而且大多數(shù)情況下在零拍攝泛化方面表現(xiàn)出色。
本文介紹了神經(jīng)渲染用于構建靈活可擴展訓練數(shù)據(jù)的新范式,該方法可以輕松地訓練深度立體網(wǎng)絡且無需任何基礎知識。該方法使用標準單手持相機在野外收集稀疏的圖像序列,并在其上訓練NeRF模型。通過NeRF模型,可以從任意視點合成立體對以自我監(jiān)督的方式訓練任何立體網(wǎng)絡,其中通過渲染每個對的第三個視圖來有效地解決遮擋問題。此外,NeRF渲染的深度作為代理監(jiān)督完善了我們的NeRF監(jiān)督訓練方法。實驗結果表明,相對于現(xiàn)有的自我監(jiān)督方法和合成數(shù)據(jù)集方法,所提出的方法在零拍攝泛化方面表現(xiàn)更出色。
本文的主要貢獻可以總結為以下幾點:
創(chuàng)新的方法來使用神經(jīng)渲染和一系列用戶收集的圖像序列來收集和生成立體訓練數(shù)據(jù)。
一個 NeRF-Supervised 訓練協(xié)議,結合渲染圖像三元組和深度圖來解決遮擋和增強細節(jié)。
在具有挑戰(zhàn)性的立體數(shù)據(jù)集上實現(xiàn)了最先進的零樣本泛化結果,且沒有利用任何真實立體對或基準。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
本文這部分介紹了立體匹配、無監(jiān)督立體、零樣本泛化和神經(jīng)輻射場等方面的相關工作。在立體匹配中,介紹了近幾年深度學習成為該領域主導技術的情況。然而,這些方法嚴格要求密集的真實地面實況。在無監(jiān)督立體中,使用光度損失的策略是常見的,但根據(jù)作者的說法,這些策略只適用于單個領域的專業(yè)化或適應。在零樣本泛化中,將視差估算視為制作立體算法的問題進行改進是一條研究思路。在神經(jīng)輻射場中,NeRF是主要的方法,其模型可以解決多種問題。作者提出的方法是通過從單個圖像生成立體對來學習,不需要在數(shù)百萬圖像上預先訓練任何模型或有實況標簽,但仍然能取得更好的結果。
本文提出了NeRF-Supervised(NS)學習框架,用于訓練立體匹配網(wǎng)絡。該框架的步驟主要包括:從多個靜態(tài)場景中收集多視角圖像,適配NeRF以渲染立體三元組和深度信息,最后使用渲染的數(shù)據(jù)訓練立體匹配網(wǎng)絡。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
神經(jīng)放射場(NeRF)是一種將場景中點的 3D 坐標和捕捉該點的相機的視角作為輸入,映射到顏色-密度輸出的模型。為了渲染 2D 圖像,該模型通過將相機光線分成預定義的采樣點,并使用 MLP 估計每個采樣點的密度和顏色,最終使用體渲染合成 2D 圖像。顯式表示例如體素網(wǎng)格可以存儲其他特征,以加速模型訓練和計算。
這部分作者介紹了如何使用NeRF作為數(shù)據(jù)工廠生成立體圖像對以訓練深度立體網(wǎng)絡。首先,作者通過COLMAP對圖像進行預處理,然后為每個場景擬合獨立的NeRF,并使用渲染損失進行優(yōu)化。最后,通過虛擬立體相機參數(shù)渲染兩個新視圖和一個第二個目標幀,創(chuàng)建完美校正的立體三元組。在這個過程中,我作者從渲染深度中提取位移,并用它來輔助訓練深度立體網(wǎng)絡。
作者提出了一個NeRF-Supervised訓練方案,其中利用一個圖像三元組通過光度損失和渲染位移損失對深度立體模型進行監(jiān)督。三元組光度損失通過使用圖像重建來對遮擋問題進行補償。渲染位移損失被過濾以去除不可靠的像素。最終,兩個損失被加權平衡后,用于訓練任何深度立體網(wǎng)絡。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
作者使用移動設備捕獲的高分辨率場景進行深度估計的方法。通過收集270個靜態(tài)場景和渲染三元組來生成訓練數(shù)據(jù),并使用Instant-NGP作為NeRF engine實現(xiàn),以實現(xiàn)精確深度估計。此外,還引入了一個提議來提高現(xiàn)有立體算法的性能,并利用普通的相機進行實現(xiàn)。其中,作者采用了準確性和快速收斂的RAFT-Stereo作為主要架構,并使用PSMNet和CFNet進行評估,提高了這些算法的性能。
作者使用KITTI、Middlebury和ETH3D數(shù)據(jù)集進行評估,計算視差誤差指標,并按照立體匹配領域的協(xié)議定義驗證和測試集。評估采用固定的閾值τ,分別為KITTI固定τ = 3,Middlebury固定τ = 2,ETH3D固定τ = 1。在評估期間,考慮遮擋和非遮擋區(qū)域并具有有效的基準視差。
歡迎關注微信公眾號「3D視覺工坊」,加群/文章投稿/課程主講,請加微信:QYong2014,添加時請備注:加群/投稿/主講申請
作者使用渲染視頻生成大規(guī)模立體訓練數(shù)據(jù)集的方法,涉及渲染參數(shù)選擇,標簽生成和代理損失的選擇方法等。在進行降板研究時,作者發(fā)現(xiàn)在他們的數(shù)據(jù)集上使用L3ρ損失是最佳的,這利用了他們的渲染三重組合產(chǎn)生的三角形幾何形狀的自監(jiān)督。本文還介紹了使用虛擬基線對視差分布的影響,評估了渲染圖像的分辨率以及收集的場景數(shù)量在訓練過程中的影響。作者發(fā)現(xiàn),更多的圖像及更小的虛擬基線可以提高模型的性能。在最具挑戰(zhàn)性的數(shù)據(jù)集上使用更多場景可以顯著提高模型的準確性。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
編輯
添加圖片注釋,不超過 140 字(可選)
作者比較了本文的方法和最新的從單一圖像生成立體圖對方法MfS,并通過訓練三種立體網(wǎng)絡得出。研究表明,在使用MfS生成方法和使用MfS數(shù)據(jù)集上訓練時,MfS表現(xiàn)較好(A,D和G)。然而,本文的方法在不需要使用大量訓練數(shù)據(jù)的情況下,通過NS范式提供的監(jiān)督訓練的立體網(wǎng)絡在大多數(shù)情況下表現(xiàn)更好,證明了我們的NS范式實現(xiàn)了更好的性能和更高的預測質量。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
作者針對立體視覺領域的零樣本泛化問題,在NS-PSMNet模型的基礎上進行了實驗評估并與其它先進方法進行了比較。針對不同論文中關于Middlebury數(shù)據(jù)集評估協(xié)議的不一致性問題,本文重新評估了相關方法并建立了一個公共評估協(xié)議。通過對比實驗結果,本文發(fā)現(xiàn)組合使用泛化能力較強的RAFT-Stereo和NS的方法可以在Middlebury數(shù)據(jù)集上獲得最佳結果。同時,在使用全部數(shù)據(jù)集作為評估標準時,NS-PSMNet模型的表現(xiàn)優(yōu)于除了PSMNet的其他先進方法。
編輯切換為居中
添加圖片注釋,不超過 140 字(可選)
NeRF-Supervised Deep Stereo提出了一種新的學習框架,可以輕松地訓練立體匹配網(wǎng)絡,而不需要任何ground-truth數(shù)據(jù),該論文還提出了一種NeRF-Supervised訓練協(xié)議,該協(xié)議結合了渲染圖像三元組和深度圖,以解決遮擋問題并增強細節(jié),實驗結果表明,該模型在挑戰(zhàn)性的立體數(shù)據(jù)集上取得了最先進的零樣本泛化結果。
本文提出了一種利用NeRF訓練深度立體網(wǎng)絡的創(chuàng)新流程,通過單個低成本手持相機捕捉圖像進行訓練,產(chǎn)生了最先進的零樣本泛化,超越了自我監(jiān)督和監(jiān)督方法。雖然局限于小規(guī)模、靜態(tài)的場景,而且仍無法處理具有挑戰(zhàn)性的條件,但是作者的工作是數(shù)據(jù)民主化的顯著進步,將成功的關鍵置于用戶手中。
原文鏈接:CVPR2023 I NeRF-Supervised Deep Stereo:不需要任何ground-truth數(shù)據(jù)
關注知乎「3D視覺工坊」,及時獲取每日3D視覺行業(yè)最前沿學術研究。
添加小助理微信dddvisiona, 即可加入「NeRF」(https://mp.weixin.qq.com/s/cYCcK7E46RZDa2Z2rMpLtw)微信群。