重磅!CVPR2023立體匹配文獻(xiàn)合集
CVPR2023立體匹配相關(guān)文獻(xiàn)合集匯總,在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」,即可獲取。
論文題目:Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues
作者:Stefanie Walz;Mario Bijelic;Andrea Ramazzina;Amanpreet Walia;Fahim Mannan等人
作者機(jī)構(gòu):Mercedes-Benz(梅賽德斯-奔馳);Google Inc(普林斯頓大學(xué));Algolux(一家全球公認(rèn)的計(jì)算機(jī)視覺(jué)公司)
論文鏈接:https://arxiv.org/pdf/2305.12955.pdf
項(xiàng)目代碼:https://github.com/princeton-computational-imaging/GatedStereo
項(xiàng)目主頁(yè):https://light.princeton.edu/publication/gatedstereo/
本文提出了一種名為Gated Stereo的高分辨率和遠(yuǎn)距離深度估計(jì)技術(shù),其基于活動(dòng)門(mén)控立體圖像進(jìn)行運(yùn)算。Gated Stereo通過(guò)利用多視角線(xiàn)索和來(lái)自活動(dòng)門(mén)控的飛行時(shí)間強(qiáng)度線(xiàn)索,以及活動(dòng)捕獲和高動(dòng)態(tài)范圍的被動(dòng)捕獲,實(shí)現(xiàn)了立體深度信息的高效估計(jì)。為了實(shí)現(xiàn)這個(gè)目的,作者提出了一種具有單目和立體深度預(yù)測(cè)分支的深度估計(jì)方法,在最終的融合階段組合這兩個(gè)分支。每個(gè)塊都通過(guò)監(jiān)督和門(mén)控自監(jiān)督損失的組合進(jìn)行監(jiān)督學(xué)習(xí)。為了便于訓(xùn)練和驗(yàn)證,作者獲取了一組用于汽車(chē)場(chǎng)景的長(zhǎng)距離同步門(mén)控立體數(shù)據(jù)集。研究發(fā)現(xiàn),在距離160米以?xún)?nèi)的范圍內(nèi),與最佳RGB立體方法相比,該方法的平均絕對(duì)誤差(MAE)提高了50%以上,與現(xiàn)有的單目門(mén)控方法相比,MAE提高了74%。
論文題目:Hybrid Transformer and CNN Attention Network for Stereo Image Super-resolution
作者:Ming Cheng;Haoyu Ma;Qiufang Ma;Xiaopeng Sun;等人
作者機(jī)構(gòu):ByteDance Inc(字節(jié)跳動(dòng));Peking University Shenzhen Graduate School(北京大學(xué)深圳研究生院)
論文鏈接:https://arxiv.org/pdf/2305.05177.pdf
多階段策略在圖像修復(fù)任務(wù)中被廣泛應(yīng)用,雖然基于Transformer的方法在單圖像超分辨率任務(wù)中表現(xiàn)出高效率,但在立體超分辨率任務(wù)中尚未展現(xiàn)出CNN-based方法的顯著優(yōu)勢(shì)。這可以歸因于兩個(gè)關(guān)鍵因素:首先,當(dāng)前單圖像超分辨率Transformer在該過(guò)程中無(wú)法利用互補(bǔ)的立體信息;其次,Transformer的性能通常依賴(lài)于足夠的數(shù)據(jù),在常見(jiàn)的立體圖像超分辨率算法中缺乏這些數(shù)據(jù)。為了解決這些問(wèn)題,作者提出了一種混合Transformer和CNN注意力網(wǎng)絡(luò)(HTCAN),它利用基于Transformer的網(wǎng)絡(luò)進(jìn)行單圖像增強(qiáng)和基于CNN的網(wǎng)絡(luò)進(jìn)行立體信息融合。此外,作者采用了多塊訓(xùn)練策略和更大的窗口尺寸,以激活更多的輸入像素進(jìn)行超分辨率。作者還重新審視了其他高級(jí)技術(shù),如數(shù)據(jù)增強(qiáng)、數(shù)據(jù)集成和模型集成,以減少過(guò)擬合和數(shù)據(jù)偏差。最后,作者的方法在NTIRE 2023立體圖像超分辨率挑戰(zhàn)的Track 1中獲得了23.90dB的分?jǐn)?shù),并成為優(yōu)勝者。
論文題目:Learning to Render Novel Views from Wide-Baseline Stereo Pairs
作者:Yilun Du ;Cameron Smith ;Ayush Tewari等人
作者機(jī)構(gòu):MIT CSAIL(全稱(chēng)是MIT’s Computer Science and Artificial Intelligence Laboratory即麻省理工學(xué)院 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室)
論文鏈接:https://arxiv.org/pdf/2304.08463.pdf
項(xiàng)目代碼:https://github.com/yilundu/cross_attention_renderer
項(xiàng)目主頁(yè):https://yilundu.github.io/wide_baseline/
作者引入了一種方法,可以?xún)H使用單個(gè)寬基線(xiàn)立體圖像對(duì)生成新視角。在這種具有挑戰(zhàn)性的情況下,3D場(chǎng)景點(diǎn)只被正常觀(guān)察一次,需要基于先驗(yàn)進(jìn)行場(chǎng)景幾何和外觀(guān)的重建。作者發(fā)現(xiàn)從稀疏觀(guān)測(cè)中生成新視角的現(xiàn)有方法因恢復(fù)不正確的3D幾何和可導(dǎo)渲染的高成本而失敗,這阻礙了其在大規(guī)模訓(xùn)練中的擴(kuò)展。作者通過(guò)構(gòu)建一個(gè)多視圖轉(zhuǎn)換編碼器、提出一種高效的圖像空間極線(xiàn)采樣方案來(lái)組裝目標(biāo)射線(xiàn)的圖像特征,以及一個(gè)輕量級(jí)的基于交叉注意力的渲染器來(lái)解決這些問(wèn)題。作者的貢獻(xiàn)使作者的方法能夠在一個(gè)大規(guī)模的室內(nèi)和室外場(chǎng)景的真實(shí)世界數(shù)據(jù)集上進(jìn)行訓(xùn)練。作者展示了本方法學(xué)習(xí)到了強(qiáng)大的多視圖幾何先驗(yàn),并降低了渲染時(shí)間。作者在兩個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行了廣泛的對(duì)比實(shí)驗(yàn),在保留測(cè)試場(chǎng)景的情況下,明顯優(yōu)于先前從稀疏圖像觀(guān)測(cè)中生成新視圖的方法并實(shí)現(xiàn)了多視圖一致的新視圖合成。
論文題目:POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo
作者:Lixin Yang;Jian Xu;Licheng Zhong等人
作者機(jī)構(gòu):Shanghai Jiao Tong University (上海交通大學(xué));Shanghai Qi Zhi Institute(上海期智研究院);Nreal(一家消費(fèi)級(jí)增強(qiáng)現(xiàn)實(shí)設(shè)備生產(chǎn)商)
論文鏈接:https://arxiv.org/pdf/2304.04038.pdf
項(xiàng)目代碼:https://github.com/lixiny/POEM
讓神經(jīng)網(wǎng)絡(luò)捕捉3D幾何感知特征在基于多視圖的視覺(jué)任務(wù)中至關(guān)重要。以前的方法通常將多視圖立體成像的3D信息編碼為2D特征。相比之下,作者提出了一種名為POEM的新方法,直接在嵌入在多視圖立體成像中的3D點(diǎn)上進(jìn)行操作,用于重建手部網(wǎng)格。點(diǎn)是3D信息的自然形式,也是跨視圖融合特征的理想介質(zhì),因?yàn)樗诓煌晥D上有不同的投影。因此,作者的方法基于一個(gè)簡(jiǎn)單而有效的思想,即復(fù)雜的3D手部網(wǎng)格可以由一組嵌入到多視圖立體成像中、攜帶多視圖圖像特征并包圍手部的3D點(diǎn)表示。為了利用點(diǎn)的優(yōu)勢(shì),作者設(shè)計(jì)了兩個(gè)操作:基于點(diǎn)的特征融合和跨點(diǎn)集注意機(jī)制。在三個(gè)具有挑戰(zhàn)性的多視圖數(shù)據(jù)集上的評(píng)估結(jié)果表明,POEM在手部網(wǎng)格重建方面優(yōu)于現(xiàn)有的最先進(jìn)方法。
論文題目:Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Estimation
作者:Liyan Chen;Weihan Wang;Philippos Mordohai等人
作者機(jī)構(gòu):Stevens Institute of Technology(史蒂文斯理工學(xué)院)
論文鏈接:https://arxiv.org/pdf/2304.00152.pdf
項(xiàng)目代碼:https://github.com/lly00412/SEDNet
作者提出了一種新的損失函數(shù),用于在深度立體匹配中進(jìn)行視差和不確定性聯(lián)合估計(jì)。作者的工作旨在精準(zhǔn)估計(jì)不確定性,并觀(guān)察到多任務(wù)學(xué)習(xí)通常會(huì)導(dǎo)致所有任務(wù)的性能提升。作者表明,這可以通過(guò)在網(wǎng)絡(luò)的損失函數(shù)中使用KL散度項(xiàng)來(lái)要求不確定性分布與視差誤差分布匹配來(lái)實(shí)現(xiàn)。作者使用可微的軟柱狀圖技術(shù)來(lái)近似分布,以便可以將其用于損失函數(shù)中。作者對(duì)大規(guī)模數(shù)據(jù)集上的視差和不確定性預(yù)測(cè)效果進(jìn)行了實(shí)驗(yàn)評(píng)估,并觀(guān)察到顯著的改進(jìn)。
作者:Fabio Tosi;Alessio Tonioni;Daniele De Gregorio等人
作者機(jī)構(gòu):University of Bologna(博洛尼亞大學(xué));Google Inc(全球最大的搜索引擎之一);Eyecan.ai(韓國(guó)專(zhuān)注于開(kāi)發(fā)眼動(dòng)追蹤技術(shù)的公司)
論文鏈接:https://arxiv.org/pdf/NeRF
項(xiàng)目代碼:https://github.com/fabiotosi92/NeRF
項(xiàng)目主頁(yè):https://nerfstereo.github.io/
作者引入了一種新穎的框架,可以輕松地且無(wú)需任何真實(shí)標(biāo)簽訓(xùn)練深度立體網(wǎng)絡(luò)。通過(guò)利用最先進(jìn)的神經(jīng)渲染解決方案,作者從單個(gè)手持相機(jī)拍攝的圖像序列中生成立體訓(xùn)練數(shù)據(jù)。在此基礎(chǔ)上,進(jìn)行NeRF監(jiān)督的訓(xùn)練過(guò)程,通過(guò)渲染的立體三元組來(lái)補(bǔ)償遮擋和作為代理標(biāo)簽的深度圖。這樣就能獲得能夠預(yù)測(cè)清晰且詳細(xì)的視差地圖的立體網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,使用這種方法訓(xùn)練的模型在具有挑戰(zhàn)性的Middlebury數(shù)據(jù)集上比現(xiàn)有的自監(jiān)督方法提高了30-40%,填補(bǔ)了到監(jiān)督模型的差距,并且大多數(shù)時(shí)間在零樣本泛化上表現(xiàn)得更好。
歡迎關(guān)注微信公眾號(hào)「3D視覺(jué)工坊」,加群/文章投稿/課程主講,請(qǐng)加微信:dddvisiona,添加時(shí)請(qǐng)備注:加群/投稿/主講申請(qǐng)
論文題目:Implicit View-Time Interpolation of Stereo Videos using Multi-Plane Disparities and Non-Uniform Coordinates
作者:Avinash Paliwal;Andrii Tsarov;Nima Khademi Kalantari等人
作者機(jī)構(gòu):Texas A&M University (德州農(nóng)工大學(xué));Leia Inc(一家致力于將人工智能與納米技術(shù)相結(jié)合,創(chuàng)造無(wú)與倫比的3D體驗(yàn)的公司)
論文鏈接:https://arxiv.org/pdf/2303.17181.pdf
本文提出了一種用于立體視頻視角時(shí)間內(nèi)插的方法。具體而言,作者基于X-Fields構(gòu)建了一個(gè)可插值的映射,使用卷積解碼器將輸入坐標(biāo)映射到2D RGB圖像。作者的主要貢獻(xiàn)是分析和識(shí)別了在應(yīng)用程序中使用X-Fields時(shí)的問(wèn)題來(lái)源,并提出了新的技術(shù)來(lái)克服這些挑戰(zhàn)。具體而言,作者觀(guān)察到X-Fields無(wú)法隱式地插值大基線(xiàn)相機(jī)的視差。因此,作者提出多平面視差來(lái)減少立體圖像中物體的空間距離。此外,作者提出了非均勻時(shí)間坐標(biāo)來(lái)處理視頻中的非線(xiàn)性和突發(fā)性運(yùn)動(dòng)。作者還引入了一些簡(jiǎn)單但重要的改進(jìn)措施,這些措施對(duì)X-Fields進(jìn)行了改進(jìn)。作者證明了我們的方法能夠產(chǎn)生比現(xiàn)有技術(shù)更好的結(jié)果,并且在接近實(shí)時(shí)的速率下運(yùn)行,并具有較低的內(nèi)存和存儲(chǔ)成本。
作者:Nishant Jain;Suryansh Kumar;Luc Van Goo等人
作者機(jī)構(gòu):Indian Institute of Technology (印度理工學(xué)院);ETH Zurich(蘇黎世聯(lián)邦理工大學(xué))
論文鏈接:https://arxiv.org/pdf/2303.17094.pdf
本文介紹了一種改進(jìn)自由移動(dòng)相機(jī)拍攝圖像的新視角合成的方法。該方法關(guān)注的是室外場(chǎng)景,在這些場(chǎng)景中,精確恢復(fù)幾何腳手架和相機(jī)姿態(tài)非常具有挑戰(zhàn)性,使用最先進(jìn)的穩(wěn)定視點(diǎn)綜合(SVS)方法會(huì)導(dǎo)致較差的結(jié)果。SVS和相關(guān)方法在室外場(chǎng)景中失敗主要是由于(i)過(guò)度依賴(lài)多視圖立體(MVS)進(jìn)行幾何腳手架恢復(fù)以及(ii)假設(shè)COLMAP計(jì)算的相機(jī)姿態(tài)為最佳估計(jì),盡管已經(jīng)研究證明MVS 3D重建精度僅限于場(chǎng)景視差,并且相機(jī)姿態(tài)精度對(duì)于關(guān)鍵點(diǎn)對(duì)應(yīng)性選擇很敏感。本文提出了一種有原則的方法來(lái)增強(qiáng)新視角合成解決方案,從多視圖幾何的基礎(chǔ)中汲取靈感。通過(guò)利用MVS和單目深度的互補(bǔ)性行為,作者得到了更好的近距離和遠(yuǎn)距離點(diǎn)的場(chǎng)景深度。此外,作者的方法通過(guò)多次旋轉(zhuǎn)平均圖優(yōu)化共同優(yōu)化相機(jī)姿態(tài)和基于圖像的渲染。恢復(fù)的場(chǎng)景深度和相機(jī)姿態(tài)有助于更好地視角相關(guān)的整個(gè)場(chǎng)景表面特征聚合。作者在流行的基準(zhǔn)數(shù)據(jù)集(例如Tanks and Temples)上對(duì)作者的方法進(jìn)行了廣泛評(píng)估,結(jié)果顯示與先前的技術(shù)相比,在視角合成結(jié)果上有了實(shí)質(zhì)性的改進(jìn)。例如,作者的方法在Tank和Temples上顯示了1.5dB的PSNR改進(jìn)。在測(cè)試其他基準(zhǔn)數(shù)據(jù)集(如FVS,Mip-NeRF 360和DTU)時(shí)觀(guān)察到類(lèi)似的統(tǒng)計(jì)結(jié)果。
論文題目:Multi-View Azimuth Stereo via Tangent Space Consistency
作者:Xu Cao ;Hiroaki Santo ;Fumio Okura等人
作者機(jī)構(gòu):Osaka University(大阪大學(xué))
論文鏈接:https://arxiv.org/pdf/2303.16447.pdf
本文提出了一種僅使用校準(zhǔn)多視圖表面方位圖進(jìn)行3D重建的方法。作者的方法,多視圖方位角立體,對(duì)于無(wú)紋理或有光澤表面比傳統(tǒng)的多視圖立體方法更為有效。作者引入了切向空間一致性的概念:表面點(diǎn)的多視圖方位觀(guān)測(cè)應(yīng)該被提升到相同的切向空間。利用這一一致性,作者通過(guò)優(yōu)化神經(jīng)隱式表面表征來(lái)恢復(fù)形狀。作者的方法利用光度立體方法或偏振成像的強(qiáng)大方位角估計(jì)能力,同時(shí)避開(kāi)了潛在的復(fù)雜天頂角估計(jì)。使用來(lái)自各種來(lái)源的方位圖的實(shí)驗(yàn)驗(yàn)證了作者的方法在沒(méi)有天頂角的情況下可以準(zhǔn)確地恢復(fù)形狀。
作者:Nick Heppert;Muhammad Zubair Irshad;Sergey Zakharov等人
作者機(jī)構(gòu):University of Freiburg(弗萊堡大學(xué));Georgia Institute of Technology(佐治亞理工學(xué)院);Toyota Research Institute (TRI) (豐田研究所);Stanford University(斯坦福大學(xué))
論文鏈接:https://arxiv.org/pdf/2303.15782.pdf
項(xiàng)目主頁(yè):http://carto.cs.uni-freiburg.de/
項(xiàng)目代碼:https://github.com/SuperN1ck/CARTO
本文介紹了一種新穎的方法CARTO,用于從單個(gè)立體RGB觀(guān)測(cè)重建多個(gè)關(guān)節(jié)對(duì)象。作者使用隱式以物體為中心的表示,并為多個(gè)物體類(lèi)別學(xué)習(xí)單個(gè)幾何和關(guān)節(jié)解碼器。盡管在多個(gè)物體類(lèi)別上進(jìn)行訓(xùn)練,作者的解碼器的重建精度與為每個(gè)類(lèi)別分別訓(xùn)練定制的解碼器的方法相當(dāng)。結(jié)合我們的立體圖像編碼器,作者可以在一個(gè)前向傳遞中推斷多個(gè)未知對(duì)象的3D形狀、6D姿態(tài)、大小、關(guān)節(jié)類(lèi)型和關(guān)節(jié)狀態(tài)。與兩階段管道相比,作者的方法在新實(shí)例的mAP 3D IOU50中實(shí)現(xiàn)了20.4%的絕對(duì)改進(jìn)。推理時(shí)間很快,可以在NVIDIA TITAN XP GPU上以1 HZ的速度運(yùn)行,適用于八個(gè)或更少個(gè)物體。雖然只在模擬數(shù)據(jù)上進(jìn)行了訓(xùn)練,但CARTO可以遷移到真實(shí)世界的物體實(shí)例。
作者:Zongrui Li;Qian Zheng; Boxin Shi等人
作者機(jī)構(gòu):National Institute of Informatics (NII)(國(guó)立情報(bào)學(xué)研究所);
論文鏈接:https://arxiv.org/pdf/2303.15724.pdf
本文介紹了SDM-UniPS,一種具有突破性的、可擴(kuò)展的、詳細(xì)的、無(wú)蒙版的和通用的光度立體網(wǎng)絡(luò)。作者的方法可以恢復(fù)驚人復(fù)雜的表面法線(xiàn)圖,甚至在未知的、空間變化的照明條件下在不受控制的環(huán)境中拍攝。作者擴(kuò)展了以前的通用光度立體網(wǎng)絡(luò),提取空間-光特征,利用高分辨率輸入圖像中的所有可用信息,并考慮表面點(diǎn)之間的非局部相互作用。此外,作者提出了一個(gè)新的合成訓(xùn)練數(shù)據(jù)集,包括真實(shí)場(chǎng)景中的各種形狀、材料和照明情況。通過(guò)廣泛的評(píng)估,作者證明了我們的方法不僅在公開(kāi)基準(zhǔn)測(cè)試中比經(jīng)過(guò)校準(zhǔn)的、特定照明技術(shù)表現(xiàn)更好,而且即使沒(méi)有對(duì)象掩模,作者的方法在使用更少的輸入圖像時(shí)也表現(xiàn)出色。
作者:Zongrui Li;Qian Zheng; Boxin Shi等人
作者機(jī)構(gòu):School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore(新加坡南洋理工大學(xué)電氣與電子工程學(xué)院)等
論文鏈接:https://arxiv.org/pdf/2303.15101.pdf
由于未知光線(xiàn)帶來(lái)的固有歧義,未校準(zhǔn)光度立體(UPS)是具有挑戰(zhàn)性的。雖然非朗伯物體減輕了歧義,但對(duì)于引入不規(guī)則陰影和具有類(lèi)似各向異性反射的復(fù)雜物質(zhì)的更普遍的具有復(fù)雜形狀的物體來(lái)說(shuō),問(wèn)題仍然難以解決。為了利用陰影和反射信號(hào)來(lái)解決UPS問(wèn)題并提高對(duì)一般材質(zhì)的性能,作者提出了DANI-Net,一個(gè)具有可微陰影處理和各向異性反射建模的反渲染框架。與大多數(shù)先前使用不可微陰影圖和假設(shè)各向同性物質(zhì)的方法不同,作者的網(wǎng)絡(luò)通過(guò)兩個(gè)可微分路徑受益于陰影和各向異性反射的線(xiàn)索。多個(gè)實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)顯示了作者優(yōu)越而穩(wěn)健的性能。
作者:HyunJun Jung;Patrick Ruhkamp;Guangyao Zhai等人
作者機(jī)構(gòu):Technical University of Munich(慕尼黑工業(yè)大學(xué));Huawei Noah’s Ark Lab(華為Noah’s Ark Lab)等
論文鏈接:https://arxiv.org/pdf/2303.14840.pdf
解決密集三維視覺(jué)問(wèn)題的基于學(xué)習(xí)的方法通常在三維傳感器數(shù)據(jù)上進(jìn)行訓(xùn)練。測(cè)量距離的所使用的原則提供了優(yōu)點(diǎn)和缺點(diǎn)。由于缺乏多模式數(shù)據(jù)集,這些通常不會(huì)在文獻(xiàn)中進(jìn)行比較或討論。無(wú)紋理區(qū)域?qū)τ谶\(yùn)動(dòng)結(jié)構(gòu)和立體成像是有問(wèn)題的,反射材料對(duì)于主動(dòng)感知存在問(wèn)題,透明物體的距離使用現(xiàn)有硬件測(cè)量會(huì)比較棘手。對(duì)不準(zhǔn)確或損壞的數(shù)據(jù)進(jìn)行訓(xùn)練會(huì)產(chǎn)生模型偏差并阻礙了廣泛的適用能力。如果傳感器測(cè)量被認(rèn)為是評(píng)估過(guò)程中的基本事實(shí),這些影響往往會(huì)被忽略。本文研究了傳感器誤差對(duì)深度估計(jì)和重建的密集三維視覺(jué)任務(wù)的影響。作者嚴(yán)謹(jǐn)?shù)卣故玖藗鞲衅魈匦詫?duì)學(xué)習(xí)預(yù)測(cè)的顯著影響,并注意到來(lái)自日常家庭環(huán)境中各種技術(shù)的廣泛?jiǎn)栴}。為評(píng)估,作者引入了一個(gè)經(jīng)過(guò)精心設(shè)計(jì)的數(shù)據(jù)集,包括來(lái)自商品傳感器(D-ToF, I-ToF, 被動(dòng)/主動(dòng)立體和單眼RGB + P)的測(cè)量。作者的研究量化了傳感器噪聲的顯著影響,并為改進(jìn)密集視覺(jué)估計(jì)和目標(biāo)數(shù)據(jù)融合鋪平了道路。
作者:Gangwei Xu ;Xianqi Wang ;Xiaohuan Ding等人
作者機(jī)構(gòu):Huazhong University of Science and Technology(華中科技大學(xué))
論文鏈接:https://arxiv.org/pdf/2303.06615.pdf
項(xiàng)目代碼:https://github.com/gangweiX/IGEV
循環(huán)全對(duì)偶場(chǎng)變換(RAFT)在匹配任務(wù)中展現(xiàn)出了巨大的潛力。然而,全對(duì)偶相關(guān)缺乏非局部的幾何知識(shí)并且難以處理在不定型區(qū)域中的局部歧義。因此,在本文中,作者提出了迭代幾何編碼體(IGEV-Stereo),這是一種用于立體匹配的新型深度網(wǎng)絡(luò)架構(gòu)。所提出的IGEV-Stereo建立了一個(gè)合并的幾何編碼體,編碼了幾何和上下文信息以及局部匹配細(xì)節(jié),并通過(guò)迭代索引來(lái)更新視差圖。為了加速收斂,作者利用GEV來(lái)回歸ConvGRUs迭代的準(zhǔn)確起始點(diǎn)。作者的IGEV-Stereo在KITTI 2015和2012(反射式)的所有已發(fā)布方法中排名第一,并且是前十種方法中速度最快的。此外,IGEV-Stereo具有強(qiáng)大的跨數(shù)據(jù)集泛化能力和高效的推理效率。作者還擴(kuò)展了IGEV到多視圖立體(MVS),即IGEV-MVS,在DTU基準(zhǔn)上取得了競(jìng)爭(zhēng)性的準(zhǔn)確性。
論文題目:Spring: A High-Resolution High-Detail Dataset and Benchmark for Scene Flow, Optical Flow and Stereo
作者:Lukas Mehl ;Jenny Schmalfuss ;Azin Jahedi等人
作者機(jī)構(gòu):Institute for Visualization and Interactive Systems, University of Stuttgart(斯圖加特大學(xué));
論文鏈接:https://arxiv.org/pdf/2303.01943.pdf
項(xiàng)目主頁(yè):https://spring-benchmark.org/
雖然最近的運(yùn)動(dòng)和立體估計(jì)方法恢復(fù)了前所未有的細(xì)節(jié),但是這些高度詳細(xì)的結(jié)構(gòu)在現(xiàn)有基準(zhǔn)數(shù)據(jù)和評(píng)估方法中都沒(méi)有得到充分的反映。因此,作者介紹了Spring-一個(gè)大型的、高分辨率、高細(xì)節(jié)的計(jì)算機(jī)生成場(chǎng)景流、光流和立體基準(zhǔn)。基于開(kāi)源渲染軟件Blender電影“Spring”中的場(chǎng)景,它提供了具有最先進(jìn)視覺(jué)效果和地面真實(shí)訓(xùn)練數(shù)據(jù)的照片級(jí)高清數(shù)據(jù)集。此外,作者提供了一個(gè)網(wǎng)站來(lái)上傳、分析和比較結(jié)果。使用基于超分辨率UHD真實(shí)場(chǎng)景標(biāo)準(zhǔn)的新型評(píng)估方法,作者的Spring基準(zhǔn)可以評(píng)估細(xì)節(jié)結(jié)構(gòu)的質(zhì)量,并提供不同圖像區(qū)域的更詳細(xì)的性能統(tǒng)計(jì)數(shù)據(jù)。就地面真實(shí)幀的數(shù)量而言,Spring比唯一的場(chǎng)景流基準(zhǔn)KITTI 2015大60倍,比經(jīng)過(guò)充分驗(yàn)證的MPI Sintel光流基準(zhǔn)大15倍。最近在作者基準(zhǔn)上的方法的初步結(jié)果表明,估計(jì)細(xì)節(jié)是具有挑戰(zhàn)性的,因?yàn)樗鼈兊木扔泻艽蟮母倪M(jìn)空間。
論文題目:Multi-View Stereo Representation Revisit: Region-Aware MVSNet
作者:Yisu Zhang;Jianke Zhu等人
作者機(jī)構(gòu):Zhejiang University(浙江大學(xué));Alibaba-Zhejiang University Joint Research Institute of Frontier Technologies(阿里巴巴-浙江大學(xué)前沿技術(shù)聯(lián)合研究中心)
論文鏈接:https://arxiv.org/pdf/2303.16447.pdf
項(xiàng)目代碼:https://github.com/xucao-42/mvas
基于深度學(xué)習(xí)的多視角立體已經(jīng)成為一種強(qiáng)大的范例,可以從多個(gè)視角重建完整的幾何細(xì)節(jié)對(duì)象?,F(xiàn)有的大多數(shù)方法僅通過(guò)最小化預(yù)測(cè)點(diǎn)與光線(xiàn)和表面的交點(diǎn)之間的差距來(lái)估計(jì)每個(gè)像素的深度值,這通常忽略了表面拓?fù)浣Y(jié)構(gòu)。這對(duì)于無(wú)紋理區(qū)域和無(wú)法正確重建的表面邊界至關(guān)重要。為了解決這個(gè)問(wèn)題,作者建議利用點(diǎn)到表面距離,使模型能夠感知更廣泛的表面。為此,作者從代價(jià)體中預(yù)測(cè)距離體積,以估計(jì)表面周?chē)c(diǎn)的符號(hào)距離。作者提出的RA-MVSNet是基于補(bǔ)丁感知的,因?yàn)橥ㄟ^(guò)將假設(shè)平面與表面補(bǔ)丁相關(guān)聯(lián),可以增加感知范圍。因此,它可以增加無(wú)紋理區(qū)域的完成度,并減少邊界處的離群值。此外,引入的距離體積可以生成具有精細(xì)細(xì)節(jié)的網(wǎng)格拓?fù)浣Y(jié)構(gòu)。與傳統(tǒng)的基于深度學(xué)習(xí)的多視角立體方法相比,作者提出的RA-MVSNet方法通過(guò)利用符號(hào)距離監(jiān)督獲得了更完整的重構(gòu)結(jié)果。在DTU和Tanks&Temples數(shù)據(jù)集上的實(shí)驗(yàn)證明,我們提出的方法實(shí)現(xiàn)了最先進(jìn)的結(jié)果。