最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICCV 2023 I ELFNet:基于Transformer和深度證據(jù)學(xué)習(xí)的立體匹配

2023-08-14 11:21 作者:3D視覺(jué)工坊  | 我要投稿

本文引入了Evidential Local-global Fusion (ELF)框架,用于解決立體匹配中的可信度估計(jì)和融合問(wèn)題。與傳統(tǒng)方法僅預(yù)測(cè)視差圖不同,作者的模型估計(jì)了基于證據(jù)的視差,考慮了模糊不確定性和認(rèn)知不確定性。通過(guò)正態(tài)逆伽馬分布進(jìn)行證據(jù)融合,實(shí)現(xiàn)了多層次預(yù)測(cè)的內(nèi)部證據(jù)融合和基于成本體積和變換器的立體匹配的證據(jù)間融合。實(shí)驗(yàn)結(jié)果表明,所提出的框架有效地利用了多視角信息,在準(zhǔn)確性和跨域泛化性能上達(dá)到了最先進(jìn)水平。


立體匹配是在給定一對(duì)矯正圖像的情況下,估計(jì)密集視差圖的目標(biāo),是各種應(yīng)用中最基礎(chǔ)的問(wèn)題之一,例如3D重建、自動(dòng)駕駛和機(jī)器人導(dǎo)航。借助卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,許多立體匹配模型通過(guò)構(gòu)建代價(jià)體積并使用3D卷積的方式取得了有希望的性能。最近,借助transformer的支持,提出了利用自注意和交叉注意機(jī)制來(lái)利用全局信息的方法,為立體匹配帶來(lái)了一種替代方法。盡管性能有所改善,但立體匹配結(jié)果的不確定性量化一直被忽視?,F(xiàn)有立體匹配中經(jīng)常出現(xiàn)過(guò)于自信的預(yù)測(cè),限制了算法的部署,特別是在安全關(guān)鍵應(yīng)用中。深度學(xué)習(xí)模型在解釋性方面容易出現(xiàn)不可靠,特別是在面對(duì)域之外、低質(zhì)量或受擾動(dòng)的樣本時(shí)。在立體匹配領(lǐng)域尤為如此,模型首先在大規(guī)模合成數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并在來(lái)自真實(shí)場(chǎng)景的較小數(shù)據(jù)集上進(jìn)行微調(diào)。這使得不確定性估計(jì)成為防止基于立體匹配結(jié)果的潛在災(zāi)難性決策的重要組成部分。同時(shí),立體匹配中廣泛存在多視角互補(bǔ)信息,但如何有效和高效地利用它們提高準(zhǔn)確性仍然是一個(gè)挑戰(zhàn)。例如,使用多尺度金字塔式代價(jià)體積可以提供從特征提取器獲取的由粗到精的知識(shí),但當(dāng)前的融合方法未考慮不同尺度的不確定性,導(dǎo)致集成不可信和不完整。另外,基于代價(jià)體積的方法和基于transformer的方法提供了完全不同的處理立體對(duì)策略:前者通過(guò)卷積聚合局部特征,后者使用transformer捕捉全局信息進(jìn)行密集匹配。我們發(fā)現(xiàn)這兩種方法互為補(bǔ)充。例如,如圖1(c)和1(d)的紅色區(qū)塊所示,基于代價(jià)體積的模型在光照變化較大的區(qū)域不穩(wěn)定,而基于transformer的模型在復(fù)雜的局部紋理上利用不充分。在這種情況下,不確定性估計(jì)是在不增加過(guò)多計(jì)算負(fù)載的同時(shí),讓多視信息之間具有可信的融合策略的潛在模塊?;谶@些動(dòng)機(jī),作者提出了一種基于證據(jù)的局部-全局融合(ELF)立體匹配框架。該框架通過(guò)利用深度證據(jù)學(xué)習(xí)同時(shí)實(shí)現(xiàn)不確定性估計(jì)和可靠融合。具體而言,作者在模型的每個(gè)分支中采用可信的頭部來(lái)計(jì)算伴隨視差的不確定性。為了同時(shí)整合多尺度的代價(jià)體積信息和基于卷積和transformer的方法之間的互補(bǔ)信息,作者提出了一種基于混合正態(tài)-逆Gamma分布(MoNIG)的內(nèi)部證據(jù)融合模塊和外部證據(jù)融合模塊。這里也推薦「3D視覺(jué)工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測(cè)中的視覺(jué)Transformer》。

作者:小張Tt ?| 來(lái)源:計(jì)算機(jī)視覺(jué)工坊

在公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。

添加微信:dddvisiona,備注:立體匹配,拉你入群。文末附行業(yè)細(xì)分群。

作者的貢獻(xiàn)可以總結(jié)如下:

  • 作者將深度證據(jù)學(xué)習(xí)引入了基于成本體積和基于 Transformer 的立體匹配中,用于估計(jì)隨機(jī)不確定性和認(rèn)知不確定性;

  • 作者提出了一種新穎的證據(jù)局部-全局融合(ELF)框架,它能夠?qū)崿F(xiàn)不確定性估計(jì)和基于證據(jù)的兩階段信息融合;

  • 作者進(jìn)行了全面的實(shí)驗(yàn)證明,設(shè)計(jì)的ELFNet在準(zhǔn)確性和跨領(lǐng)域泛化方面始終提升了性能。

本文綜述了在深度立體匹配領(lǐng)域中的兩種主要研究方法:基于成本體積和基于Transformer?;诔杀倔w積的方法通過(guò)構(gòu)建三維成本體積來(lái)進(jìn)行立體匹配,但在處理大規(guī)模輸入時(shí)存在內(nèi)存和計(jì)算復(fù)雜度的問(wèn)題?;赥ransformer的方法通過(guò)注意力機(jī)制來(lái)建模長(zhǎng)程全局信息,但在處理局部紋理細(xì)節(jié)時(shí)效果不佳。為了提高整體性能,本文建議將基于成本體積和基于Transformer的方法進(jìn)行融合,以捕捉互補(bǔ)的信息。此外,本文還討論了不確定性估計(jì)在深度學(xué)習(xí)中的重要性,并介紹了幾種不確定性估計(jì)方法,包括貝葉斯神經(jīng)網(wǎng)絡(luò)、蒙特卡洛dropout和深度集成等。最后,本文擴(kuò)展了深度證據(jù)學(xué)習(xí)方法,利用內(nèi)部和外部證據(jù)融合策略來(lái)提高立體匹配任務(wù)中不確定性估計(jì)的性能。

本文介紹了Evidential Localglobal Fusion(ELF)框架,該框架基于不確定性估計(jì)用于立體匹配。網(wǎng)絡(luò)架構(gòu)由三個(gè)部分組成:基于代價(jià)體積的具有內(nèi)部證據(jù)融合的模塊、基于變換器的模塊和具有外部證據(jù)融合的模塊。通過(guò)金字塔組合網(wǎng)絡(luò)和可信賴(lài)的立體變換器,作者可以預(yù)測(cè)分布參數(shù){δlocal, γlocal, αlocal, βlocal}和{δglobal, γglobal, αglobal, βglobal}。通過(guò)利用正態(tài)-逆伽瑪分布的多視角混合,可以從整合分布{δ, γ, α, β}中進(jìn)而推導(dǎo)出aleatoric不確定性和epistemic不確定性。

本節(jié)介紹了立體匹配中的證據(jù)深度學(xué)習(xí)方法。通過(guò)建模視差的分布,使用正態(tài)和逆伽瑪分布對(duì)視差的均值和方差進(jìn)行建模。通過(guò)求取后驗(yàn)分布,可以計(jì)算出視差、aleatoric不確定性和epistemic不確定性。在訓(xùn)練過(guò)程中,使用負(fù)對(duì)數(shù)模型證據(jù)作為損失函數(shù),并引入正則化項(xiàng)來(lái)減少錯(cuò)誤預(yù)測(cè)的證據(jù)。通過(guò)期望值的形式定義總的不確定性損失,用于訓(xùn)練深度模型進(jìn)行密集立體匹配任務(wù)。

在立體匹配中,通過(guò)使用不同的網(wǎng)絡(luò)結(jié)構(gòu),可以實(shí)現(xiàn)不確定性估計(jì)。在基于代價(jià)體的方法中,通過(guò)替換視差回歸模塊為可信回歸模塊,利用兩個(gè)3D卷積分支和Mish激活來(lái)輸出分布參數(shù),從而更準(zhǔn)確地估計(jì)NIG分布的參數(shù)。而在基于Transformer的方法中,采用交叉和自注意機(jī)制,通過(guò)最優(yōu)傳輸模塊回歸視差和遮擋概率,并通過(guò)一個(gè)不確定性頭生成參數(shù)。通過(guò)這些方法,可以提高立體匹配的不確定性估計(jì)結(jié)果的校準(zhǔn)性。

在融合策略中,作者使用混合正態(tài)逆伽瑪分布(MoNIG)來(lái)進(jìn)行證據(jù)的融合。通過(guò)計(jì)算多個(gè)NIG分布的混合來(lái)得到MoNIG分布。融合操作通過(guò)對(duì)各個(gè)分布的參數(shù)進(jìn)行加權(quán)求和,得到組合分布的參數(shù)。這種融合策略可以同時(shí)考慮到期望的置信水平和組合分布與各個(gè)單獨(dú)分布之間的方差,從而提供了有關(guān)于aleatoric和epistemic不確定性的信息。

在基于代價(jià)體立體匹配中,作者使用多尺度代價(jià)體和代價(jià)體融合模塊來(lái)提取不同尺度的特征,并通過(guò)代價(jià)聚合和可信回歸模塊生成NIG分布的參數(shù)。然后,通過(guò)內(nèi)部證據(jù)融合模塊將多個(gè)NIG分布集成為一個(gè)分布,作為最終的金字塔融合結(jié)果。這種基于內(nèi)部證據(jù)融合的策略能夠從多尺度特征中整合出可靠的輸出。

卷積模型和Transformer模型在立體匹配中各有優(yōu)勢(shì),卻有著不同的焦點(diǎn)。為了整合這兩種方法的預(yù)測(cè)結(jié)果,作者采用了MoNIG分布進(jìn)行相互證據(jù)融合,并基于不確定性進(jìn)行融合策略。具體而言,利用公式將局部和全局預(yù)測(cè)結(jié)果進(jìn)行融合,得到最終的分布。

作者定義了局部輸出、全局輸出和最終合并輸出的不確定性損失,并且利用Transformer模塊獲得了注意力權(quán)重和遮擋概率。除此之外,作者采用了相對(duì)響應(yīng)損失和二值熵?fù)p失函數(shù)來(lái)增強(qiáng)模型的準(zhǔn)確性。最終的損失函數(shù)通過(guò)權(quán)重λi來(lái)控制不同損失的重要性。

作者在各種數(shù)據(jù)集上評(píng)估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者進(jìn)行不確定性分析,探討模型性能和不確定性之間的關(guān)系。

作者使用了FlyingThings3D子集、KITTI 2012、KITTI 2015和Middlebury 2014數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估。評(píng)估指標(biāo)包括端點(diǎn)誤差、視差異常點(diǎn)百分比和超過(guò)3像素的誤差百分比。

作者的ELF框架可以與基于Transformer和多尺度成本體積的模型兼容。在實(shí)驗(yàn)中,作者選擇了STTR作為基于Transformer的部分,PCWNet作為基于成本體積的部分。作者使用AdamW優(yōu)化器進(jìn)行端到端訓(xùn)練,并在Scene Flow FlyingThings3D子集上進(jìn)行預(yù)訓(xùn)練。實(shí)驗(yàn)中采用了數(shù)據(jù)增強(qiáng)技術(shù),并在NVIDIA RTX 3090 GPU上進(jìn)行了實(shí)驗(yàn)。

通過(guò)與多種最先進(jìn)方法的比較,作者的方法在Scene Flow數(shù)據(jù)集上取得了優(yōu)秀的性能。在EPE和D1-1px兩個(gè)指標(biāo)下,作者的方法均優(yōu)于其他方法。具體來(lái)說(shuō),在Disparity < 192的設(shè)置下,相較于最好的方法CSTR,作者的方法在EPE上提升了19.5%,在D1-1px上提升了9.2%。在All Pixels設(shè)置下,相較于當(dāng)前最先進(jìn)方法,作者的方法將EPE減少了11.2%。同時(shí),作者的ELFNet在視差估計(jì)準(zhǔn)確性上超越了基于cost-volume和基于transformer模型,同時(shí)保持了transformer提供的遮擋估計(jì)能力。與STTR相比,作者的方法在遮擋交集聯(lián)合分?jǐn)?shù)上達(dá)到了相當(dāng)水平。這些結(jié)果表明了作者方法的有效性和優(yōu)越性。

消融實(shí)驗(yàn)通過(guò)對(duì)ELF框架中各個(gè)模塊的驗(yàn)證,證明了其各個(gè)設(shè)計(jì)的不可或缺性,并驗(yàn)證了證據(jù)融合在性能提升中的關(guān)鍵作用。具體而言,消融實(shí)驗(yàn)結(jié)果表明,不確定性估計(jì)模塊、跨證據(jù)融合模塊和內(nèi)部證據(jù)融合模塊對(duì)性能的提升都起到了重要作用。在Scene Flow數(shù)據(jù)集上,ELF框架通過(guò)提供不確定性估計(jì)、跨證據(jù)融合和內(nèi)部證據(jù)融合的設(shè)計(jì),將EPE減少了21.4%,并在D1-1px指標(biāo)上優(yōu)于基準(zhǔn)方法。

通過(guò)與其他后期融合策略的比較,作者的ELFNet在Scene Flow數(shù)據(jù)集上展現(xiàn)出卓越的性能。與簡(jiǎn)單取平均或使用卷積層后期融合相比,ELFNet通過(guò)有效地結(jié)合基于cost-volume的模型和基于transformer的模型,取得了改進(jìn)的結(jié)果,表明了其強(qiáng)大的融合能力和優(yōu)越性能。

通過(guò)在真實(shí)世界數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),作者證明了在零樣本設(shè)置下,作者在合成的Scene Flow數(shù)據(jù)集上預(yù)訓(xùn)練的ELFNet具有強(qiáng)大的跨域泛化能力。與現(xiàn)有最先進(jìn)模型相比,ELFNet在Middlebury 2014和KITTI 2012數(shù)據(jù)集上分別取得了顯著的EPE和D1-3px分?jǐn)?shù)的提升。同時(shí),在KITTI 2015數(shù)據(jù)集上也取得了具有競(jìng)爭(zhēng)力的泛化結(jié)果。這些實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了ELFNet的優(yōu)越性能和廣泛適用性。

本文研究了通過(guò)深度證據(jù)學(xué)習(xí)進(jìn)行的不確定性估計(jì),并提供了歸因不確定性和知識(shí)不確定性的分析結(jié)果。結(jié)果顯示,在模型從數(shù)據(jù)中學(xué)習(xí)更多信息時(shí),不確定性逐漸減小。通過(guò)在不同數(shù)據(jù)集上進(jìn)行皮爾遜相關(guān)分析,發(fā)現(xiàn)不確定性與準(zhǔn)確性之間存在正相關(guān)關(guān)系。不同數(shù)據(jù)分布下的不同類(lèi)型的誤差更可能與不同類(lèi)型的不確定性相關(guān)。研究還發(fā)現(xiàn),估計(jì)的不確定性還受到模型架構(gòu)、訓(xùn)練策略和數(shù)據(jù)噪聲等因素的影響。此外,在定性結(jié)果中觀(guān)察到,在遮擋和邊界區(qū)域分配了較高的不確定性,并且不確定性圖在誤差發(fā)生的區(qū)域也顯示活躍,這表明不確定性圖為誤差估計(jì)提供了線(xiàn)索。這里也推薦「3D視覺(jué)工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測(cè)中的視覺(jué)Transformer》。

盡管ELFNet能夠進(jìn)行不確定性估計(jì)并取得不少改進(jìn),但其推理速度存在限制。由于ELFNet涉及到兩個(gè)獨(dú)立的部分,因此需要更多的時(shí)間。為了改進(jìn)推理速度,未來(lái)的研究可以考慮采用高效的方法,如構(gòu)建自適應(yīng)和稀疏的代價(jià)體積。

本文提出了一種基于證據(jù)的局部-全局融合(ELF)框架,用于可靠地融合多視圖信息進(jìn)行立體匹配。通過(guò)利用深度證據(jù)學(xué)習(xí)來(lái)估計(jì)多層次的歸因和知識(shí)不確定性,作者的模型能夠在準(zhǔn)確性和泛化性能方面表現(xiàn)出色。這為基于證據(jù)的融合策略提供了可靠的支持,并且能夠利用互補(bǔ)的知識(shí)進(jìn)一步提升立體匹配的性能。

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向。

細(xì)分群包括:

[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;

[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;

[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。

[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。

大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。


ICCV 2023 I ELFNet:基于Transformer和深度證據(jù)學(xué)習(xí)的立體匹配的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
桃园县| 阳东县| 红安县| 清河县| 佛教| 辽宁省| 邛崃市| 黑水县| 龙门县| 阳谷县| 松原市| 齐河县| 康保县| 三江| 上犹县| 囊谦县| 廊坊市| 洛浦县| 盖州市| 三门县| 沭阳县| 新闻| 应城市| 高州市| 衢州市| 和龙市| 利川市| 呼玛县| 米林县| 灵丘县| 会宁县| 吴江市| 英吉沙县| 新和县| 高唐县| 平阳县| 二连浩特市| 江口县| 新余市| 西青区| 岳阳县|