最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

第二屆單目深度估計(jì)挑戰(zhàn)賽冠軍,零樣本單圖像度量3D預(yù)測(cè)!

2023-08-19 14:52 作者:3D視覺(jué)工坊  | 我要投稿

Yin W, Zhang C, Chen H最新文章:零樣本單圖像度量3D預(yù)測(cè),已被ICCV 2023接受,計(jì)算機(jī)視覺(jué)工坊有幸邀請(qǐng)到作者與大家一起分享,如果您有相關(guān)工作需要分享,文末可以聯(lián)系我們!

作者:Yin W, Zhang C, Chen H | 來(lái)源:3DCV

在公眾號(hào)「3DCV」后臺(tái),回復(fù)「原論文」即可獲取pdf和代碼。

添加微信:dddvisiona,備注:SLAM,拉你入群。文末附行業(yè)細(xì)分群。


由于單圖像重建的不穩(wěn)定,從圖像中重建精確的3D場(chǎng)景大多數(shù)都建立在多視圖幾何的基礎(chǔ)上。目前最好的單目度量深度估計(jì)方法只能處理單個(gè)相機(jī)模型,由于度量的模糊性,無(wú)法進(jìn)行混合數(shù)據(jù)訓(xùn)練,而且在大型混合數(shù)據(jù)集上訓(xùn)練的單目方法通過(guò)學(xué)習(xí)仿射不變深度來(lái)實(shí)現(xiàn)零樣本泛化,而仿射不變深度不能恢復(fù)真實(shí)世界的度量。

為此,在這項(xiàng)工作中,作者表明零樣本單視圖測(cè)量深度模型的關(guān)鍵在于大規(guī)模數(shù)據(jù)訓(xùn)練和解決來(lái)自各種相機(jī)模型的度量模糊性。提出了一個(gè)相機(jī)空間轉(zhuǎn)換模塊來(lái)解決模糊問(wèn)題,并且可以插入到現(xiàn)有的單目模型中,通過(guò)數(shù)千個(gè)相機(jī)模型訓(xùn)練超過(guò)800萬(wàn)張圖像從而實(shí)現(xiàn)對(duì)具有看不見(jiàn)相機(jī)設(shè)置的現(xiàn)場(chǎng)圖像的零樣本泛化。

其方法在7個(gè)零樣本基準(zhǔn)上實(shí)現(xiàn)SOTA,并在第二屆單目深度估計(jì)挑戰(zhàn)賽中獲得了冠軍。能夠在隨機(jī)收集的互聯(lián)網(wǎng)圖像上恢復(fù)度量三維結(jié)構(gòu),同時(shí)可以延伸到下游任務(wù),即插入其模型就可以顯著改善某些任務(wù)。例如,可以緩解了單目SLAM的尺度漂移問(wèn)題。

(1)提出了一種正則和非正則的相機(jī)變換方法來(lái)解決各種相機(jī)設(shè)置下的度量深度模糊問(wèn)題。能夠從大規(guī)模數(shù)據(jù)集學(xué)習(xí)強(qiáng)大的零樣本單目測(cè)量深度模型。

(2)提出一種隨機(jī)歸一化損失,有效提高深度精度.

(3)模型在7個(gè)零樣本基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能??梢栽谝巴鈭?zhí)行高質(zhì)量的3D度量結(jié)構(gòu)恢復(fù),并有利于幾個(gè)下游任務(wù),如單目SLAM、3D場(chǎng)景重建。

根據(jù)預(yù)測(cè)的深度,現(xiàn)有方法可以分為學(xué)習(xí)度量深度、學(xué)習(xí)相對(duì)深度和學(xué)習(xí)仿射不變深度,其中度量深度方法必須在具有相同相機(jī)性質(zhì)的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,因此度量深度方法的訓(xùn)練數(shù)據(jù)集通常很小,很難使用一臺(tái)相同的相機(jī)收集覆蓋不同場(chǎng)景的大數(shù)據(jù)集,所以這些模型都是不可泛化的,對(duì)野外圖像的泛化能力很差。學(xué)習(xí)相對(duì)深度,它表示一點(diǎn)離另外一點(diǎn)是近還是遠(yuǎn),相對(duì)深度的應(yīng)用非常有限。學(xué)習(xí)度量深度在訓(xùn)練過(guò)程中解耦度量信息,并實(shí)現(xiàn)了令人印象深刻的魯棒性和泛化能力,但是最近最先進(jìn)的LeReS可以在野外恢復(fù)3D場(chǎng)景,但只能恢復(fù)到未知的規(guī)模和偏移。推薦學(xué)習(xí)3D視覺(jué)工坊近期開(kāi)設(shè)的課程:面向三維視覺(jué)算法的C++重要模塊精講:從零基礎(chǔ)入門(mén)到進(jìn)階

這項(xiàng)工作的重點(diǎn)是學(xué)習(xí)零樣本可轉(zhuǎn)移模型以恢復(fù)單一圖像的度量三維信息。為此,分析了單目深度估計(jì)中的度量模糊問(wèn)題,并研究了不同的相機(jī)深度參數(shù)的影響,包括像素大小、焦距和傳感器大小。觀察到焦距是精確度量恢復(fù)的關(guān)鍵因素。

在訓(xùn)練中提出了一種規(guī)范的相機(jī)變換方法。靈感來(lái)源于人體重建方法,為了提高姿勢(shì)的重建形狀質(zhì)量,人體重建將所有樣本映射到規(guī)范姿勢(shì)空間以減少姿勢(shì)方差。類(lèi)似地,作者將所有訓(xùn)練數(shù)據(jù)轉(zhuǎn)換到規(guī)范相機(jī)空間,在該空間中,處理后的圖像被粗略地視為由同一相機(jī)捕獲。為了實(shí)現(xiàn)這種轉(zhuǎn)變提出了兩種不同的方法。第一種方法試圖調(diào)整圖像外觀以模擬標(biāo)準(zhǔn)相機(jī),而另一種方法則轉(zhuǎn)換地面真實(shí)標(biāo)簽以進(jìn)行監(jiān)督。相機(jī)模型沒(méi)有在網(wǎng)絡(luò)中編碼,這使得適用于現(xiàn)有的架構(gòu)。在推理過(guò)程中,采用去規(guī)范變換來(lái)恢復(fù)度量信息。

下圖展示了不同相機(jī)在不同距離拍攝的照片。

僅從圖像的外觀來(lái)看,人們可能會(huì)認(rèn)為最后兩張照片是由同一臺(tái)相機(jī)在相似的位置拍攝的。事實(shí)上,由于焦距不同,這些都是在不同的位置拍攝的。因此,相機(jī)固有參數(shù)對(duì)于從單個(gè)圖像的度量估計(jì)至關(guān)重要。

下圖中A展示了一個(gè)簡(jiǎn)單的針孔透視投影,

位于da的目標(biāo)A被投影到A′,基于相似性原理,可得方程:

其中,S和S′分別是真實(shí)大小和成像大小。要從單個(gè)圖像中恢復(fù)da,必須提供焦距、目標(biāo)的成像大小和真實(shí)世界中的大小。

但是從單個(gè)圖像中估計(jì)焦距是一個(gè)具有挑戰(zhàn)性和不適定性的問(wèn)題。作者假設(shè)訓(xùn)練/測(cè)試圖像的焦距可知來(lái)簡(jiǎn)化問(wèn)題。

傳感器大小和像素大小不影響度量深度估計(jì)。

基于透視投影,傳感器尺寸只影響視場(chǎng)(FOV),與α無(wú)關(guān),因此不影響度量深度估計(jì)。對(duì)于像素大小,假設(shè)兩個(gè)具有不同像素大小但焦距相同的相機(jī)來(lái)捕捉位于da的同一物體。圖中B顯示了它們捕捉的照片。像素表示的焦距。由于第二臺(tái)相機(jī)具有較小的像素大小,盡管在相同的投影成像大小中,像素表示的圖像分辨率為。根據(jù)透視投影公式,,即α1=α2,因此d1=d2。因此,不同的相機(jī)傳感器不會(huì)影響度量深度估計(jì)。

焦距對(duì)于度量深度估計(jì)至關(guān)重要

下圖說(shuō)明了這一點(diǎn)。

如果兩個(gè)相機(jī)處于距離處,則相機(jī)上的成像尺寸相同。因此僅僅從外觀上看,當(dāng)用不同的標(biāo)簽進(jìn)行監(jiān)督時(shí),網(wǎng)絡(luò)就會(huì)被混淆?;谶@一觀察提出了一種規(guī)范的相機(jī)變換方法來(lái)解決監(jiān)督和圖像外觀的沖突。

核心思想是建立一個(gè)規(guī)范的相機(jī)空間,并將所有訓(xùn)練數(shù)據(jù)轉(zhuǎn)換到該空間。因此所有數(shù)據(jù)都可以粗略地被認(rèn)為是由規(guī)范相機(jī)捕獲的。

提出了兩種變換方法,即變換輸入圖像或GT label。原始的內(nèi)部函數(shù)是.

變換深度標(biāo)簽

第一種方法直接轉(zhuǎn)換GT深度標(biāo)簽來(lái)解決這個(gè)問(wèn)題。具體的,在訓(xùn)練中用比率來(lái)縮放GT深度(D*),即。原始相機(jī)模型被轉(zhuǎn)換為。在推理中,預(yù)測(cè)深度(Dc)在正則空間中,需要執(zhí)行去正則變換來(lái)恢復(fù)度量信息,即。

變換輸入圖像

從另一個(gè)角度來(lái)看,模糊性是由相似的圖像外觀引起的。因此對(duì)輸入圖像進(jìn)行變換以模擬典型的相機(jī)成像效果。具體的,圖像I的大小調(diào)整為比率,,即,其中表示圖像調(diào)整后的大小。然后調(diào)整光學(xué)中心的大小,因此標(biāo)準(zhǔn)相機(jī)模型為。在沒(méi)有任何縮放的情況下調(diào)整GT標(biāo)簽的大小,即。在推理中,去正則變換是在不縮放的情況下將預(yù)測(cè)調(diào)整到原始大小,即

在執(zhí)行任一轉(zhuǎn)換后,隨機(jī)裁剪一個(gè)patch進(jìn)行訓(xùn)練。裁剪只調(diào)整FOV和光學(xué)中心,因此不會(huì)引起任何度量模糊問(wèn)題。在標(biāo)簽變換方法中 and ,,而在圖像變換方法中 and。訓(xùn)練目標(biāo)如下:

混合數(shù)據(jù)訓(xùn)練是提高泛化能力的有效方法。收集了11個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,在混合數(shù)據(jù)中,包括超過(guò)10K個(gè)不同的相機(jī)。所有收集的訓(xùn)練數(shù)據(jù)都包括成對(duì)的相機(jī)固有參數(shù),這些參數(shù)在正則變換模塊中使用。

為了進(jìn)一步提高性能提出了一種隨機(jī)歸一化損失。其建議從GT和預(yù)測(cè)的深度中隨機(jī)裁剪幾個(gè)補(bǔ)丁,然后對(duì)成對(duì)的patch使用中值絕對(duì)偏差歸一化,通過(guò)對(duì)局部統(tǒng)計(jì)數(shù)據(jù)進(jìn)行歸一化可以增強(qiáng)局部對(duì)比度。損失函數(shù)如下:

在訓(xùn)練期間從圖像中隨機(jī)裁剪0.125到0.5的原始大小。此外還采用了其他幾種損失,包括標(biāo)度不變對(duì)數(shù)損失Lsilog、成對(duì)正態(tài)回歸損失LPWN、虛擬正態(tài)損失LVNL??倱p失如下:

收集了11個(gè)公共RGB-D數(shù)據(jù)集,以及超過(guò)800萬(wàn)個(gè)用于訓(xùn)練的數(shù)據(jù)。分布在不同的室內(nèi)和室外場(chǎng)景中。所有數(shù)據(jù)集都提供了相機(jī)內(nèi)部參數(shù)。除了訓(xùn)練數(shù)據(jù)集的測(cè)試分割外,還收集了7個(gè)未發(fā)現(xiàn)的數(shù)據(jù)集用于穩(wěn)健性和泛化評(píng)估。

采用具有ConvNext-large backbone的UNet架構(gòu),用ImageNet-22K預(yù)先訓(xùn)練的權(quán)重初始化。使用批量大小為192的AdamW,所有層的初始學(xué)習(xí)率為0.0001,多項(xiàng)式衰減方法的冪為0.9。在48個(gè)A100 GPU上訓(xùn)練的最終模型進(jìn)行500K迭代,在一個(gè)小批量中平衡所有數(shù)據(jù)集以確保每個(gè)數(shù)據(jù)集的比例幾乎相等。在訓(xùn)練過(guò)程中,圖像由標(biāo)準(zhǔn)相機(jī)變換模塊處理,以50%的幾率水平翻轉(zhuǎn),然后隨機(jī)裁剪成512×960像素。

在8個(gè)零樣本基準(zhǔn)上進(jìn)行了測(cè)試,包括NYUv2、KITTI、NuScenes、7-scenes , iBIMS-1, DIODE , ETH3D。推薦學(xué)習(xí)3D視覺(jué)工坊近期開(kāi)設(shè)的課程:面向三維視覺(jué)算法的C++重要模塊精講:從零基礎(chǔ)入門(mén)到進(jìn)階

為了評(píng)估預(yù)測(cè)度量深度的準(zhǔn)確性,首先在NYUv2、KITTI上與最先進(jìn)的(SOTA)度量深度預(yù)測(cè)方法進(jìn)行了比較。

主要與SOTA度量深度估計(jì)方法進(jìn)行比較,并分別進(jìn)行室內(nèi)和室外場(chǎng)景評(píng)估。從表中分析,盡管7Scene與NYUv2相似,NuScene與KITTI相似,但現(xiàn)有方法的性能明顯下降。相比之下,作者的模型更穩(wěn)健。

仿射不變深度基準(zhǔn)將尺度效應(yīng)解耦,旨在評(píng)估模型對(duì)不同場(chǎng)景的泛化能力。在5個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,并在評(píng)估前手動(dòng)調(diào)整尺度并轉(zhuǎn)移到GT深度。結(jié)果如表4所示。盡管作者的方法強(qiáng)制網(wǎng)絡(luò)恢復(fù)更具挑戰(zhàn)性的度量信息,但在大多數(shù)數(shù)據(jù)集上都大大優(yōu)于其他方法。

三維場(chǎng)景重建效果比較:

slam效果比較:

解決了從單個(gè)單目圖像重建3D度量場(chǎng)景的問(wèn)題。為了解決不同焦距引起的圖像外觀深度模糊問(wèn)題,提出了一種規(guī)范的相機(jī)空間變換方法。為了提高魯棒性,收集了超過(guò)8M的數(shù)據(jù)進(jìn)行訓(xùn)練。幾項(xiàng)零樣本評(píng)估顯示了模型的有效性和穩(wěn)健性。

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。

第二屆單目深度估計(jì)挑戰(zhàn)賽冠軍,零樣本單圖像度量3D預(yù)測(cè)!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
三门县| 聊城市| 宜兰县| 宜良县| 会昌县| 易门县| 桂阳县| 新竹县| 许昌市| 敦化市| 凤庆县| 轮台县| 莫力| 宜春市| 昭苏县| 凤凰县| 新泰市| 常熟市| 嘉定区| 察隅县| 关岭| 云浮市| 习水县| 石棉县| 昌平区| 新乡市| 乌鲁木齐县| 鹰潭市| 梁河县| 武强县| 浦江县| 德清县| 长兴县| 安陆市| 沾化县| 凤翔县| 绩溪县| 侯马市| 卫辉市| 仪征市| 海淀区|