ECCV 2020 | 基于分割一致性的單目自監(jiān)督三維重建
概述
本文主要從二維圖像及其輪廓的集合中,學(xué)習(xí)一個自監(jiān)督的、單視圖的三維重建模型,預(yù)測目標物體的3D網(wǎng)格形狀、紋理和相機位姿。提出的方法不需要3D監(jiān)督、注釋的關(guān)鍵點、物體的多視圖或者一個先驗的網(wǎng)格模板。關(guān)鍵之處在于,物體可以表示為可形變部分的集合,在同一類別的不同實例中,每個部分在語義上是一致的。
注1:文末附【三維重建】交流群
注2:計算機視覺書籍匯總
注3:整理不易,請點贊支持!
作者:Longway | 來源:3D視覺工坊微信公眾號
利用這一點,可以有效地增強重構(gòu)網(wǎng)格與原始圖像之間的語義一致性,這大大減少了在預(yù)測物體的形狀、相機位姿以及紋理時的模糊性。實驗結(jié)果表明,這是第一個嘗試解決單視圖三維重建問題、沒有使用特定類別的網(wǎng)格模型或者語義關(guān)鍵點的方法。
簡介
同時從2D圖像中恢復(fù)3D形狀、紋理和相機位姿是一個高度不適定的問題,因為其固有的歧義。現(xiàn)存有很多方法解決這個問題,但是這些監(jiān)督信息需要大量工作,因此將其泛化到許多缺乏此類注釋的對象類別時非常具有挑戰(zhàn)性。另一方面,只使用特定類別的單視圖圖像集合,而不使用其他監(jiān)督信號學(xué)習(xí)重建仍然存在挑戰(zhàn)。
原因在于,沒有監(jiān)督信號將導(dǎo)致錯誤的三維重建,一個典型的故障案例是由“相機-形狀歧義”引起的。錯誤預(yù)測的相機位姿和形狀導(dǎo)致渲染圖像和物體邊界與輸入的2D圖像和其輪廓非常匹配,如下圖(c)和(d)所示。

有趣的是,人類可以通過聯(lián)合部分來重建整體,例如鳥有兩條腿、兩只翅膀和一個頭。通過觀察物體的一部分,人類就可以粗略地推斷出任何物體的相機位姿和3D形狀。在計算機視覺中,相似的思想是通過變形模型的部分表達的,物體被表示為一組可以變形的零件。
受到這個idea的啟發(fā),作者實現(xiàn)了從圖像和輪廓的集合中學(xué)習(xí)單視圖的重建模型。利用二維和三維空間中的語義部分,以及它們的一致性來正確估計形狀和相機姿態(tài)。

上圖展示了語義一致性的自監(jiān)督,(a)是相同類別的不同物體,(b)是通過自監(jiān)督對每個部分進行語義分割,(c)是特定類別的規(guī)范語義UV映射,(d)是網(wǎng)格上的語義分割,后面表示單視圖的3D網(wǎng)格重建和不同視角的重建結(jié)果。
總的來說,本文的主要貢獻之處在于:進行單視圖重建而不需要其他形式的監(jiān)督信號;利用特定類別實例對象的語義部分不變性屬性作為可變形的部件模型;通過迭代學(xué)習(xí)從頭開始學(xué)習(xí)一個類別級的3D形狀模板。
相關(guān)工作
3D形狀表示:對于3D模型有很多表示方法,例如點云、隱式曲面、三角網(wǎng)格和體素。其中,盡管體素和點云更適合深度學(xué)習(xí)框架,但是它們存在內(nèi)存受限或者不能夠渲染等問題。因此,本文選擇三角網(wǎng)格作為3D模型的表示方法。
單視圖三維重建:單視圖三維重建旨在通過給定的單張輸入圖像重建3D模型,有很多工作在不同監(jiān)督的程度下探討這一問題。例如利用圖像和真實3D網(wǎng)格作為監(jiān)督,或者使用可微渲染器和綜合分析的方法。
為了進一步減少監(jiān)督的限制,Kanazawa等[1]探索了從不同實例的圖像集合中進行3D重建,但是他們的方法仍然需要標注的2D關(guān)鍵點來正確的推斷相機位姿。其他方法中也使用了類似的方法,但是受限于剛體或者結(jié)構(gòu)化的物體,不能泛化到其他模型。
自監(jiān)督對應(yīng)學(xué)習(xí):本文的工作還涉及到自監(jiān)督的學(xué)習(xí),利用自監(jiān)督的協(xié)同部分分割來加強語義一致性,這最初是純粹針對2D圖像提出的。[2]學(xué)習(xí)一個映射函數(shù),該函數(shù)以自監(jiān)督的方式將2D圖像中的像素映射到預(yù)定義的類別級的模板,但是沒有學(xué)習(xí)對應(yīng)的三維重建。
方法
為了從單張圖像中完全重建物體實例的三維網(wǎng)格,網(wǎng)絡(luò)應(yīng)該能夠同時預(yù)測物體的形狀、紋理和圖像的相機位姿。用現(xiàn)有網(wǎng)絡(luò)(CMR)[1]作為初始的重建網(wǎng)絡(luò)。輸入一張圖片,CMR使用編碼器E提取出圖像特征,使用三個解碼器Dshape、Dcamera和Dtexture分別預(yù)測網(wǎng)格模型、相機位姿和網(wǎng)格紋理。
CMR方法效果比較好的關(guān)鍵原因之一是利用了標注的關(guān)鍵語義點精確地估計了每個實例的相機位姿,并且有模板網(wǎng)格作為先驗知識。但是,注釋關(guān)鍵點非常繁瑣,對于新的類別不適用。因此,作者提出了一種更容易擴展、更具有挑戰(zhàn)性的自監(jiān)督方法,如下圖所示。

其中,(1)綠色的框表示重建網(wǎng)絡(luò),和[1]中的架構(gòu)相同。(2)紅色的框表示語義一致性約束,它規(guī)范了模塊(1)的學(xué)習(xí),并在很大程度上解決了上述問題中提到的“相機-形狀歧義”。(3)藍色的框表示從頭開始學(xué)習(xí)規(guī)范語義UV圖和類別級模板,使用模板(1)迭代訓(xùn)練。
3.1 通過語義一致性解決相機-形狀歧義
解決“相機-形狀歧義”的關(guān)鍵是在3D和2D中充分利用物體實例的語義部分。具體來說,在二維空間中,自監(jiān)督即可實現(xiàn)大多數(shù)物體的正確分割,即使是那些形狀變化很大的實例。在三維空間中,語義部分對于網(wǎng)格變形是不變的,網(wǎng)格表面上特定點的語義部分標簽在一個類別的所有重構(gòu)實例中是一致的。
使用這種語義部分不變性可以建立一個類別級的語義UV映射,即規(guī)范語義UV映射,它由所有的實例共享,反過來又允許為網(wǎng)格上的每個點分配語義部分標簽。通過在二維空間中加強規(guī)范語義映射與實例部分分割的一致性,可以在很大程度上解決“相機-形狀歧義”問題。
首先在二維圖像中通過ScoPS[3]獲得實體分割,然后通過規(guī)范語義UV映射獲得三維模型中的分割后,利用2D和3D之間的分割一致性,得到正確的模型。如下圖所示,(i)表示錯誤的重建,其中沒有用到語義一致性;(ii)表示使用一致性后的表現(xiàn)。

3.2 循序漸進的訓(xùn)練
逐漸訓(xùn)練網(wǎng)絡(luò)出于兩個方面的考慮:第一,構(gòu)建規(guī)范語義UV圖需要可靠的紋理流將ScoPS從2D圖像映射到UV空間。因此,只有當重建網(wǎng)絡(luò)能夠很好地預(yù)測紋理流時,才能得到規(guī)范的語義UV映射。第二,一個規(guī)范的三維形狀模板是可取的,因為它加快了網(wǎng)絡(luò)的收斂速度,也避免了退化的解決方案。
但是,同時學(xué)習(xí)類別級三維形狀模板和實例級重建網(wǎng)絡(luò)會得到不希望的平凡解。因此,作者將網(wǎng)絡(luò)分成兩部分,E步驟使用固定的模板和規(guī)范語義UV映射訓(xùn)練重建網(wǎng)絡(luò),M步驟使用前面訓(xùn)練好的網(wǎng)絡(luò)不斷更新模板和UV映射。
其中,模型的更新方法如下所示。Vt和Vt-1是更新的和當前的模板,I表示輸入的圖像,傳遞到圖像編碼器和形狀解碼器中,Q是一組具有一致網(wǎng)格預(yù)測的選定樣本。

3.3 紋理循環(huán)一致性約束
如下圖所示,學(xué)習(xí)到的紋理流的一個問題是,具有相似顏色(例如黑色)的3D網(wǎng)格面的紋理可能從圖像的單個像素位置錯誤地采樣。因此,作者引入了一個紋理循環(huán)一致性目標使預(yù)測的紋理流和攝像機投影的一致。

考慮輸入圖像上黃色的點,可以通過紋理流和預(yù)定義的函數(shù)φ將其映射到網(wǎng)格表面。同時,可以通過渲染器將網(wǎng)格上的點重新投影到圖像中,如輸入圖像上的綠色點。如果預(yù)測的紋理流與預(yù)測的相機姿態(tài)一致,黃色和綠色的點重疊,形成2D-3D-2D的循環(huán)。
3.4 通過重建實現(xiàn)更好的部分分割
提出的三維重建模型可用于改進自監(jiān)督分割的學(xué)習(xí),關(guān)鍵點在于類別級的規(guī)范語義UV映射在很大程度上減少了基于實例的語義UV映射中的噪聲。結(jié)合實例網(wǎng)格重建和相機位姿,為ScoPS方法提供了可靠的監(jiān)督。
通過將標準UV映射到每個重建網(wǎng)格的表面,并用預(yù)測的相機位姿進行渲染,就可以得到“真實”的分割圖作為ScoPS訓(xùn)練的監(jiān)督。使用語義一致性約束作為度量,選擇具有高語義一致性的可靠重建來訓(xùn)練ScoPS。改進的ScoPS反過來可以為網(wǎng)格重建網(wǎng)絡(luò)提供更好的正則化,形成一個迭代和協(xié)作的學(xué)習(xí)循環(huán)。
實驗效果


參考文獻:
Kanazawa, A., Tulsiani, S., Efros, A.A., Malik, J.: Learning category-specific mesh reconstruction from image collections. In: ECCV (2018)
Kulkarni, N., Gupta, A., Tulsiani, S.: Canonical surface mapping via geometric cycle consistency. In: ICCV (2019)
Hung, W.C., Jampani, V., Liu, S., Molchanov, P., Yang, M.H., Kautz, J.: Scops: Self-supervised co-part segmentation. In: CVPR (2019)
備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超干貨的3D視覺學(xué)習(xí)社區(qū)
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊-三維重建交流群
已建立3D視覺工坊-三維重建微信交流群!想要進三維重建學(xué)習(xí)交流群的同學(xué),可以直接加微信號:CV_LAB。加的時候備注一下:三維重建+學(xué)校+昵稱,即可。然后就可以拉你進群了。
強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。