RGB圖像重建非剛性物體三維形狀(CVPR)
概述
動(dòng)物在自然界中廣泛存在,分析它們的形狀和運(yùn)動(dòng)在很多領(lǐng)域至關(guān)重要。但是給動(dòng)物形狀建模比較困難,因?yàn)椴蹲饺梭w形狀的的3D掃描方法對(duì)野生動(dòng)物不太適用,因此這篇文章提出了一種單獨(dú)從圖像捕捉動(dòng)物的3D形狀的方法。動(dòng)物的可變形性使這個(gè)問(wèn)題極具挑戰(zhàn)性,為了解決這個(gè)問(wèn)題,作者使用了一個(gè)動(dòng)物形狀的先驗(yàn)?zāi)P蛠?lái)擬合數(shù)據(jù),然后在一個(gè)典型的參考姿勢(shì)變形動(dòng)物的形狀。與以前的方法相比,該方法明顯提取了更多3D形狀的細(xì)節(jié),并且能夠使用少量的視頻幀來(lái)建模新物種。此外,投影的3D形狀足夠精確,以至于能夠從多個(gè)幀中提取真實(shí)的紋理圖。項(xiàng)目、論文地址下載:RGB圖像重建非剛性物體三維形狀(CVPR)
注1:文末附【立體視覺】交流群
注2:計(jì)算機(jī)視覺書籍匯總
注3:整理不易,請(qǐng)點(diǎn)贊支持!
作者:Longway | 來(lái)源:3D視覺工坊微信公眾號(hào)
原文:RGB圖像重建非剛性物體三維形狀(CVPR):https://mp.weixin.qq.com/s/xyw5kscr4-MFFy0z_4-1kg
簡(jiǎn)介研究動(dòng)物不僅對(duì)科學(xué)很重要,對(duì)整個(gè)社會(huì)也很重要。計(jì)算機(jī)視覺可以為動(dòng)物的三維捕獲、建模和跟蹤提供方法,不幸的是,現(xiàn)在很少有方法支持捕捉逼真的動(dòng)物形狀和紋理,像下圖一樣。

現(xiàn)在已經(jīng)有成熟的工具來(lái)制作人體的三維模型,這些模型真實(shí)、可微分、計(jì)算效率高。相比之下,給動(dòng)物建模的方法比較少。但是動(dòng)物三維模型的可用性,將打開很多領(lǐng)域,例如生物力學(xué)、神經(jīng)科學(xué)和仿生機(jī)器人等等。盡管有很多關(guān)于人體形狀模型的研究,但是不能將這些方法直接用到建模動(dòng)物形狀。主要原因是人體模型很容易得到,同樣的方法對(duì)動(dòng)物來(lái)說(shuō)卻比較困難,不容易獲得3D訓(xùn)練數(shù)據(jù)集。從動(dòng)物的圖像和視頻比較容易獲得,因此,大部分以前的工作都集中在從圖像和視頻中學(xué)習(xí)三維模型,但是不能提取逼真的動(dòng)物形狀?,F(xiàn)存的工作基于人工干預(yù),就像本文中作者采用的方法一樣。從圖像中估計(jì)動(dòng)物形狀的關(guān)鍵挑戰(zhàn)是它們是可連接和可變形的,并且動(dòng)物處在不同的狀態(tài)。盡管這樣,動(dòng)物的基本形狀是一致的,因此,作者認(rèn)為關(guān)鍵在于將動(dòng)物的鉸接結(jié)構(gòu)與其形狀分開。考慮到問(wèn)題的復(fù)雜性,作者使用了SAML模型,它捕捉了各個(gè)動(dòng)物的形狀。SMAL是從跨越一系列動(dòng)物物種的玩具雕像的3D掃描中學(xué)習(xí)到的【1】,作者使用了SMAL模型的兩個(gè)關(guān)鍵方面:基于頂點(diǎn)的形狀與關(guān)節(jié)分解可以估計(jì)一致的形狀和近似估計(jì)新物種形狀的能力。由于SMAL模型缺乏動(dòng)物細(xì)節(jié),因此使用它作為細(xì)化形狀的起點(diǎn)。作者在此基礎(chǔ)上推陳出新,發(fā)明了一個(gè)新的方法,并給它名為為“SMALR”,意為精致的小。
前期工作
為了獲得足夠的真實(shí)數(shù)據(jù),作者從野生動(dòng)物的照片和視頻中學(xué)習(xí)這些模型。這提出了重大的技術(shù)挑戰(zhàn),在以前的文獻(xiàn)中沒(méi)有提到過(guò)。下面描述已經(jīng)完成的工作,以及這些方法在哪些地方不足以完成學(xué)習(xí)動(dòng)物的詳細(xì)3D形狀任務(wù)。3D掃描的化身:有大量工作是學(xué)習(xí)人體的三維模型,這些工作起始于很多人在不同姿勢(shì)下的三維表面掃描,但是不適合動(dòng)物建模。Zuffi等【1】通過(guò)掃描動(dòng)物玩具解決了這個(gè)問(wèn)題,但是數(shù)量和真實(shí)性是有限的。在這里,作者的方法超越了以前的工作,并且能夠提取與三維形狀相關(guān)的紋理圖,類似的研究很少。圖像中的剛性場(chǎng)景:有大量的工作是從相機(jī)圖像和視頻中恢復(fù)剛性場(chǎng)景的形狀。經(jīng)典的立體視覺和SfM方法假設(shè)所有的圖像都是用同一個(gè)相機(jī)捕獲的,并且當(dāng)場(chǎng)景是靜態(tài)的時(shí),相機(jī)是移動(dòng)的。在這里作者做了相同的工作,但是對(duì)象是非剛性的、鉸鏈的。行為捕捉:即立體視覺運(yùn)用于運(yùn)動(dòng)中的人類。有許多方法假定多個(gè)靜態(tài)校準(zhǔn)和同步的攝像機(jī),通常都安裝在背景和照明可控的環(huán)境中,經(jīng)典的方法包括提取輪廓和使用空間雕刻來(lái)提取視覺外殼。作者也使用輪廓,但是只有一個(gè)移動(dòng)的攝像機(jī)和一個(gè)移動(dòng)的動(dòng)物。動(dòng)物照片:Cashman和Fitzgibbon【2】通過(guò)幾張照片學(xué)習(xí)動(dòng)物的可變性模型,其他人也做了相似的工作,如下圖所示。所有這些模型在模擬動(dòng)物外形的能力上都是有限的,因?yàn)樗鼈儾荒苊鞔_地模擬關(guān)節(jié)。最終的效果比以前的方法更真實(shí),但過(guò)于平滑和通用,不適合個(gè)體。

動(dòng)物視頻:視頻為動(dòng)物形狀提供了潛在的豐富信息來(lái)源。盡管也有大量工作從視頻中建模,但是都存在很多缺陷,不能夠建立3D網(wǎng)格。這里最相關(guān)的是Reinert等【3】的工作,他們展示了從視頻中提取粗略動(dòng)物形狀。雖然可以從一個(gè)視頻幀中恢復(fù)紋理圖,但不會(huì)從多個(gè)幀/視圖中合并紋理。從圖像中學(xué)習(xí)3D模型:最近有研究使用cnn從圖像中生成3D模型,到目前為止,這些研究集中在像汽車和椅子這樣的剛性物體上,它們的訓(xùn)練數(shù)據(jù)非常豐富。對(duì)于動(dòng)物來(lái)說(shuō),很少有好的3D關(guān)節(jié)模型可以用來(lái)訓(xùn)練cnn,這就是為什么作者要從圖像和視頻中恢復(fù)它們。
方法
作者使用的SMAL模型可以代表5種來(lái)自不同四足科的動(dòng)物:貓科、犬科、牛科、馬科和河馬科。動(dòng)物的形狀由一組形狀變量表示,這些變量定義了應(yīng)用于模型模板的頂點(diǎn)變形,以獲得特定動(dòng)物的形狀。讓?duì)聻樾螤钭兞康男邢蛄?,然后一個(gè)特定動(dòng)物的形狀計(jì)算為:

其中Vtemplate表示模型的頂點(diǎn),Bs是變形向量的矩陣。給定一組姿態(tài)變量r和全局平移t,模型在需要的姿態(tài)下生成三維網(wǎng)格頂點(diǎn)v(β,r, t),并使用線性混合蒙皮算法。給定一組帶有注釋標(biāo)和輪廓的動(dòng)物圖像,就可以得到它的3D形狀,如下圖所示。首先將SMAL模型與圖像對(duì)齊,獲得每幅圖像中動(dòng)物形狀和姿態(tài)的估計(jì)。其次,優(yōu)化初始網(wǎng)格的正則化變形,以更好地匹配輪廓和注釋。最后,從圖像中提取動(dòng)物的紋理,從而得到一個(gè)完整的、有紋理的3D模型。

對(duì)圖像進(jìn)行SMAL模型對(duì)齊:設(shè)I(i)為獲得的動(dòng)物N幅圖像的集合,S(i)為通過(guò)背景減法或人工分割得到的N幅輪廓圖像集合,v(β(i), r(i), t(i))為N個(gè)SMAL模型的網(wǎng)格頂點(diǎn)集,K(i)為標(biāo)志的集合。每個(gè)標(biāo)志都與3D模型上的一組頂點(diǎn)相關(guān)聯(lián),表示為vK,j,與第j個(gè)標(biāo)志相關(guān)的模型頂點(diǎn)數(shù)表示為nH(j)。用透視投影來(lái)建模相機(jī),c(f(i), rc(i)c, tc(i))表示由焦距f、3D旋轉(zhuǎn)r和平移t定義的一組相機(jī)。首先估計(jì)沿z軸的平移量:

然后通過(guò)解決一個(gè)優(yōu)化問(wèn)題來(lái)獲得平移和全局旋轉(zhuǎn)的估計(jì):


將所有模型參數(shù)的損失和所有圖像的焦距最小化,讓?duì)?i) = (β(i), r(i), t(i), f(i))為第i幅圖像的未知量,目標(biāo)為:

與其為所有幀估計(jì)單個(gè)形狀,不如為每幀估計(jì)不同形狀,但在它們的差異上加上懲罰,這樣的優(yōu)化效果會(huì)更好,例如將所有幀中的形狀規(guī)整成相同的形狀:

其余各項(xiàng)的詳細(xì)公式在論文中均有講解,這里不再贅述,最后獲得了所有圖像的姿態(tài)、平移和形狀的估計(jì)。從圖像中恢復(fù)SMALR形狀:通過(guò)估算擬合SMAL模型的偏差,從圖像中獲得更精確的3D形狀。對(duì)于每一種動(dòng)物,定義一個(gè)頂點(diǎn)位移矢量dv,修改SMAL模型,如下所示:

由于一些符號(hào)的濫用,重新定義Ekp和Esil,保持姿勢(shì)、平移、相機(jī)和形狀參數(shù)固定,設(shè)置為前面優(yōu)化的值。然后,為了顧及dv,取以下表達(dá)式的最小值:

一旦解決了dv,就有了動(dòng)物形狀vshape(dv),并再次執(zhí)行SMAL姿態(tài)估計(jì)步驟,保持形狀固定。最后,在恢復(fù)了許多動(dòng)物的詳細(xì)形狀后,采取新的形狀,重新學(xué)習(xí)SMAL的形狀空間,使它能夠捕捉更廣泛的動(dòng)物形狀。紋理恢復(fù):為了從圖像中恢復(fù)動(dòng)物的紋理,作者為小模型定義了紋理坐標(biāo)的UV貼圖。給定每個(gè)圖像和相應(yīng)的估計(jì)網(wǎng)格,定義紋理圖像和每個(gè)紋理的可見性權(quán)重。將紋理圖進(jìn)行加權(quán)平均,利用SMAL模型的對(duì)稱性來(lái)定義一個(gè)對(duì)應(yīng)于對(duì)稱網(wǎng)格的紋理映射,其中動(dòng)物的左右兩側(cè)被交換。對(duì)于對(duì)稱的紋理圖像,可以用兩種方式來(lái)使用它:為左/右對(duì)應(yīng)的紋理賦于它們的平均值來(lái)恢復(fù)對(duì)稱紋理圖,或者可以填充在對(duì)稱紋理圖像中沒(méi)有定義對(duì)應(yīng)值的紋理。
實(shí)驗(yàn)效果

右邊是輸入圖像,左邊是SMAL模型,中間是SMALR模型,上面是紋理圖

中間是SMAL模型,下面是SMALR模型,左上是輸入圖像,右上是恢復(fù)的紋理圖

從上往下依次是重建的三維網(wǎng)格、應(yīng)用紋理的網(wǎng)格和具有相應(yīng)姿勢(shì)的圖像
參考文獻(xiàn)
【1】S. Zuffi, A. Kanazawa, D. Jacobs, and M. J. Black. 3D menagerie: Modeling the 3D shape and pose of?http://animals.In?IEEE Conf. on Computer Vision and Pattern Recognition(CVPR), July 2017.【2】T. J. Cashman and A. W. Fitzgibbon. What shape are dolphins? building 3d morphable models from 2d images. IEEE Transactions on Pattern Analysis and Machine Intelligence,35(1):232–244, Jan 2013.【3】B. Reinert, T. Ritschel, and H.-P. Seidel. Animated 3D creatures from single-view video by skeletal sketching. In GI’16: Proc. of the 42nd Graphics Interface Conference, 2016.
備注:作者也是我們「3D視覺從入門到精通」知識(shí)星球特邀嘉賓
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
3D視覺工坊-三維重建交流群
已建立3D視覺工坊-三維重建微信交流群!想要進(jìn)三維重建學(xué)習(xí)交流群的同學(xué),可以直接加微信號(hào):CV_LAB。加的時(shí)候備注一下:三維重建+學(xué)校+昵稱,即可。然后就可以拉你進(jìn)群了。
強(qiáng)烈推薦大家關(guān)注3D視覺工坊嗶哩嗶哩賬號(hào)和3D視覺工坊微信公眾號(hào),可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。