從單目數(shù)據(jù)生成3D模型,Meta智能眼鏡攝像頭校正算法揭秘
眾所周知,Meta下一個(gè)目標(biāo)就是AR眼鏡,盡管開發(fā)AR比VR面臨更多復(fù)雜的難題,因此可能還要過一段時(shí)間才能看到Meta的AR眼鏡。目前,該公司已推出了第一代Ray-Ban Stories智能眼鏡,特點(diǎn)是搭載的雙攝像頭不僅可以拍照,更重要的意圖在于捕捉具有雙目視差的3D數(shù)據(jù),進(jìn)行第一視角的分析和利用,從而推動貼近日常生活的AI應(yīng)用。

通過Stories,Meta可以了解到穿戴式設(shè)備在實(shí)際應(yīng)用中會出現(xiàn)的問題,比如攝像頭、傳感器被遮擋,性能下降,捕捉到的3D數(shù)據(jù)不完整等等。
在最新的論文中,Meta進(jìn)一步揭秘了Stories采用的3D深度傳感方案,其中包含一種新穎的實(shí)時(shí)校正算法,一種單目和雙目視差網(wǎng)格協(xié)同設(shè)計(jì),以及從單目數(shù)據(jù)導(dǎo)出3D數(shù)據(jù)集的方式。同時(shí),該方案結(jié)合配對手機(jī)的GPU來處理3D數(shù)據(jù),比如圖像預(yù)處理、立體校正和深度估計(jì)。
據(jù)了解,該方案的重點(diǎn)主要是優(yōu)化3D深度傳感的性能,同時(shí)為了確保準(zhǔn)確性,系統(tǒng)還會識別校正數(shù)據(jù)的可靠程度,不可靠時(shí)會退回至單目深度預(yù)測模式。另一方面,Meta科研人員希望讓這種3D視圖生成管道適用于更廣泛的設(shè)備,包括比較舊的手機(jī)型號。

Meta指出,即便使用6年前發(fā)布的Galaxy S8手機(jī),CPU計(jì)算3D視圖的時(shí)間也能低至1秒,而且模型泛化能力比較好。
技術(shù)挑戰(zhàn)
科研人員指出,立體視差預(yù)測是計(jì)算機(jī)視覺的基本問題之一,這項(xiàng)技術(shù)在多種領(lǐng)域都有廣泛應(yīng)用,比如AR/VR、計(jì)算攝影、機(jī)器人和自動駕駛等等。
然而,在端到端深度傳感系統(tǒng)中合成立體圖像面臨許多挑戰(zhàn),對于移動設(shè)備來講,算力是最大的局限。因此,Meta根據(jù)手機(jī)上有限的算力,設(shè)計(jì)了這種比較實(shí)用的3D圖像處理管道。這也意味著,管道中的步驟需要協(xié)同工作,在出現(xiàn)故障或數(shù)據(jù)不理想時(shí)更好的進(jìn)行調(diào)整,校準(zhǔn)因不可預(yù)見因素對性能的影響(比如高溫、戶外)。
Meta表示:我們希望智能眼鏡足夠通用,因此需要讓更多類型的手機(jī)與之匹配,而不能依賴于特定的硬件或機(jī)器學(xué)習(xí)加速模型。而這項(xiàng)研究的主要目標(biāo),則是為3D計(jì)算攝影帶來最佳的用戶體驗(yàn)。
解決方案
為了確保3D捕捉的穩(wěn)定性,Meta研發(fā)了一套實(shí)時(shí)的校正系統(tǒng),其優(yōu)勢包括:
端到端3D數(shù)據(jù)處理系統(tǒng),可動態(tài)調(diào)整數(shù)據(jù)處理模式;
包含快速、穩(wěn)定的線上校正算法;
3D深度系統(tǒng)和單目深度系統(tǒng)輸出格式相似;
在有限的算力下,依然能達(dá)到足夠準(zhǔn)確。

細(xì)節(jié)方面,該方案的運(yùn)算流程如下:將智能眼鏡輸出的3D數(shù)據(jù)進(jìn)行出廠校正、去畸變、降采樣(降低兩倍)、HDR包圍曝光,然后在線上校正,校正質(zhì)量達(dá)標(biāo)后,會輸入到立體CNN網(wǎng)絡(luò)中,然后進(jìn)入渲染管道,生成涂層、紋理修復(fù)、網(wǎng)格等等。如果校正質(zhì)量未達(dá)標(biāo),則退回到單目模式,輸入到單目CNN網(wǎng)絡(luò)中處理,然后再進(jìn)入渲染管道,生成新的視角。

當(dāng)然,在線校準(zhǔn)不一定保證可靠性,當(dāng)一側(cè)攝像頭被遮擋時(shí),或者攝像頭捕捉的特征數(shù)據(jù)不足時(shí),便只能退而求其次,通過單目深度網(wǎng)絡(luò)來預(yù)測。不管是雙目深度預(yù)測還是單目深度預(yù)測,都使用相同的下游處理管道,好處是可以輸出準(zhǔn)確性高的相對視差,可以很好的滿足3D捕捉和建模的目的。
另外,在生成深度視差圖后,系統(tǒng)會裁剪最大有效區(qū)域,并保持原始的縱橫比,這樣做可以進(jìn)一步優(yōu)化3D建模的整體質(zhì)量。最后一步,則是結(jié)合右側(cè)相機(jī)預(yù)測的視差,和相應(yīng)的彩色圖像,渲染出三維效果。
而在新穎視圖合成部分,Meta使用了基于LDI(分層深度圖像)的方案來創(chuàng)建立體訓(xùn)練數(shù)據(jù)集,以創(chuàng)建3D合成效果。參考:Meta