散文網(wǎng) » 科技 »數(shù)碼 » 從單目數(shù)據(jù)生成3D模型，Meta智能眼鏡攝像頭校正算法揭秘

從單目數(shù)據(jù)生成3D模型，Meta智能眼鏡攝像頭校正算法揭秘

2023-07-12 20:17 作者:青亭網(wǎng) 0人讀過 | 我要投稿

眾所周知，Meta下一個(gè)目標(biāo)就是AR眼鏡，盡管開發(fā)AR比VR面臨更多復(fù)雜的難題，因此可能還要過一段時(shí)間才能看到Meta的AR眼鏡。目前，該公司已推出了第一代Ray-Ban Stories智能眼鏡，特點(diǎn)是搭載的雙攝像頭不僅可以拍照，更重要的意圖在于捕捉具有雙目視差的3D數(shù)據(jù)，進(jìn)行第一視角的分析和利用，從而推動貼近日常生活的AI應(yīng)用。

通過Stories，Meta可以了解到穿戴式設(shè)備在實(shí)際應(yīng)用中會出現(xiàn)的問題，比如攝像頭、傳感器被遮擋，性能下降，捕捉到的3D數(shù)據(jù)不完整等等。

在最新的論文中，Meta進(jìn)一步揭秘了Stories采用的3D深度傳感方案，其中包含一種新穎的實(shí)時(shí)校正算法，一種單目和雙目視差網(wǎng)格協(xié)同設(shè)計(jì)，以及從單目數(shù)據(jù)導(dǎo)出3D數(shù)據(jù)集的方式。同時(shí)，該方案結(jié)合配對手機(jī)的GPU來處理3D數(shù)據(jù)，比如圖像預(yù)處理、立體校正和深度估計(jì)。

據(jù)了解，該方案的重點(diǎn)主要是優(yōu)化3D深度傳感的性能，同時(shí)為了確保準(zhǔn)確性，系統(tǒng)還會識別校正數(shù)據(jù)的可靠程度，不可靠時(shí)會退回至單目深度預(yù)測模式。另一方面，Meta科研人員希望讓這種3D視圖生成管道適用于更廣泛的設(shè)備，包括比較舊的手機(jī)型號。

Meta指出，即便使用6年前發(fā)布的Galaxy S8手機(jī)，CPU計(jì)算3D視圖的時(shí)間也能低至1秒，而且模型泛化能力比較好。

技術(shù)挑戰(zhàn)

科研人員指出，立體視差預(yù)測是計(jì)算機(jī)視覺的基本問題之一，這項(xiàng)技術(shù)在多種領(lǐng)域都有廣泛應(yīng)用，比如AR/VR、計(jì)算攝影、機(jī)器人和自動駕駛等等。

然而，在端到端深度傳感系統(tǒng)中合成立體圖像面臨許多挑戰(zhàn)，對于移動設(shè)備來講，算力是最大的局限。因此，Meta根據(jù)手機(jī)上有限的算力，設(shè)計(jì)了這種比較實(shí)用的3D圖像處理管道。這也意味著，管道中的步驟需要協(xié)同工作，在出現(xiàn)故障或數(shù)據(jù)不理想時(shí)更好的進(jìn)行調(diào)整，校準(zhǔn)因不可預(yù)見因素對性能的影響（比如高溫、戶外）。

Meta表示：我們希望智能眼鏡足夠通用，因此需要讓更多類型的手機(jī)與之匹配，而不能依賴于特定的硬件或機(jī)器學(xué)習(xí)加速模型。而這項(xiàng)研究的主要目標(biāo)，則是為3D計(jì)算攝影帶來最佳的用戶體驗(yàn)。

解決方案

為了確保3D捕捉的穩(wěn)定性，Meta研發(fā)了一套實(shí)時(shí)的校正系統(tǒng)，其優(yōu)勢包括：

端到端3D數(shù)據(jù)處理系統(tǒng)，可動態(tài)調(diào)整數(shù)據(jù)處理模式；
包含快速、穩(wěn)定的線上校正算法；
3D深度系統(tǒng)和單目深度系統(tǒng)輸出格式相似；
在有限的算力下，依然能達(dá)到足夠準(zhǔn)確。

細(xì)節(jié)方面，該方案的運(yùn)算流程如下：將智能眼鏡輸出的3D數(shù)據(jù)進(jìn)行出廠校正、去畸變、降采樣（降低兩倍）、HDR包圍曝光，然后在線上校正，校正質(zhì)量達(dá)標(biāo)后，會輸入到立體CNN網(wǎng)絡(luò)中，然后進(jìn)入渲染管道，生成涂層、紋理修復(fù)、網(wǎng)格等等。如果校正質(zhì)量未達(dá)標(biāo)，則退回到單目模式，輸入到單目CNN網(wǎng)絡(luò)中處理，然后再進(jìn)入渲染管道，生成新的視角。

當(dāng)然，在線校準(zhǔn)不一定保證可靠性，當(dāng)一側(cè)攝像頭被遮擋時(shí)，或者攝像頭捕捉的特征數(shù)據(jù)不足時(shí)，便只能退而求其次，通過單目深度網(wǎng)絡(luò)來預(yù)測。不管是雙目深度預(yù)測還是單目深度預(yù)測，都使用相同的下游處理管道，好處是可以輸出準(zhǔn)確性高的相對視差，可以很好的滿足3D捕捉和建模的目的。

另外，在生成深度視差圖后，系統(tǒng)會裁剪最大有效區(qū)域，并保持原始的縱橫比，這樣做可以進(jìn)一步優(yōu)化3D建模的整體質(zhì)量。最后一步，則是結(jié)合右側(cè)相機(jī)預(yù)測的視差，和相應(yīng)的彩色圖像，渲染出三維效果。

而在新穎視圖合成部分，Meta使用了基于LDI（分層深度圖像）的方案來創(chuàng)建立體訓(xùn)練數(shù)據(jù)集，以創(chuàng)建3D合成效果。參考：Meta

標(biāo)簽：