SLAM動態(tài)特征+身形圖像深度學(xué)習(xí),F(xiàn)acebook提出全身姿態(tài)捕捉新方案
查看引用/信息源請點擊:映維網(wǎng)
精確描述自我姿態(tài)
(映維網(wǎng)?2021年10月27日)增強現(xiàn)實和虛擬現(xiàn)實中的真正沉浸式體驗需要由用戶姿態(tài)的顯式表征所驅(qū)動。特別地,其需要從設(shè)備的角度估計用戶的姿態(tài),這隱含地對應(yīng)于以自我為中心的角度,亦即與用戶3D頭部和身體姿態(tài)相應(yīng)對的“Egopose/自我姿態(tài)”。自我姿態(tài)驅(qū)動著在AR和VR中構(gòu)建自然體驗所需的必要輸入。例如,世界鎖定的自我姿態(tài)表示為用戶與虛擬場景中的音視頻對象交互提供了必要的輸入。對于涉及真實人物和虛擬實體(如化身或全息圖)組合的對話,其需要精確描述自我姿態(tài),以實現(xiàn)多個揚聲器之間的無縫切換,同時保持沉浸感。
自我姿態(tài)估計是一項具有挑戰(zhàn)性的任務(wù)?,F(xiàn)有的方法通常分為兩類:基于非光學(xué)傳感器的方法和基于攝像頭的方法。基于傳感器的方法依賴于磁性和慣性屬性,并給出了自我姿態(tài)的穩(wěn)健估計。然而,它們需要特殊設(shè)計且難以設(shè)置的設(shè)備,并且具有限定用戶一般性移動的侵入性。
基于攝像頭的方法則侵入性較小,可以在不同的環(huán)境中工作。其中一類方法依靠自上而下的朝內(nèi)式攝像頭來獲得用戶的最佳視圖,而另一類方法則使用窄視場前向攝像頭(用戶不可見)。只要能夠清楚地“看到”身體部位,前一種設(shè)置可以產(chǎn)生可靠的結(jié)果,但朝內(nèi)式攝像頭需要向前延伸,以避免鼻子和臉頰被遮擋。當(dāng)用戶離開視場時,姿態(tài)估計將完全失敗。后一種設(shè)置的優(yōu)點是在看不到用戶的情況下估計自我姿態(tài),但它難以解析模糊的身體姿態(tài),尤其是手臂姿態(tài)。

在AR和VR設(shè)備中,攝像頭靠近佩戴者的面部,視場與人眼相似。在大多數(shù)情況下,攝像頭只能在周邊視圖中看到佩戴者的雙手和身體其他部分,甚至在很大一部分時間里根本看不到佩戴者,比如說用戶抬頭的時候。這為“自我姿態(tài)”提供了一種全新的設(shè)置,并且在Facebook看來是一個尚未充分研究的領(lǐng)域。
在名為《Egocentric Pose Estimation from Human Vision Span》的論文中,團隊提出了一個根據(jù)能夠利用攝像頭SLAM的動態(tài)特征和身形圖像的深度學(xué)習(xí)系統(tǒng)。通過計算三維頭部姿態(tài)、三維身體姿態(tài)、人物背景分離,同時顯示執(zhí)行姿態(tài)屬性之間的特定幾何一致性,無論用戶是否在攝像頭視場中可見,系統(tǒng)都能給出穩(wěn)健的自我姿態(tài)估計。
在具體方法中,給定前向頭戴式魚眼攝像頭在每個時刻t的視頻幀序列{It},研究人員估計3D自我身體姿態(tài)Bt和自我頭部姿態(tài)Ht。Bt是一個N×3身體關(guān)鍵點矩陣,Ht是一個2×3頭部方向矩陣。自我身體姿態(tài)在局部坐標(biāo)系中定義,在這個坐標(biāo)系中,髖部線水平旋轉(zhuǎn),使其平行于xz平面,并且髖部線中心位于原點,如圖1所示。
自我頭部姿勢由兩個向量組成:面朝向f和頭頂指向u。同時估計頭部和身體姿態(tài)允許團隊使用攝影頭SLAM將身體姿態(tài)轉(zhuǎn)換為全局坐標(biāo)系。團隊的目標(biāo)是實時自我姿態(tài)估計,所以深度模型需要高效和準(zhǔn)確。團隊提出的系統(tǒng)是由一個頭戴式前向魚眼攝像頭驅(qū)動,其視場約為180度。出于動機,類似于人類的視覺跨度,攝像頭主要聚焦于前方的場景。在這種情況下,僅使用頭部運動或可見部分圖像進行自我姿態(tài)估計并不可靠。因此,論文提出的方法利用了所述兩種信息流,并對組合進行了有效優(yōu)化。整個系統(tǒng)架構(gòu)如圖2所示。操作順序如下:在一個分支中,魚眼視頻和可選IMU用于提取全局坐標(biāo)系中的攝像頭姿態(tài)和位置。研究人員將攝像頭的運動和位置轉(zhuǎn)換為表示為運動歷史圖像的緊湊表示。運動特征網(wǎng)絡(luò)處理運動歷史圖像以提取動態(tài)特征。另外,在平行分支中,魚眼圖像同時發(fā)送到形狀網(wǎng)絡(luò)以提取佩戴者的前景形狀。然后,進一步從前景形狀表示中提取形狀特征。融合網(wǎng)絡(luò)平衡并結(jié)合兩個分支輸出(動態(tài)特征和形狀特征),并給出自我姿態(tài)估計值:初始身體關(guān)鍵點和頭部姿態(tài)估計值。完成后,研究人員將使用3D方法進一步細化身體關(guān)鍵點,從而得出最終的自我姿態(tài)估計。在過程中,一次處理一個組件。

總結(jié)來看,F(xiàn)acebook Reality Labs的方案使用從攝像頭SLAM獲得的動態(tài)運動信息和偶爾可見的身體部位進行預(yù)測。除了預(yù)測自我姿態(tài)外,模型同時計算自我姿態(tài)視圖中的三維頭部姿態(tài)和人物背景分離。由于頭部和身體姿態(tài)的這種聯(lián)合估計,研究人員可以在推理過程中執(zhí)行一定的幾何一致性,從而進一步改進結(jié)果,并能夠在全局坐標(biāo)系中使用攝像頭SLAM信息重新定位自我姿態(tài)。
其次,這個方法允許佩戴者在視場中不可見,而在佩戴者部分可見的情況下,所述方法可以利用運動和可見的形狀特征來進一步改善結(jié)果。
再次,自我姿態(tài)估計的最大挑戰(zhàn)之一是高質(zhì)量數(shù)據(jù)集的可用性。為數(shù)百名受試者拍攝同步的自我姿態(tài)視頻和身體/頭部姿態(tài)需要花費大量精力。在這項工作中,團隊盡可能地利用現(xiàn)有數(shù)據(jù)集,特別是利用過去幾十年收集的動捕數(shù)據(jù)。所述動捕據(jù)通常只捕捉身體關(guān)節(jié)的運動,不包括自我姿態(tài)的視頻。在其為基礎(chǔ)上,研究人員同時提出了一種不僅能夠合成虛擬視圖自我姿態(tài)圖像,而且可以合成與姿勢變化相關(guān)的動態(tài)信息的方法。實驗表明,這種合成數(shù)據(jù)集在真實視頻上具有很強的泛化能力。最后,由于主要應(yīng)用是AR和VR設(shè)置,所以團隊提出了低延遲設(shè)計的模型以部署在實時應(yīng)用中。
相關(guān)論文:Egocentric Pose Estimation from Human Vision Span
對于這篇論文,F(xiàn)acebook主要介紹并解決了一個新的問題:從人類的視覺跨度估計佩戴者的自我姿態(tài)。這是一項具有挑戰(zhàn)性的任務(wù),主要是由于佩戴者的視場非常有限,而且佩戴者在視場中完全不可見。研究人員提出了一種新的兩階段深度學(xué)習(xí)方法,利用新的運動歷史圖像特征和身體形狀特征。我們同時估計頭部和身體姿態(tài),同時顯式執(zhí)行幾何約束。評估顯示這一模型的性能出色,對攝像頭設(shè)置的變化具有魯棒性。同時,它能夠利用合成數(shù)據(jù)源,從而避免重新收集大型新數(shù)據(jù)集。
---
原文鏈接:https://news.nweon.com/90901