Meta用頭顯+控制器+AI算法,改善全身動捕追蹤解決方案
查看引用/信息源請點擊:映維網Nweon
頭顯+控制器的全身追蹤
(映維網Nweon?2023年07月03日)盡管內向外追蹤的性能已經足以在頭顯、控制器和雙手追蹤方面取代外向內追蹤,但由于視場覆蓋問題,全身動捕一直以來都是依靠外向內的追蹤設置來實現(xiàn)。不僅只是這樣,隨著頭顯形狀參數的不斷小型化輕薄化,攝像頭的視場覆蓋問題將會變得越發(fā)困難。
不過,社區(qū)依然在積極探索利用AI等手段來提供下半身的姿態(tài)估計。實際上,如果你有留意映維網的專享,諸如Meta,卡內基·梅隆大學,蘇黎世聯(lián)邦理工學院等已經發(fā)布了各種論文研究。
現(xiàn)在,韓國首爾大學和Meta的研究人員日前又發(fā)布了一項相關研究。利用頭顯+控制器的組合,以及算法技巧,團隊提供了一種名為QuestEnvSim的解決方案。

為了實現(xiàn)真正的臨場感,用戶的Avatar必須準確地復刻肢體動作和肢體語言,并實現(xiàn)與環(huán)境的自然交互?;跇擞浀淖粉櫡桨阜爆嵑桶嘿F。
首爾大學和Meta團隊的目標是創(chuàng)建一個只依賴于消費者VR設備的姿態(tài)和環(huán)境信息作為輸入的追蹤方案,例如頭顯+控制器。
從稀疏傳感器合成全身運動具有挑戰(zhàn)性,因為諸多不同的姿態(tài)都可能符合給定的傳感器輸入,從而造成不準確的估計,尤其是下半身。另外,生成合理的對象交互運動需要特別注意。例如,當用戶與他們的環(huán)境交互時(坐在沙發(fā)上或靠在桌子),這引入了復雜的物理約束。而且下半身并不總是完全受到平衡的約束,所以存在更多的模糊性。例如,當坐在沙發(fā)時,諸多不同的姿態(tài)都可能符合給定的傳感器輸入,所以造成不準確的估計。
在名為《QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors》的論文中,團隊開發(fā)了一種將頭顯和控制器姿態(tài)以及環(huán)境的表示作為輸入,并生成與傳感器輸入及其周圍環(huán)境相匹配的全身運動的運動追蹤算法。
具體地說,團隊使用物理模擬的Avatar,并通過深度強化學習學習控制策略來產生扭矩以驅動Avatar,目標是盡可能接近地追蹤用戶的頭顯和控制器姿態(tài)。
當然,社區(qū)已經提出了多種類似于所述方法的基于物理Avatar的運動追蹤系統(tǒng)。但研究人員認為,對于特定方法,除了腳-地板接觸之外,它們尚未證明其他環(huán)境交互。至于其他方法,它們采用人工力來處理復雜的接觸動力學,而這會產生不自然的運動。
首爾大學和Meta不是使用人工力量,他們的控制策略訓練成積極地使用環(huán)境來產生適當的外部力量來驅動模擬Avatar,而其中的策略是從包括環(huán)境交互的動捕數據中學習。所以,系統(tǒng)產生的動作在物理上是準確的,在環(huán)境中更可信。例如,如果頭戴式顯示器靠近椅子,這可能意味著用戶已經坐了下來,而不是僅僅處于蹲伏的狀態(tài)。
研究人員首先證明了稀疏上半身輸入。如果與物理模擬和環(huán)境觀察相結合,其可以在高度受限的環(huán)境中產生真實的全身運動,無需使用任何人工力。
為了展示系統(tǒng)的能力,研究人員展示了各種各樣的例子,比如坐在椅子、沙發(fā)和盒子、踏過盒子、搖椅子和轉動辦公椅等等。其中,所有的動作都是由真實用戶輸入產生,不使用任何后處理,例如逆運動學、接觸解析和平滑等。
當然,如果你留意上面的視頻,你依然會發(fā)現(xiàn)由于攝像頭視場覆蓋問題,以及諸多不同的姿態(tài)都可能符合給定的傳感器輸入,所以QuestEnvSim依然無法準確估計微妙的下半身姿態(tài),尤其是視頻后半段,你會多次發(fā)現(xiàn)下半身的姿態(tài)估計不完全準確。
相關論文:QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors
不過,研究人員相信這是稀疏傳感器與場景交互的運動追蹤所取得的最高質量結果之一。接下來,團隊將繼續(xù)努力,并不斷優(yōu)化解決方案。
?
---
原文鏈接:https://news.nweon.com/109920