最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CVPR2023 | 新方法EgoEgo無(wú)需配對(duì)視頻即可預(yù)測(cè)3D人體運(yùn)動(dòng)

2023-10-07 22:40 作者:3D視覺(jué)工坊  | 我要投稿

作者:PCIPG-XK? | 來(lái)源:3D視覺(jué)工坊

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf、代碼、視頻鏈接。

添加微信:dddvisiona,備注:姿態(tài)估計(jì),拉你入群。文末附行業(yè)細(xì)分群。

從以自我為中心的視頻序列中預(yù)測(cè) 3D 人體運(yùn)動(dòng)在人類行為理解中發(fā)揮著至關(guān)重要的作用,并且在 VR/AR 中具有多種應(yīng)用。然而,天真地學(xué)習(xí)以自我為中心的視頻和人體動(dòng)作之間的映射是具有挑戰(zhàn)性的,因?yàn)榉胖迷谟脩纛^部的前置攝像頭通常無(wú)法觀察到用戶的身體。此外,通過(guò)配對(duì)的自我中心視頻和 3D 人體動(dòng)作收集大規(guī)模、高質(zhì)量的數(shù)據(jù)集需要精確的動(dòng)作捕捉設(shè)備,這通常將視頻中的場(chǎng)景種類限制在類似實(shí)驗(yàn)室的環(huán)境中。為了消除配對(duì)自我中心視頻和人體運(yùn)動(dòng)的需要,我們提出了一種新方法,通過(guò)自我頭部姿勢(shì)估計(jì)進(jìn)行自我身體姿勢(shì)估計(jì)(EgoEgo),它將問(wèn)題分解為兩個(gè)階段,通過(guò)頭部運(yùn)動(dòng)作為中間表示連接。EgoEgo 首先集成 SLAM 和學(xué)習(xí)方法來(lái)估計(jì)準(zhǔn)確的頭部運(yùn)動(dòng)。隨后,利用估計(jì)的頭部姿勢(shì)作為輸入,EgoEgo 利用條件擴(kuò)散產(chǎn)生多個(gè)看似合理的全身運(yùn)動(dòng)。這種頭部和身體姿勢(shì)的分離消除了使用配對(duì)的自我中心視頻和 3D 人體運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)集的需要,使我們能夠分別利用大規(guī)模自我中心視頻數(shù)據(jù)集和動(dòng)作捕捉數(shù)據(jù)集。此外,為了進(jìn)行系統(tǒng)基準(zhǔn)測(cè)試,我們開(kāi)發(fā)了一個(gè)合成數(shù)據(jù)集 AMASS-Replica-Ego-Syn (ARES),其中包含配對(duì)的自我中心視頻和人體運(yùn)動(dòng)。在 ARES 和真實(shí)數(shù)據(jù)上,我們的 EgoEgo 模型的表現(xiàn)明顯優(yōu)于當(dāng)前最先進(jìn)的方法。

從以自我為中心的視頻中估計(jì) 3D 人體運(yùn)動(dòng)對(duì)于 VR/AR 中的應(yīng)用至關(guān)重要,該視頻記錄了使用前置單目攝像頭從第一人稱視角觀察到的環(huán)境。然而,天真地學(xué)習(xí)以自我為中心的視頻和全身人體動(dòng)作之間的映射是具有挑戰(zhàn)性的,原因有兩個(gè)。首先,對(duì)這種復(fù)雜的關(guān)系進(jìn)行建模很困難;與第三人稱視頻的重建運(yùn)動(dòng)不同,人體通常在以自我為中心的視頻的視野之外。二、學(xué)習(xí)這個(gè)映射需要一個(gè)大規(guī)模、多樣化的數(shù)據(jù)集,其中包含配對(duì)的以自我為中心的視頻和相應(yīng)的 3D 人體姿勢(shì)。創(chuàng)建這樣的數(shù)據(jù)集需要細(xì)致的數(shù)據(jù)采集儀器,不幸的是,目前不存在這樣的數(shù)據(jù)集。因此,現(xiàn)有的工作僅適用于運(yùn)動(dòng)和場(chǎng)景多樣性有限的小規(guī)模數(shù)據(jù)集。我們引入了一種通用且穩(wěn)健的方法 EgoEgo,僅根據(jù)不同場(chǎng)景的以自我為中心的視頻來(lái)估計(jì)全身人體運(yùn)動(dòng)。我們的關(guān)鍵思想是使用頭部運(yùn)動(dòng)作為中間表示,將問(wèn)題分解為兩個(gè)階段:根據(jù)輸入的以自我為中心的視頻進(jìn)行頭部運(yùn)動(dòng)估計(jì),以及根據(jù)估計(jì)的頭部運(yùn)動(dòng)進(jìn)行全身運(yùn)動(dòng)估計(jì)。對(duì)于大多數(shù)日?;顒?dòng),人類具有非凡的能力來(lái)穩(wěn)定頭部,使其與身體的質(zhì)心對(duì)齊,這使得頭部運(yùn)動(dòng)成為全身運(yùn)動(dòng)估計(jì)的絕佳特征。更重要的是,我們方法的分解消除了從配對(duì)的自我中心視頻和人體姿勢(shì)中學(xué)習(xí)的需要,從而能夠從大規(guī)模、單模態(tài)數(shù)據(jù)集的組合中學(xué)習(xí)(例如,僅具有自我中心視頻或 3D 人體姿勢(shì)的數(shù)據(jù)集),這是普遍且容易獲得的。這里也推薦「3D視覺(jué)工坊」新課程《面向三維視覺(jué)的Linux嵌入式系統(tǒng)教程[理論+代碼+實(shí)戰(zhàn)]》。

第一階段,從以自我為中心的視頻中估計(jì)頭部姿勢(shì),類似于定位問(wèn)題。然而,由于未知的重力方向以及估計(jì)空間與真實(shí) 3D 世界之間的比例差異,直接應(yīng)用最先進(jìn)的單目 SLAM 方法會(huì)產(chǎn)生不令人滿意的結(jié)果。我們提出了一種混合解決方案,利用 SLAM 和基于學(xué)習(xí)變壓器的模型,從以自我為中心的視頻中實(shí)現(xiàn)更加準(zhǔn)確的頭部運(yùn)動(dòng)估計(jì)。在第二階段,我們基于以預(yù)測(cè)的頭部姿勢(shì)為條件的擴(kuò)散模型生成全身運(yùn)動(dòng)。最后,為了評(píng)估我們的方法并訓(xùn)練其他基線,我們構(gòu)建了一個(gè)包含配對(duì)自我中心視頻和 3D 人體運(yùn)動(dòng)的大規(guī)模合成數(shù)據(jù)集,這對(duì)于未來(lái)的視覺(jué)運(yùn)動(dòng)技能學(xué)習(xí)和模擬到真實(shí)遷移的工作也很有用。我們的工作有四個(gè)主要貢獻(xiàn)。

  • 首先,我們提出了一種分解范式,EgoEgo,將運(yùn)動(dòng)估計(jì)問(wèn)題從以自我為中心的視頻中解耦為兩個(gè)階段:自我頭部姿勢(shì)估計(jì)和以頭部姿勢(shì)為條件的自我身體姿勢(shì)估計(jì)。分解使我們能夠單獨(dú)學(xué)習(xí)每個(gè)組件,從而消除了對(duì)具有兩種成對(duì)模態(tài)的大規(guī)模數(shù)據(jù)集的需要。

  • 其次,我們開(kāi)發(fā)了一種自我頭部姿態(tài)估計(jì)的混合方法,整合了單目 SLAM 和學(xué)習(xí)的結(jié)果。

  • 第三,我們提出了一個(gè)條件擴(kuò)散模型來(lái)生成以頭部姿勢(shì)為條件的全身姿勢(shì)。

  • 最后,我們貢獻(xiàn)了一個(gè)包含以自我為中心的視頻和 3D 人體運(yùn)動(dòng)的大規(guī)模合成數(shù)據(jù)集作為測(cè)試平臺(tái),對(duì)不同的方法進(jìn)行基準(zhǔn)測(cè)試,并展示我們的方法大幅優(yōu)于基線。

第三人稱視頻的運(yùn)動(dòng)估計(jì)。近年來(lái),第三人稱視角下的圖像和視頻的 3D 姿態(tài)估計(jì)得到了廣泛的研究。這個(gè)方向主要有兩個(gè)典型類別。一種是直接從圖像和視頻中回歸關(guān)節(jié)位置。另一種采用參數(shù)人體模型從圖像或視頻中估計(jì)身體模型參數(shù)。最近,學(xué)習(xí)的運(yùn)動(dòng)先驗(yàn)被應(yīng)用于解決抖動(dòng)、缺乏全局軌跡以及丟失關(guān)節(jié)或框架的問(wèn)題。此外,在視頻運(yùn)動(dòng)估計(jì)中強(qiáng)制實(shí)施物理約束。與可以看到全身的第三人稱視頻相比,在以自我為中心的視頻中身體關(guān)節(jié)大多不可見(jiàn),這對(duì)這個(gè)問(wèn)題提出了重大挑戰(zhàn)。盡管從自我中心的角度看不到身體關(guān)節(jié),但環(huán)境如何變化的視覺(jué)信息提供了強(qiáng)烈的信號(hào)來(lái)推斷頭部如何移動(dòng)。在這項(xiàng)工作中,我們建議使用頭部姿勢(shì)作為中間表示來(lái)連接以自我為中心的視頻和全身運(yùn)動(dòng)。以自我為中心的視頻進(jìn)行運(yùn)動(dòng)估計(jì)。以自我為中心的視頻的姿勢(shì)估計(jì)受到越來(lái)越多的關(guān)注。部署魚眼相機(jī)等特殊硬件來(lái)根據(jù)捕獲的圖像預(yù)測(cè)全身姿勢(shì)。雖然在魚眼相機(jī)拍攝的圖像中通??梢钥吹缴眢w關(guān)節(jié),但圖像的失真構(gòu)成了重大挑戰(zhàn)。江等人將標(biāo)準(zhǔn)相機(jī)部署到人體胸部,并提出一種隱式運(yùn)動(dòng)圖匹配方法來(lái)根據(jù)輸入視頻預(yù)測(cè)全身運(yùn)動(dòng)。You2Me通過(guò)觀察相機(jī)視圖中第二人稱的交互姿勢(shì)來(lái)預(yù)測(cè)全身運(yùn)動(dòng)。為了實(shí)現(xiàn)通過(guò)頭戴式攝像頭估計(jì)和預(yù)測(cè)物理上合理的運(yùn)動(dòng)的目標(biāo),EgoPose ?開(kāi)發(fā)了一個(gè) Deep-RL 框架來(lái)學(xué)習(xí)控制策略來(lái)估計(jì)當(dāng)前姿勢(shì)并預(yù)測(cè)未來(lái)姿勢(shì)。后續(xù)工作 Kinpoly集成了運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)來(lái)預(yù)測(cè)與已知物體相互作用的物理上合理的運(yùn)動(dòng)。雖然他們的方法在收集的數(shù)據(jù)集中取得了令人印象深刻的結(jié)果,但它無(wú)法處理數(shù)據(jù)分布之外的場(chǎng)景和運(yùn)動(dòng)。這項(xiàng)工作旨在建立一個(gè)更通用和更強(qiáng)大的框架,僅從以自我為中心的視頻中推斷全身運(yùn)動(dòng)。為了驗(yàn)證在更廣義的場(chǎng)景和運(yùn)動(dòng)中的有效性,我們還引入了一種合成與不同 3D 場(chǎng)景中的動(dòng)作捕捉數(shù)據(jù)相對(duì)應(yīng)的以自我為中心的視頻的方法,以進(jìn)行定量評(píng)估。稀疏傳感器的運(yùn)動(dòng)估計(jì)。一些工作不是從視頻中估計(jì)運(yùn)動(dòng),而是探索從稀疏的傳感器輸入中重建人體運(yùn)動(dòng)。TransPose ?提出了一個(gè)實(shí)時(shí)管道來(lái)預(yù)測(cè)來(lái)自 6 個(gè) IMU 傳感器的全身運(yùn)動(dòng),包括頭部、軀干、左/右臂和左/右小腿。后續(xù)工作 PIP 進(jìn)一步包括運(yùn)動(dòng)學(xué)估計(jì)器之上的 PD 控制器,以在重建過(guò)程中引入物理約束。TIP遵循相同的傳感器設(shè)置并部署基于變壓器的模型以有效地利用 IMU 序列信息。LoBSTr 研究的傳感器較少。給定來(lái)自 4 個(gè)關(guān)節(jié)(頭部、左/右手、軀干)的跟蹤器信息,他們提出了一個(gè)基于 RNN 的模型,用于根據(jù)過(guò)去的上半身關(guān)節(jié)信號(hào)推斷下半身運(yùn)動(dòng)。最近的進(jìn)展進(jìn)一步放寬了僅對(duì)頭部和手部信號(hào)的輸入限制。在這項(xiàng)工作中,我們不依賴慣性傳感器的任何觀測(cè)。相反,我們的目標(biāo)是開(kāi)發(fā)一種僅具有以自我為中心的視頻輸入的解決方案。

我們的方法 EgoEgo 從單眼自我中心視頻序列中估計(jì) 3D 人體運(yùn)動(dòng)。如圖 2 所示,我們的關(guān)鍵思想是利用頭部運(yùn)動(dòng):首先根據(jù)以自我為中心的視頻估計(jì)頭部運(yùn)動(dòng),然后根據(jù)頭部運(yùn)動(dòng)估計(jì)全身運(yùn)動(dòng)。我們證明頭部運(yùn)動(dòng)是全身運(yùn)動(dòng)估計(jì)的一個(gè)出色特征,并且是一種緊湊的中間表示,可以將挑戰(zhàn)減少為兩個(gè)更簡(jiǎn)單的子問(wèn)題。這種解開(kāi)還允許我們?cè)诘谝浑A段利用帶有頭部運(yùn)動(dòng)(但沒(méi)有全身運(yùn)動(dòng))的大規(guī)模以自我為中心的視頻數(shù)據(jù)集,并在第二階段利用單獨(dú)的 3D 人體運(yùn)動(dòng)數(shù)據(jù)集(但沒(méi)有以自我為中心的視頻)。

注釋。我們將全身運(yùn)動(dòng)表示為 ,將從前置頭戴式攝像頭捕獲的以自我為中心的圖像表示為,其中是序列長(zhǎng)度,是姿勢(shì)狀態(tài)的維度, 是圖像的大小。我們引入頭部運(yùn)動(dòng) 作為中間表示,以橋接輸入自我中心視頻和輸出人體運(yùn)動(dòng),其中 是頭部姿勢(shì)的維度。

從以自我為中心的視頻中估計(jì)頭部運(yùn)動(dòng)可以被視為相機(jī)定位問(wèn)題。然而,我們觀察到三個(gè)問(wèn)題,阻礙我們直接應(yīng)用最先進(jìn)的單目 SLAM 方法 來(lái)解決我們的問(wèn)題。首先,估計(jì)的頭部姿勢(shì)的重力方向是未知的。因此,結(jié)果不能直接輸入全身運(yùn)動(dòng)估計(jì)器,因?yàn)樗谕谥亓Ψ较驗(yàn)?的坐標(biāo)系中表達(dá)頭部姿勢(shì)。其次,單目 SLAM 估計(jì)的平移與現(xiàn)實(shí)世界的距離相比并不按比例。第三,單目 SLAM 在估計(jì)相對(duì)頭部旋轉(zhuǎn)方面往往不如平移準(zhǔn)確。基于這些觀察,我們提出了一種混合方法,利用 SLAM 和學(xué)習(xí)模型來(lái)實(shí)現(xiàn)比單獨(dú)使用最先進(jìn)的 SLAM 更準(zhǔn)確的頭部姿勢(shì)估計(jì)。首先,我們開(kāi)發(fā)了一個(gè)基于 Transformer 的模型 GravityNet,根據(jù) SLAM 計(jì)算的旋轉(zhuǎn)和平移軌跡來(lái)估計(jì)重力方向。我們通過(guò)將估計(jì)的重力方向與 3D 世界中的真實(shí)重力方向?qū)R來(lái)旋轉(zhuǎn) SLAM 平移。此外,根據(jù)從以自我為中心的視頻中提取的光流特征,我們的方法學(xué)習(xí)了一個(gè)模型 HeadNet 來(lái)估計(jì)頭部旋轉(zhuǎn)和平移距離。HeadNet 的預(yù)測(cè)平移距離用于重新縮放 SLAM 估計(jì)的平移。直接使用HeadNet預(yù)測(cè)的頭部旋轉(zhuǎn)來(lái)代替SLAM估計(jì)的旋轉(zhuǎn)。圖 2 總結(jié)了我們生成頭部姿勢(shì)的過(guò)程。單目 SLAM。我們采用 DROID-SLAM 來(lái)估計(jì)以自我為中心的視頻中的攝像機(jī)軌跡。DROIDSLAM 是一種基于學(xué)習(xí)的方法,用于估計(jì)相機(jī)姿態(tài)軌跡并同時(shí)重建環(huán)境的 3D 地圖。通過(guò)對(duì)相機(jī)姿態(tài)和深度進(jìn)行循環(huán)迭代更新的設(shè)計(jì),與之前的 SLAM 系統(tǒng)相比,它展示了更出色、更穩(wěn)健的結(jié)果 。重力方向估計(jì)。我們引入 GravityNet 來(lái)根據(jù)頭部姿勢(shì)序列 預(yù)測(cè)重力方向 。重力方向g由單位矢量表示。頭部姿勢(shì)輸入 由 3D 頭部平移、由連續(xù) 6D 旋轉(zhuǎn)向量表示的頭部旋轉(zhuǎn)、頭部平移差值和由計(jì)算的頭部旋轉(zhuǎn)差值組成,其中 表示頭部旋轉(zhuǎn)矩陣在時(shí)間步。我們采用基于變壓器的架構(gòu),由兩個(gè)自注意力塊組成,每個(gè)自注意力塊都有一個(gè)多頭注意力層,后面跟著一個(gè)位置前饋層。我們將變壓器的第一個(gè)輸出輸入 MLP 來(lái)預(yù)測(cè)重力方向 g。我們?cè)诖笠?guī)模運(yùn)動(dòng)捕捉數(shù)據(jù)集 AMASS上訓(xùn)練 GravityNet。然而,AMASS 中的運(yùn)動(dòng)序列具有正確的重力方向 。為了模擬單目 SLAM 預(yù)測(cè)頭部姿勢(shì)的分布,我們對(duì)每個(gè) AMASS 序列中的頭部姿勢(shì)應(yīng)用隨機(jī)尺度和隨機(jī)旋轉(zhuǎn),以生成用于重力估計(jì)的訓(xùn)練數(shù)據(jù)。訓(xùn)練期間使用重力向量的 損失?;?GravityNet 的預(yù)測(cè),我們計(jì)算旋轉(zhuǎn)矩陣 來(lái)對(duì)齊預(yù)測(cè) 和。然后我們將 應(yīng)用于 SLAM 翻譯,表示為并得到,其中 。頭部姿勢(shì)估計(jì)。我們提出 HeadNet 從光流特征序列 預(yù)測(cè)距離 序列和頭部旋轉(zhuǎn) 。光流特征由預(yù)訓(xùn)練的 ResNet-18提取。我們部署與 GravityNet 相同的模型架構(gòu)。由于單目SLAM系統(tǒng)的比例可能與真實(shí)的不一致在人類移動(dòng)的 3D 世界中,我們使用 HeadNet 來(lái)預(yù)測(cè)連續(xù)時(shí)間步之間的平移差的向量范數(shù),表示為 ,其中 表示標(biāo)量值。對(duì)于單目 SLAM 生成并通過(guò)對(duì)齊重力方向旋轉(zhuǎn)的每個(gè)相機(jī)平移序列,給定相機(jī)平移軌跡,我們計(jì)算 和 之間的距離 為 . 我們將距離序列的平均值設(shè)為 。類似地,我們計(jì)算預(yù)測(cè)距離序列的平均值。比例計(jì)算公式為 。我們將尺度 s 乘以預(yù)測(cè)的平移 并使用 作為我們的全局頭部平移結(jié)果。該網(wǎng)絡(luò)還預(yù)測(cè)頭部框架中的頭部角速度 。我們對(duì)預(yù)測(cè)的角速度進(jìn)行積分以生成相應(yīng)的旋轉(zhuǎn) 。在推理過(guò)程中,我們假設(shè)給定第一個(gè)頭部方向,并對(duì)預(yù)測(cè)的頭部角速度進(jìn)行積分來(lái)估計(jì)后續(xù)的頭部方向。HeadNet的訓(xùn)練損失定義為:。 表示平移距離的 損失。 表示角速度的 損失。 表示旋轉(zhuǎn)損失其中 表示使用預(yù)測(cè)角速度的積分旋轉(zhuǎn), 表示地面真實(shí)旋轉(zhuǎn)矩陣,表示單位矩陣。

從頭部姿勢(shì)預(yù)測(cè)全身姿勢(shì)不是一對(duì)一映射問(wèn)題,因?yàn)椴煌娜磉\(yùn)動(dòng)可能具有相同的頭部姿勢(shì)。因此,我們使用條件生成模型來(lái)制定任務(wù)。受到擴(kuò)散模型最近在圖像生成中取得的成功的啟發(fā),我們部署擴(kuò)散模型來(lái)生成以頭部姿勢(shì)為條件的全身姿勢(shì)。我們使用去噪擴(kuò)散概率模型(DDPM)中提出的公式,該公式也已應(yīng)用于運(yùn)動(dòng)生成和運(yùn)動(dòng)插值任務(wù)的一些并發(fā)工作中。我們將首先介紹我們的數(shù)據(jù)表示,然后詳細(xì)介紹條件擴(kuò)散模型的公式。

時(shí)間 時(shí)的身體姿勢(shì) 由全局關(guān)節(jié)位置 () 和全局關(guān)節(jié)旋轉(zhuǎn) () 組成。我們采用廣泛使用的SMPL模型作為骨架,關(guān)節(jié)數(shù)量為 22。為了在擴(kuò)散模型中方便表示,我們使用來(lái)表示一系列身體姿勢(shì) 噪聲級(jí) 。擴(kuò)散模型的高級(jí)思想是設(shè)計(jì)一個(gè)前向擴(kuò)散過(guò)程,將高斯噪聲添加到已知方差表的原始數(shù)據(jù)中,并學(xué)習(xí)一個(gè)去噪模型,在給定正態(tài)分布的采樣 的情況下逐步去噪 個(gè)步驟,以生成 。具體來(lái)說(shuō),擴(kuò)散模型由正向擴(kuò)散過(guò)程和反向擴(kuò)散過(guò)程組成。前向擴(kuò)散過(guò)程逐漸將高斯噪聲添加到原始數(shù)據(jù)中。它是使用 個(gè)步驟的馬爾可夫鏈來(lái)制定的,如下公式所示:每個(gè)步驟由使用 的方差表決定,并定義為為了生成以頭部姿勢(shì)為條件的全身運(yùn)動(dòng),我們需要反轉(zhuǎn)擴(kuò)散過(guò)程。相反的過(guò)程可以近似為具有學(xué)習(xí)均值和固定方差的馬爾可夫鏈:、 其中表示神經(jīng)網(wǎng)絡(luò)的參數(shù),是頭部條件。學(xué)習(xí)到的平均值(為了簡(jiǎn)潔,我們?cè)诜匠讨惺褂?)可以表示如下,其中 和 是固定參數(shù), 是 的預(yù)測(cè):學(xué)習(xí)均值可以重新參數(shù)化為學(xué)習(xí)預(yù)測(cè)原始數(shù)據(jù) 。訓(xùn)練損失定義為 的重建損失:如圖 3 所示,在去噪步驟 中,我們將噪聲級(jí)別 處的頭部姿勢(shì)條件 與身體姿勢(shì)表示 連接起來(lái),并結(jié)合噪聲嵌入作為變壓器的輸入模型,并估計(jì)。

我們的方法不需要配對(duì)訓(xùn)練數(shù)據(jù)。盡管如此,出于基準(zhǔn)測(cè)試的目的,我們開(kāi)發(fā)了一種方法來(lái)自動(dòng)合成具有各種配對(duì)的以自我為中心的視頻和人體動(dòng)作的大型數(shù)據(jù)集。在 3D 場(chǎng)景中生成運(yùn)動(dòng)。為了生成包含以自我為中心的視頻和真實(shí)人體運(yùn)動(dòng)的數(shù)據(jù)集,我們使用大規(guī)模運(yùn)動(dòng)捕捉數(shù)據(jù)集 AMASS ?和 3D 場(chǎng)景數(shù)據(jù)集 Replica 。我們將場(chǎng)景網(wǎng)格從副本轉(zhuǎn)換為有符號(hào)距離場(chǎng) (SDF) 以進(jìn)行穿透計(jì)算。我們將 AMASS 的每個(gè)序列劃分為 150 幀的子序列。對(duì)于每個(gè)子序列,基于 Replica ?提供的語(yǔ)義注釋,我們將第一個(gè)姿勢(shì)放置在隨機(jī)位置,腳與地板接觸。然后我們按照 Wang 等人的方法計(jì)算穿透損耗。對(duì)于該序列中的每個(gè)姿勢(shì)。我們憑經(jīng)驗(yàn)將閾值設(shè)置為2,并且僅保留穿透損失小于閾值的姿勢(shì)。具體來(lái)說(shuō),對(duì)于由參數(shù)化人體模型表示的時(shí)間 的人體網(wǎng)格 ,我們將 表示為頂點(diǎn) 的有符號(hào)距離。穿透損耗定義為合成現(xiàn)實(shí)的以自我為中心的圖像。通過(guò)檢測(cè) 3D 場(chǎng)景的滲透而產(chǎn)生的運(yùn)動(dòng)序列為攝像機(jī)姿勢(shì)軌跡提供了渲染合成自我中心視頻的能力。AI Habitat 是一個(gè)用于實(shí)體代理研究的平臺(tái),支持給定相機(jī)軌跡和 3D 場(chǎng)景的快速渲染。我們將頭部姿勢(shì)軌跡輸入平臺(tái),并在以自我為中心的視圖中合成逼真的圖像。我們以 30 fps 生成 1,664,616 幀,即 18 個(gè)場(chǎng)景中大約 15 小時(shí)的運(yùn)動(dòng)。我們將合成數(shù)據(jù)集命名為 AMASS-Replica-Ego-Syn (ARES),并在圖 4 中顯示了我們的合成數(shù)據(jù)集中的一些示例。

除了人類感知研究之外,我們還對(duì)我們的方法與五個(gè)常用的人體運(yùn)動(dòng)重建指標(biāo)的基線進(jìn)行了評(píng)估和比較。我們還進(jìn)行消融研究來(lái)分析我們方法每個(gè)階段的性能以及模型中的設(shè)計(jì)選擇。

**AMASS-Replica-Ego-Syn (ARES) **是我們的合成數(shù)據(jù)集,其中包含合成的自我中心視頻和地面真實(shí)運(yùn)動(dòng)。ARES 包含 18 個(gè)場(chǎng)景、約 15 小時(shí)的動(dòng)作。我們從訓(xùn)練中刪除了 5 個(gè)場(chǎng)景作為未見(jiàn)過(guò)的場(chǎng)景。訓(xùn)練數(shù)據(jù)集由 13 個(gè)不同場(chǎng)景的約 120 萬(wàn)幀組成。測(cè)試數(shù)據(jù)集包含來(lái)自 5 個(gè)未見(jiàn)過(guò)的場(chǎng)景的 34、850 幀。AMASS 是一個(gè)大規(guī)模動(dòng)作捕捉數(shù)據(jù)集,包含約 45 小時(shí)的不同動(dòng)作。我們按照 HuMoR 分割訓(xùn)練和測(cè)試數(shù)據(jù)。**Kinpoly-MoCap **由使用頭戴式攝像頭捕獲的以自我為中心的視頻和使用動(dòng)作捕捉設(shè)備捕獲的相應(yīng) 3D 動(dòng)作組成。整個(gè)動(dòng)作大約持續(xù)80分鐘。由于它使用動(dòng)作捕捉設(shè)備,因此以自我為中心的視頻僅限于單個(gè)實(shí)驗(yàn)室場(chǎng)景。**Kinpoly-RealWorld **包含使用 iPhone ARKit 捕獲的配對(duì)自我中心視頻和頭部姿勢(shì)。與在實(shí)驗(yàn)室場(chǎng)景中捕獲的 Kinpoly-MoCap 不同,KinpolyRealWorld 提供野外的以自我為中心的視頻。**GIMO **由以自我為中心的視頻、眼睛注視、3D 運(yùn)動(dòng)和掃描的 3D 場(chǎng)景組成。該數(shù)據(jù)集是使用收集的Hololens、iPhone 12 和基于 IMU 的運(yùn)動(dòng)捕捉套件可用于研究由眼睛注視引導(dǎo)的運(yùn)動(dòng)預(yù)測(cè)任務(wù)。我們使用 15 個(gè)場(chǎng)景進(jìn)行訓(xùn)練,4 個(gè)場(chǎng)景進(jìn)行測(cè)試。Evaluation Metrics.

  • 頭部方向誤差 (AMASS-Replica-Ego-Syn,**) **計(jì)算 旋轉(zhuǎn)矩陣 之間差異的 Frobenius 范數(shù),其中 是預(yù)測(cè)的頭部旋轉(zhuǎn)矩陣, 是地面真實(shí)頭部旋轉(zhuǎn)矩陣。

  • 頭部平移誤差 (Head Translation Error,**) **通過(guò)取兩個(gè)軌跡的平均歐幾里得距離來(lái)計(jì)算。我們使用該指標(biāo)來(lái)測(cè)量頭部關(guān)節(jié)平移誤差(以毫米 () 為單位)。

  • **MPJPE **表示每個(gè)關(guān)節(jié)的平均位置誤差,以毫米 () 為單位。

  • **Accel **表示預(yù)測(cè)關(guān)節(jié)位置和測(cè)量的地面真實(shí)關(guān)節(jié)位置之間的加速度差(以 為單位)。

  • **FS **代表腳滑行指標(biāo),并根據(jù) NeMF ?計(jì)算。具體來(lái)說(shuō),我們首先將腳趾和踝關(guān)節(jié)的速度投影到 平面,并計(jì)算每一步中投影速度的 范數(shù),表示為 。我們只累積高度 低于指定閾值 的那些臺(tái)階的水平平移。并且該度量計(jì)算為整個(gè)序列中加權(quán)值 的平均值,并以 () 為單位進(jìn)行測(cè)量。

訓(xùn)練數(shù)據(jù)。我們使用 ARES、KinplyRealWorld 和 GIMO 提供的配對(duì)自我中心視頻和頭部姿勢(shì)來(lái)訓(xùn)練 HeadNet。請(qǐng)注意,這些數(shù)據(jù)集中的身體運(yùn)動(dòng)不用于訓(xùn)練 HeadNet。我們的 GravityNet 和條件擴(kuò)散模型都是在 AMASS 上訓(xùn)練的。對(duì)于下面的基線,我們使用配對(duì)的以自我為中心的視頻和 ARES 中的地面真實(shí)運(yùn)動(dòng)來(lái)訓(xùn)練它們。基線。我們將我們的方法與兩個(gè)基線 PoseReg 和 Kinpoly 進(jìn)行比較。PoseReg 將一系列光流特征作為輸入,并使用 LSTM 模型來(lái)預(yù)測(cè)每個(gè)時(shí)間步的姿勢(shì)狀態(tài)。位姿狀態(tài)由根平移、根方向、關(guān)節(jié)旋轉(zhuǎn)以及相應(yīng)的速度(包括所有關(guān)節(jié)的根線速度和角速度)組成。KinpolyOF 提出了一種每步回歸模型來(lái)根據(jù)光流特征估計(jì)全身運(yùn)動(dòng)。因?yàn)槲覀兊膯?wèn)題只允許以自我為中心的視頻作為輸入,所以我們選擇僅具有光流特征作為輸入的 Kinpoly 選項(xiàng),而不依賴于依賴于附加知識(shí)的地面真實(shí)頭部姿勢(shì)和動(dòng)作標(biāo)簽。結(jié)果。我們將 EgoEgo 的完整流程與 ARES、Kinpoly-MoCap 和 GIMO 上的基線方法 PoseReg 和 Kinpoly-OF 進(jìn)行比較,如表 1 所示。我們表明,我們的 EgoEgo 優(yōu)于所有在所有三個(gè)數(shù)據(jù)集上都有很大的基線。我們?cè)趫D 5 中顯示了定性結(jié)果。我們生成的運(yùn)動(dòng)更好地保留了根軌跡。與基線相比,我們的方法還可以生成更加動(dòng)態(tài)和真實(shí)的運(yùn)動(dòng)。

基線。我們將我們的混合方法與 DROID-SLAM 的預(yù)測(cè)結(jié)果進(jìn)行比較。為了公平比較,我們通過(guò)將 SLAM 的第一個(gè)預(yù)測(cè)頭部姿勢(shì)與地面真實(shí)頭部姿勢(shì)對(duì)齊來(lái)對(duì) SLAM 軌跡應(yīng)用旋轉(zhuǎn)。我們?cè)?AMASS 訓(xùn)練分割上訓(xùn)練 GravityNet。對(duì)于 HeadNet,我們分別在 ARES、Kinpoly-RealWorld 和 GIMO 上進(jìn)行訓(xùn)練,以評(píng)估不同數(shù)據(jù)集。結(jié)果。我們?cè)u(píng)估了三個(gè)數(shù)據(jù)集上的頭部姿勢(shì)估計(jì),如表 2 所示。我們?cè)?ARES 上顯示了更準(zhǔn)確的頭部旋轉(zhuǎn)預(yù)測(cè)結(jié)果,并在真實(shí)捕獲的數(shù)據(jù)上顯示了可比較的結(jié)果。由于真實(shí)捕獲的數(shù)據(jù)規(guī)模有限(Kinpoly-RealWorld包含20分鐘的訓(xùn)練視頻,GIMO包含30分鐘的訓(xùn)練視頻),我們相信未來(lái)大規(guī)模真實(shí)捕獲的發(fā)展可以進(jìn)一步改進(jìn)頭部旋轉(zhuǎn)預(yù)測(cè)具有頭部姿勢(shì)的數(shù)據(jù)集??傮w而言,我們的混合方法結(jié)合了 HeadNet 的準(zhǔn)確旋轉(zhuǎn)預(yù)測(cè)和重力對(duì)齊 SLAM 結(jié)果的重新縮放平移,并產(chǎn)生更準(zhǔn)確的頭部姿勢(shì)估計(jì)結(jié)果作為第二階段的輸入。這里也推薦「3D視覺(jué)工坊」新課程《面向三維視覺(jué)的Linux嵌入式系統(tǒng)教程[理論+代碼+實(shí)戰(zhàn)]》。

基線。我們將用于全身姿勢(shì)估計(jì)的條件擴(kuò)散模型與兩個(gè)基線 AvatarPoser 和 Kinpoly-Head 進(jìn)行比較。AvatarPoser 將頭部和手部姿勢(shì)作為輸入來(lái)預(yù)測(cè)全身運(yùn)動(dòng)。我們從輸入中刪除手部姿勢(shì),并將其修改為僅包含頭部姿勢(shì)輸入的設(shè)置。Kinpoly-Head 是我們對(duì) Kinpoly 模型的修改變體,僅將頭部姿勢(shì)作為輸入?;€和我們的方法都是在 AMASS 的訓(xùn)練分割上使用高質(zhì)量的運(yùn)動(dòng)捕捉數(shù)據(jù)進(jìn)行訓(xùn)練的?;€。我們將用于全身姿勢(shì)估計(jì)的條件擴(kuò)散模型與兩個(gè)基線 AvatarPoser 和 Kinpoly-Head 進(jìn)行比較。AvatarPoser 將頭部和手部姿勢(shì)作為輸入來(lái)預(yù)測(cè)全身運(yùn)動(dòng)。我們從輸入中刪除手部姿勢(shì),并將其修改為僅包含頭部姿勢(shì)輸入的設(shè)置。Kinpoly-Head 是我們對(duì) Kinpoly 模型的修改變體,僅將頭部姿勢(shì)作為輸入?;€和我們的方法都是在 AMASS 的訓(xùn)練分割上使用高質(zhì)量的運(yùn)動(dòng)捕捉數(shù)據(jù)進(jìn)行訓(xùn)練的。結(jié)果。我們?cè)?AMASS 測(cè)試集上評(píng)估基線和我們的方法,如表 3 所示。由于我們的模型是生成式的,因此同一頭部姿勢(shì)輸入有多個(gè)合理的預(yù)測(cè)。為了進(jìn)行定量比較,我們?yōu)槊總€(gè)頭部姿勢(shì)輸入生成 200 個(gè)樣本,并使用 MPJPE 最小的樣本作為結(jié)果。``

頭部姿勢(shì)估計(jì)中組件的影響。我們研究了表 4 中頭部姿勢(shì)估計(jì)中每個(gè)組件的影響。我們展示了用于對(duì)齊重力方向的旋轉(zhuǎn)和學(xué)習(xí)的比例都可以有效地改善頭部平移結(jié)果。頭部姿勢(shì)對(duì)全身姿勢(shì)估計(jì)的影響。我們比較以預(yù)測(cè)的頭部姿勢(shì)和地面真實(shí)頭部姿勢(shì)作為輸入的全身姿勢(shì)估計(jì)結(jié)果。表5顯示,地面真實(shí)頭部姿勢(shì)顯著改善了全身姿勢(shì)估計(jì),這表明通過(guò)開(kāi)發(fā)預(yù)測(cè)更準(zhǔn)確頭部姿勢(shì)的方法,可以進(jìn)一步改善全身姿勢(shì)估計(jì)。頭部姿勢(shì)估計(jì)中組件的影響。我們研究了表 4 中頭部姿勢(shì)估計(jì)中每個(gè)組件的影響。我們展示了用于對(duì)齊重力方向的旋轉(zhuǎn)和學(xué)習(xí)的比例都可以有效地改善頭部平移結(jié)果。頭部姿勢(shì)對(duì)全身姿勢(shì)估計(jì)的影響。我們比較以預(yù)測(cè)的頭部姿勢(shì)和地面真實(shí)頭部姿勢(shì)作為輸入的全身姿勢(shì)估計(jì)結(jié)果。表5顯示,地面真實(shí)頭部姿勢(shì)顯著改善了全身姿勢(shì)估計(jì),這表明通過(guò)開(kāi)發(fā)預(yù)測(cè)更準(zhǔn)確頭部姿勢(shì)的方法,可以進(jìn)一步改善全身姿勢(shì)估計(jì)。

作為評(píng)估的一部分,我們還進(jìn)行了兩項(xiàng)人類感知研究。第一個(gè)是評(píng)估以自我為中心的視頻預(yù)測(cè)的全身運(yùn)動(dòng)的質(zhì)量,第二個(gè)是評(píng)估根據(jù)地面真實(shí)頭部姿勢(shì)預(yù)測(cè)的全身運(yùn)動(dòng)的質(zhì)量。在這兩項(xiàng)研究中,我們比較了四種類型的運(yùn)動(dòng):來(lái)自我們的自我和兩個(gè)基線的結(jié)果,以及基本事實(shí)。對(duì)于第一個(gè)人類研究,每次都會(huì)向用戶呈現(xiàn)兩個(gè)動(dòng)作和一個(gè)以自我為中心的視頻,并要求用戶選擇哪個(gè)更合理。在第二項(xiàng)人體研究中,用戶會(huì)看到兩個(gè)動(dòng)作,并被要求選擇一個(gè)看起來(lái)更自然、更真實(shí)的動(dòng)作。由于有 10 個(gè)示例,并且兩個(gè)動(dòng)議可能來(lái)自四個(gè)來(lái)源,因此我們?yōu)槊總€(gè)研究設(shè)置了 60 個(gè)問(wèn)題。每個(gè)問(wèn)題均由 20 名 Amazon Mechanical Turk 工人回答. 如圖 6(a) 所示,對(duì)于以自我為中心的視頻進(jìn)行全身估計(jì),與基線相比,98% 和 69% 的工作人員更喜歡我們的結(jié)果。此外,與真實(shí)結(jié)果相比,34% 的回答更喜歡我們的結(jié)果(請(qǐng)注意,完美的輸出將達(dá)到 50%),這表明人們無(wú)法輕易區(qū)分我們的結(jié)果和真實(shí)結(jié)果運(yùn)動(dòng)。如圖 6(b) 所示,對(duì)于根據(jù)頭部姿勢(shì)進(jìn)行全身估計(jì),與基線相比,88% 和 79% 的工作人員更喜歡我們的結(jié)果。

我們提出了一個(gè)通用框架來(lái)估計(jì)以自我為中心的視頻中的全身運(yùn)動(dòng)。關(guān)鍵是將問(wèn)題分解為兩個(gè)階段。我們從以自我為中心的視頻中預(yù)測(cè)頭部姿勢(shì),并輸入第一階段的輸出來(lái)估計(jì)第二階段的全身運(yùn)動(dòng)。此外,我們還開(kāi)發(fā)了一種混合解決方案,可以在單目 SLAM 的基礎(chǔ)上產(chǎn)生更準(zhǔn)確的頭部姿勢(shì)。我們還提出了一個(gè)條件擴(kuò)散模型,可以根據(jù)預(yù)測(cè)的頭部姿勢(shì)生成各種高質(zhì)量的全身運(yùn)動(dòng)。為了在大規(guī)模數(shù)據(jù)集中對(duì)不同方法進(jìn)行基準(zhǔn)測(cè)試,我們提出了一種數(shù)據(jù)生成管道來(lái)合成具有配對(duì)自我中心視頻和 3D 人體運(yùn)動(dòng)的大規(guī)模數(shù)據(jù)集。與之前的工作相比,我們?cè)诤铣蓴?shù)據(jù)集和真實(shí)捕獲的數(shù)據(jù)集上都展示了出色的結(jié)果。

1、DDPM:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/DiffusionModel%20(v2).pdf, https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/DDPM%20(v7).pdf

2、Transformer: https://zhuanlan.zhihu.com/p/105080984

3、SMPL模型:https://www.jianshu.com/p/e2289076c3c2

4、DROID-SLAM:https://zhuanlan.zhihu.com/p/434471738


CVPR2023 | 新方法EgoEgo無(wú)需配對(duì)視頻即可預(yù)測(cè)3D人體運(yùn)動(dòng)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
隆安县| 建水县| 乌兰察布市| 万源市| 利川市| 蒙山县| 栖霞市| 绵竹市| 天等县| 墨竹工卡县| 元江| 长阳| 平泉县| 大余县| 巴青县| 政和县| 商洛市| 鄱阳县| 和平县| 尼勒克县| 特克斯县| 罗甸县| 资兴市| 南平市| 米泉市| 青浦区| 湘乡市| 荥经县| 闵行区| 从化市| 延寿县| 修武县| 上栗县| 葵青区| 巴楚县| 天全县| 禹城市| 灵丘县| 大田县| 西青区| 比如县|