最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

用于視頻中 3D 人體姿勢(shì)估計(jì)的 Seq2seq 混合時(shí)空編碼器

2022-07-02 20:53 作者:熊二愛光頭強(qiáng)丫  | 我要投稿

用于視頻中3D人體姿勢(shì)估計(jì)的Seq2seq混合時(shí)空編碼器

摘要

最近已經(jīng)引入了基于transformers 的解決方案,以通過全局考慮所有幀中的身體關(guān)節(jié)來學(xué)習(xí)時(shí)空相關(guān)性,從2D關(guān)鍵點(diǎn)序列估計(jì)3D人體姿態(tài)。我們觀察到不同關(guān)節(jié)的運(yùn)動(dòng)差別很大。然而,先前的方法不能有效地對(duì)每個(gè)關(guān)節(jié)的穩(wěn)固的幀間對(duì)應(yīng)關(guān)系建模,導(dǎo)致時(shí)空相關(guān)性的學(xué)習(xí)不充分。我們提出了MixSTE(混合時(shí)空編碼器),它有一個(gè)時(shí)間變換塊來分別模擬每個(gè)關(guān)節(jié)的時(shí)間運(yùn)動(dòng),還有一個(gè)空間變換塊來學(xué)習(xí)關(guān)節(jié)間的空間相關(guān)性。交替使用這兩個(gè)塊來獲得更好的時(shí)空特征編碼。此外,網(wǎng)絡(luò)輸出從輸入視頻的中心幀擴(kuò)展到整個(gè)幀,從而提高了輸入和輸出序列之間的一致性。在三個(gè)基準(zhǔn)數(shù)據(jù)集(即Human3.6M、MPI-INF-3DHP和HumanEva)上進(jìn)行了大量實(shí)驗(yàn)。結(jié)果表明,我們的模型比現(xiàn)有的方法分別提高了10.9%的P-MPJPE和7.6%的MPJPE。

代碼可從https://githubcom/JinluZhang1126/MixSTE獲得。

1. 介紹

作者發(fā)現(xiàn)不同關(guān)節(jié)的運(yùn)動(dòng)具有明顯的差異性,而之前的研究沒有有效地對(duì)每個(gè)幀之間對(duì)應(yīng)關(guān)節(jié)進(jìn)行建模,導(dǎo)致時(shí)空相關(guān)性的學(xué)習(xí)不足。作者提出了MixSTE(Mixed Spatio-Temporal Encoder),包含temporal transformer block和spatial transformer block,其中temporal transformer block分別對(duì)每個(gè)關(guān)節(jié)在時(shí)序運(yùn)動(dòng)上進(jìn)行建模,spatial transformer block則學(xué)習(xí)關(guān)節(jié)間的空間關(guān)系。兩個(gè)塊交替循環(huán),以提取到更好的時(shí)空信息。另外網(wǎng)絡(luò)輸出不再像之前只輸出中間幀,而是整個(gè)序列幀,提高了輸入和輸出序列之間的一致性。

?

基于單目觀察的三維人體姿態(tài)估計(jì)是一項(xiàng)基本的視覺任務(wù),它從輸入圖像或視頻中重建三維人體關(guān)節(jié)位置。由于這項(xiàng)任務(wù)可以獲得身體幾何形狀和運(yùn)動(dòng)的有意義的表達(dá),因此它有廣泛的應(yīng)用,如動(dòng)作識(shí)別[54,55],虛擬人物[5–7,52],以及人與機(jī)器人的交互[11,43,50]。最近的工作是基于2D到3D的提升管道[1,4,28,31,37,46,57],它首先檢測(cè)2D關(guān)鍵點(diǎn),然后將它們提升到3D。由于單目數(shù)據(jù)的深度模糊,可能會(huì)從同一個(gè)2D位姿映射出多個(gè)潛在的3D位姿,僅根據(jù)單幀二維關(guān)鍵點(diǎn)信息很難恢復(fù)出準(zhǔn)確的三維姿態(tài)。


通過利用輸入視頻中包含的時(shí)間信息來解決單幀中的上述問題,已經(jīng)取得了顯著的進(jìn)步[1,4,16,28,37,46]。最近,由于transformer [45]在對(duì)序列數(shù)據(jù)建模的能力方面取得了成功,鄭等人[57]引入了一種基于transformer的3D人體姿態(tài)估計(jì)網(wǎng)絡(luò)。它利用時(shí)空信息來估計(jì)視頻中更精確的中心幀姿態(tài)。通過對(duì)所有關(guān)節(jié)之間的空間相關(guān)性和連續(xù)幀之間的時(shí)間相關(guān)性進(jìn)行建模,PoseFormer [57]實(shí)現(xiàn)了性能改進(jìn)。然而,它忽略了身體關(guān)節(jié)之間的運(yùn)動(dòng)差異,導(dǎo)致時(shí)空相關(guān)性的學(xué)習(xí)不足。此外,它增加了時(shí)間transformers模塊的維數(shù),這限制了較長(zhǎng)輸入序列的使用。

Poseformer[57]將視頻作為輸入,并且只估計(jì)中心幀的人體姿態(tài),我們將這種管道總結(jié)為seq2frame方法。許多最近的方法[1,4,28,37,57]效仿它,并且它們利用相鄰幀來提高估計(jì)某一時(shí)刻的姿態(tài)的精度,但是由于單幀輸出而忽略了序列相干性。此外,在推斷過程中,這些seq2frame解決方案需要重復(fù)輸入一個(gè)2D關(guān)鍵點(diǎn)序列,具有較大的重疊,以獲得所有幀的3D姿態(tài),這帶來了冗余計(jì)算。與seq2frame方法相反,還有seq2seq方法,它從輸入2D關(guān)鍵點(diǎn)回歸3D姿態(tài)序列。這些方法[16,46]主要依靠長(zhǎng)時(shí)短時(shí)記憶(LSTM) [15]細(xì)胞或圖形卷積網(wǎng)絡(luò)(GCN) [21],在學(xué)習(xí)連續(xù)估計(jì)結(jié)果中的時(shí)間信息方面表現(xiàn)良好。然而,目前的seq2seq網(wǎng)絡(luò)缺乏輸入和輸出序列之間的全局建模能力,這往往在長(zhǎng)序列的輸出姿態(tài)中過于平滑[37]。LSTM [15]的低效率對(duì)于從視頻中估計(jì)人體姿態(tài)也是一個(gè)嚴(yán)重的問題。

雖然先前的工作集中于在空間和時(shí)間域中關(guān)聯(lián)所有關(guān)節(jié),但是我們觀察到不同身體關(guān)節(jié)的運(yùn)動(dòng)軌跡因幀而異,并且應(yīng)該分別學(xué)習(xí)。此外,輸入2D關(guān)鍵點(diǎn)序列和輸出3D姿態(tài)序列具有穩(wěn)固的全局一致性,并且它們應(yīng)該緊密耦合以促進(jìn)精確和平滑的3D姿態(tài)。

在上述觀察的激勵(lì)下,在這項(xiàng)工作中,我們提出MixSTE來學(xué)習(xí)每個(gè)身體關(guān)節(jié)的單獨(dú)時(shí)間運(yùn)動(dòng),并在seq2seq方法中傳入連續(xù)連貫的人類姿勢(shì)序列。與重建中心幀并忽略單個(gè)關(guān)節(jié)運(yùn)動(dòng)的現(xiàn)有方法[57]相比,MixSTE通過新穎的seq2seq架構(gòu)和一組運(yùn)動(dòng)感知約束將2D關(guān)鍵點(diǎn)序列提升為3D姿態(tài)序列。具體來說,如圖1頂部所示,我們提出了關(guān)節(jié)分離,以考慮每個(gè)關(guān)節(jié)的時(shí)間運(yùn)動(dòng)信息。它將每個(gè)2D聯(lián)合作為一個(gè)單獨(dú)的特征(在transformer中稱為標(biāo)記)來充分學(xué)習(xí)時(shí)空相關(guān)性,并有助于在時(shí)域中降低聯(lián)合特征的維度。此外,我們提出了一種seq2seq的交替設(shè)計(jì),以靈活地在長(zhǎng)序列中獲得更好的序列一致性,這減少了冗余計(jì)算和過度平滑。這樣,可以充分考慮不同身體關(guān)節(jié)的時(shí)間運(yùn)動(dòng)軌跡,以預(yù)測(cè)精確的3D姿態(tài)序列。據(jù)我們所知,所提出的方法是第一個(gè)在seq2seq流水線中利用transformer編碼器的方法,它增強(qiáng)了學(xué)習(xí)時(shí)空相關(guān)性以進(jìn)行精確的姿態(tài)估計(jì),并顯著提高了seq2frame方法的推理速度(見圖1的底部)。此外,我們的方法可以很容易地適應(yīng)任何長(zhǎng)度的輸入序列。

我們對(duì)3D人體姿態(tài)估計(jì)的貢獻(xiàn)可以概括為三個(gè)方面:

(1)提出MixSTE是為了有效地捕捉長(zhǎng)序列上身體不同關(guān)節(jié)的時(shí)間運(yùn)動(dòng),這有助于對(duì)足夠的時(shí)空相關(guān)性進(jìn)行建模。

(2)我們提出了一種新的交替設(shè)計(jì),使用基于transformers的seq2seq模型來學(xué)習(xí)序列之間的全局一致性,以提高重建姿態(tài)的準(zhǔn)確性。

(3)我們的方法在三個(gè)基準(zhǔn)測(cè)試中取得了一流的性能,并具有出色的泛化。

2.相關(guān)工作

三維人體姿態(tài)估計(jì)。從單目數(shù)據(jù)估計(jì)三維人體姿態(tài)是依靠運(yùn)動(dòng)學(xué)特征或先驗(yàn)的骨架結(jié)構(gòu)[17,18,38,39]。隨著深度學(xué)習(xí)的發(fā)展,越來越多的數(shù)據(jù)驅(qū)動(dòng)方法被提出,這些方法可以分為端到端方式和二維到三維提升方式。端到端方式直接從輸入中估計(jì)3D坐標(biāo),而不需要中間的2D姿態(tài)表示。一些方法[36,42,44]遵循這種方式,但由于直接從圖像空間進(jìn)行回歸,計(jì)算成本較高。與端到端方式不同,2D到3D提升管道首先估計(jì)RGB數(shù)據(jù)中的2D關(guān)鍵點(diǎn),然后利用二維和三維人體結(jié)構(gòu)之間的對(duì)應(yīng)關(guān)系將2D關(guān)鍵點(diǎn)提升到3D姿態(tài)。得益于二維關(guān)鍵點(diǎn)檢測(cè)工作的可靠性[8,13,29,34,41],最近的二維到三維提升方法[9,27,30,31,48,56,58]優(yōu)于端到端方法。因此,我們采用2D到3D方式來獲得穩(wěn)健的2D中間監(jiān)督。

2D到3D提升下的Seq2frame和Seq2seq。最近,來自視頻的時(shí)間信息已經(jīng)被利用來通過許多方法產(chǎn)生更魯棒的預(yù)測(cè)(VIBE、TCMR)對(duì)于視頻輸入,許多有影響力的作品(seq2frame)注重預(yù)測(cè)輸入視頻的中心幀,以產(chǎn)生更魯棒的預(yù)測(cè)和對(duì)噪聲更低的敏感性。Pavllo等人[37]提出了基于時(shí)間卷積網(wǎng)絡(luò)(TCN)的擴(kuò)展時(shí)間卷積來提取時(shí)間特征。一些后續(xù)工作通過利用注意機(jī)制[28]或者將姿態(tài)估計(jì)任務(wù)分解為骨骼長(zhǎng)度和骨骼方向預(yù)測(cè)[4]來改進(jìn)TCN的性能,但是它們必須固定輸入序列的感受域。與它們相比,我們的方法不需要根據(jù)卷積核或滑動(dòng)窗口大小預(yù)設(shè)每個(gè)輸入的長(zhǎng)度。此外,GCN [21]也被[1]應(yīng)用于這項(xiàng)任務(wù),以學(xué)習(xí)人類和手部姿態(tài)的多尺度特征。這些作品取得了良好的業(yè)績(jī);然而,計(jì)算冗余是這些方法的共同缺陷。

另一方面,一些工作(seq2seq)提高了 3D 姿態(tài)估計(jì)的連貫性和效率,并一次重建輸入序列的所有幀。引入 LSTM [15] 從一組 2D 關(guān)鍵點(diǎn) [26] 估計(jì)視頻中的 3D 姿勢(shì)。侯賽因等人[16]提出了一種時(shí)間導(dǎo)數(shù)損失函數(shù)來確保序列的時(shí)間一致性,但它面臨著計(jì)算效率低的問題。王等人[46] 利用基于GCN的方法并設(shè)計(jì)了相應(yīng)的損失來模擬短時(shí)間間隔和長(zhǎng)時(shí)間范圍內(nèi)的運(yùn)動(dòng),但它缺乏輸入序列的全局建模能力。與[16, 46] 相比,我們的方法具有在空間和時(shí)間域中每個(gè)關(guān)節(jié)的全局建模能力的優(yōu)勢(shì)。此外,它還支持框架和關(guān)節(jié)的并行處理,以解決 LSTM [15] 的低效率問題。

自注意與Transformer[45]首先提出了具有自注意的transformer體系結(jié)構(gòu),并將其應(yīng)用于各種視覺任務(wù),如用視覺transformer(visual Transformer, ViT)[10]進(jìn)行分類,用DETR[2]進(jìn)行檢測(cè)。對(duì)于人體姿態(tài)估計(jì)任務(wù),[49]提出了轉(zhuǎn)置法從圖像中估計(jì)二維姿態(tài)。[25]提出了一種transformer框架,用于從單幅圖像中進(jìn)行人體網(wǎng)格恢復(fù)和姿態(tài)估計(jì),但忽略了視頻中的時(shí)間信息。一些研究人員還探索了多視角三維人體姿態(tài)估計(jì)方案[14]。引入跨步transformer編碼器[23],結(jié)合局部環(huán)境。進(jìn)一步,PoseFormer[57]基于ViT[10]構(gòu)建了一個(gè)模型,以連續(xù)捕獲空間和時(shí)間依賴。[23]和[57]都需要固定時(shí)空編碼器的順序,只重建視頻的中心幀。在應(yīng)用transformer架構(gòu)方面,我們的方法與他們類似。但我們考慮了身體不同關(guān)節(jié)的運(yùn)動(dòng)軌跡,并應(yīng)用seq2seq來提高模型序列的一致性。

從以上相關(guān)工作的分析和比較來看,進(jìn)一步探索基于transformer的三維人體姿態(tài)估計(jì)方法是必要的和可行的,但是在三維人體姿態(tài)任務(wù)中還沒有將transformer與seq2seq框架相結(jié)合的方法。

2. 我們的方法

如圖2所示,我們的網(wǎng)絡(luò)將一個(gè)具有N個(gè)關(guān)節(jié)和T個(gè)幀的串聯(lián)2D坐標(biāo)CN,T ∈ RN×T ×2作為輸入,其中輸入的信道大小為2。首先,我們將輸入的關(guān)鍵點(diǎn)序列CN,T個(gè)幀投影到高維特征PN,T ∈ RN×T ×dm,對(duì)于每個(gè)聯(lián)合表示具有特征維數(shù)dm。然后,我們利用位置嵌入矩陣來保留空間和時(shí)間域的位置信息。所提出的混合策略將PN,T作為輸入,目的是交替學(xué)習(xí)空間相關(guān)性和分離時(shí)間運(yùn)動(dòng)。最后,我們使用一個(gè)回歸頭來連接編碼器的輸出X ∈ RN×T ×dm,并且取維數(shù)dm為3來得到3D人體姿態(tài)序列Out ∈ RN×T ×3。


3.1.混合時(shí)空編碼器

對(duì)于給定的2D輸入關(guān)鍵點(diǎn)序列,我們利用MixSTE分別對(duì)空間相關(guān)性和時(shí)間運(yùn)動(dòng)進(jìn)行建模。MixSTE由空間transformer模塊(STB)和時(shí)間transformer模塊(TTB)組成。這里,STB計(jì)算關(guān)節(jié)之間的自我注意,并旨在學(xué)習(xí)每一幀的身體關(guān)節(jié)關(guān)系,而TTB計(jì)算幀之間的自我注意,并專注于學(xué)習(xí)每個(gè)關(guān)節(jié)的全局時(shí)間相關(guān)性。

3.1.1單獨(dú)的時(shí)間相關(guān)性學(xué)習(xí)

為了將有效的運(yùn)動(dòng)軌跡注入到學(xué)習(xí)的表示中,我們考慮每個(gè)關(guān)節(jié)的時(shí)間對(duì)應(yīng)性,以便在動(dòng)態(tài)序列上顯式地對(duì)相同關(guān)節(jié)的相關(guān)性進(jìn)行建模。與之前的方法[57]不同,我們不將所有身體關(guān)節(jié)視為時(shí)間變換塊中的標(biāo)記。我們?cè)跁r(shí)間維度上分離不同的關(guān)節(jié),使得每個(gè)關(guān)節(jié)的軌跡是一個(gè)單獨(dú)的標(biāo)記p ∈ R1×T ×dm,身體的不同關(guān)節(jié)被并行建模。從時(shí)間維度的角度來看,身體關(guān)節(jié)的不同運(yùn)動(dòng)軌跡被分別建模,以更好地表示時(shí)間相關(guān)性。關(guān)節(jié)分離操作如下:


其中pi,j ∈ PN,T表示第j幀中的第I個(gè)關(guān)節(jié),F(xiàn)表示時(shí)間編碼器函數(shù),第l個(gè)TTB編碼器的輸出是Xl ∈ RN×T ×dm。此外,將身體每個(gè)關(guān)節(jié)視為一個(gè)單獨(dú)的標(biāo)記,可以將模型的維數(shù)從PoseFormer [57]的N × dm降低到dm,并且還可以在模型中處理更長(zhǎng)的序列。

3.1.2空間相關(guān)性學(xué)習(xí)

我們使用空間變換塊(STB)來學(xué)習(xí)每幀中關(guān)節(jié)之間的空間相關(guān)性。給定具有N個(gè)關(guān)節(jié)的2D關(guān)鍵點(diǎn),我們認(rèn)為每個(gè)關(guān)節(jié)都是空間注意力的表征。首先,我們把2D關(guān)鍵點(diǎn)作為輸入,用線性嵌入層把每個(gè)關(guān)鍵點(diǎn)投影到一個(gè)高維特征上。該特征在STB中被稱為空間標(biāo)記。然后,我們用位置矩陣Es pos∈rn×DM嵌入空間位置信息。之后,第I幀的空間表征Pi ∈ RN×dm被饋入STB的空間自關(guān)注機(jī)制,以模擬所有關(guān)節(jié)之間的依賴性,并在第l個(gè)STB中輸出高維表征Xsl ∈ RN×T ×dm。

3.1.3使用Seq2seq的交替設(shè)計(jì)

時(shí)空關(guān)聯(lián)中的交替設(shè)計(jì)。STB和TTB以交替的方式設(shè)計(jì),以編碼不同的高維標(biāo)記。交替設(shè)計(jì)的過程就像遞歸神經(jīng)網(wǎng)絡(luò)(RNN),但我們可以在關(guān)節(jié)和時(shí)間維度上并行。我們?yōu)閐l循環(huán)堆疊STB和TTB,并且特征的維度被保留為固定大小的dm,以保證時(shí)空相關(guān)學(xué)習(xí)集中在相同的關(guān)節(jié)上。具體地,空間和時(shí)間位置嵌入僅應(yīng)用于第一編碼器中,以保留兩種位置信息。此外,存在空間和時(shí)間域的獨(dú)立性,其中由于時(shí)空建模的單一過程,先前的方法通常僅學(xué)習(xí)部分序列一致性。所提出的具有堆疊結(jié)構(gòu)的交替設(shè)計(jì)可以獲得更好的相干性和時(shí)空特征編碼。

Seq2seq框架。此外,為了更好地利用2D關(guān)鍵點(diǎn)的輸入序列和3D姿態(tài)的輸出序列之間的全局序列一致性,我們?cè)谖覀兊哪P椭欣胹eq2seq管道。它可以一次預(yù)測(cè)輸入2D關(guān)鍵點(diǎn)的所有3D姿態(tài),這有助于保持輸入和輸出序列之間的序列一致性。此外,對(duì)于包含T幀的序列,我們需要更少的推理次數(shù),這意味著更高的效率。假設(shè)每個(gè)輸入的序列長(zhǎng)度t < T,我們的模型和seq2frame方法之間的推理時(shí)間間隔G將隨著T的增加而變大:


其中δ表示輸入序列的填充長(zhǎng)度。

總之,由于這些先進(jìn)的組件,我們的模型可以用較少的計(jì)算冗余來捕捉各種時(shí)間運(yùn)動(dòng)和全局序列一致性。

3.2. MixSTE中的transformer塊

MixSTE中的transformers模塊遵循縮放后的dotproduct注意事項(xiàng)[45]。每個(gè)頭部中的查詢、關(guān)鍵字和值矩陣Q、K、V的注意力計(jì)算由以下公式表示:


其中線性投影權(quán)重為WO ∈ Rdm×dm。在我們的方法的Transformer編碼器中,每個(gè)聯(lián)合標(biāo)記p ∈ PN從2D坐標(biāo)CN ∈ RN×2的聯(lián)合ci投影。聯(lián)合標(biāo)記p通過矩陣Epos ∈ RN×dm嵌入位置信息:


其中Norm表示層歸一化,Le表示線性嵌入層。然后,STB和TTB如下計(jì)算關(guān)節(jié)之間的時(shí)空相關(guān)性:


其中Rs表示關(guān)節(jié)標(biāo)記X的注意力輸出,Ui是X通過線性變換映射的矩陣,Wm是關(guān)節(jié)中查詢、鍵和值對(duì)應(yīng)的線性變換權(quán)重矩陣。

大的權(quán)重用于運(yùn)動(dòng)幅度較大的關(guān)節(jié)。軀干軀干,四肢在中間,四肢末端。標(biāo)記到軀干的重量是最小的,而分配到端點(diǎn)的重量是最大的。

?

3.3.損失函數(shù)

以端到端的方式訓(xùn)練網(wǎng)絡(luò),最終損失函數(shù)L定義為:


具體而言,我們首先探索了加權(quán)平均每關(guān)節(jié)位置誤差(WMPJPE ),該誤差在計(jì)算MPJPE時(shí)對(duì)人體的不同關(guān)節(jié)給予不同的關(guān)注。重量為W的WMPJPE Lw計(jì)算如下:


其中Ns表示三個(gè)數(shù)據(jù)集中人體骨骼s的N個(gè)關(guān)節(jié),T表示序列中的幀數(shù),pi,j和gti,j是第j幀中第I個(gè)關(guān)節(jié)的預(yù)測(cè)和地面真實(shí)3D姿態(tài)。

?? 此外,引入[16]中的時(shí)間一致性損失(TCLoss)來產(chǎn)生平滑姿態(tài)。MPJVE [37]在我們的模型中也是一個(gè)損失,以改善預(yù)測(cè)姿態(tài)序列和地面真實(shí)序列之間的時(shí)間一致性。我們將TCLoss和MPJVE合并為時(shí)間損失函數(shù)(T-Loss)。

4.實(shí)驗(yàn)

4.1.數(shù)據(jù)集和評(píng)估協(xié)議

?? 我們分別在三個(gè)3D人體姿態(tài)估計(jì)數(shù)據(jù)集上評(píng)估我們的模型:Human3.6M [3,19],MPI-INF-3DHP [32]和HumanEva [40]。

?????? Human3.6M是用于3D人體姿態(tài)估計(jì)任務(wù)的最常用的室內(nèi)數(shù)據(jù)集。遵循先前方法[4,28,31,35–37,57]的相同策略,采用Human3.6M中的3D人體姿態(tài)作為17關(guān)節(jié)骨架,并且在訓(xùn)練期間應(yīng)用來自數(shù)據(jù)集的受試者S1、S5、S6、S7、S8,受試者S9和S11用于測(cè)試。該數(shù)據(jù)集中涉及兩個(gè)常用的評(píng)估指標(biāo)(MPJPE和P-MPJPE)。此外,平均每關(guān)節(jié)速度誤差(MPJVE) [37]用于測(cè)量預(yù)測(cè)序列的平滑度。我們還計(jì)算方差(V AR。)來評(píng)估穩(wěn)定性。

?? MPI-INF-3DHP也是最近流行的大規(guī)模3D人體姿態(tài)數(shù)據(jù)集。我們的設(shè)置遵循以前的作品[46,57]。曲線下面積(AUC)、正確關(guān)鍵點(diǎn)百分比(PCK)和MPJPE被報(bào)告為評(píng)估指標(biāo)。

?? HumanEva是一個(gè)比上述數(shù)據(jù)集更小的數(shù)據(jù)集。與[28,57]的設(shè)置相同,S1、S2、S3被試的動(dòng)作(步行、慢跑)為評(píng)價(jià)數(shù)據(jù)。應(yīng)用了度量MPJPE和PMPJPE。

4.2實(shí)驗(yàn)細(xì)節(jié)

?????? 提出的模型用Pytorch實(shí)現(xiàn)。我們使用來自2D姿態(tài)檢測(cè)器[8,41]或2D地面真實(shí)的2D關(guān)鍵點(diǎn)來分析我們的框架的性能。雖然提出的模型可以很容易地適應(yīng)任何長(zhǎng)度的輸入序列,但公平地說,我們?yōu)槿齻€(gè)數(shù)據(jù)集選擇了一些特定的序列長(zhǎng)度T,以將我們的方法與其他必須具有特定2D輸入長(zhǎng)度的方法進(jìn)行比較[4,28,37]: Human3.6M (T =81,243),MPI-INF3DHP (T =1,27),HumanEva (T =43)。關(guān)于幀長(zhǎng)設(shè)置的分析在消融研究第4.4節(jié)中討論。WMPJPE中的W基于不同的關(guān)節(jié)組(軀干、頭部、中間肢體和末端肢體)設(shè)置,具有不同的值(分別為1.0、1.5、2.5和4.0)。Adam優(yōu)化器[20]被用于訓(xùn)練模型。數(shù)據(jù)集的批量大小、退出率和激活函數(shù)設(shè)置為1024、0.1和GELU。我們利用間隔與輸入長(zhǎng)度相同的步幅數(shù)據(jù)采樣策略,以使序列之間沒有重疊幀(更多細(xì)節(jié)在補(bǔ)充材料中)。

4.3.與最先進(jìn)方法的比較

在Human3.6M上的結(jié)果。在實(shí)驗(yàn)中應(yīng)用了兩種類型的2D聯(lián)合檢測(cè)數(shù)據(jù):CPN [8],它是在以前的方法中使用的最典型的2D估計(jì)器,以及HRNet [41],它用于進(jìn)一步研究我們的方法的上限。與其他方法比較的結(jié)果,包括所有15個(gè)動(dòng)作的誤差和平均誤差,在表1中報(bào)告。對(duì)于CPN [8]檢測(cè)器,我們的模型在協(xié)議1下獲得了40.9mm的平均MPJPE和在協(xié)議2下獲得了32.6mm的P-MPJPE的最佳結(jié)果,這比PoseFormer [57]高出3.4mm MPJPE (7.6%)。此外,在所有的動(dòng)作中,我們的方法在T = 243的設(shè)定下達(dá)到最佳,在T = 81的設(shè)定下達(dá)到次佳。

利用更強(qiáng)大的2D探測(cè)器HRNet [41],我們的模型在協(xié)議1下進(jìn)一步提高了大約4.5毫米(10.2%)。我們還使用2D地面真值將我們的方法與[4,28,37,46,57]進(jìn)行了比較,結(jié)果如表2所示。我們的方法明顯優(yōu)于所有其他方法,與PoseFormer [57]相比,平均MPJPE提高了約31.0%。

此外,我們將測(cè)試集S9和S11中的MPJPE分布與其他方法[37,57]進(jìn)行比較,以評(píng)估評(píng)估困難姿勢(shì)的能力。在圖3中可以觀察到,在我們的方法中,具有高誤差的姿態(tài)要少得多。此外,導(dǎo)致精度損失的超過40mm MPJPE的姿態(tài)的比例一直較低,而小于30mm MPJPE的比例遠(yuǎn)遠(yuǎn)高于其他方法。結(jié)果表明,我們的方法在高難度動(dòng)作上表現(xiàn)更好。

?? 表1。在協(xié)議1(未應(yīng)用剛性對(duì)準(zhǔn))和協(xié)議2(剛性對(duì)準(zhǔn))下,MPJPE在Human3.6M上以毫米(mm)為單位的詳細(xì)定量比較結(jié)果。上表:協(xié)議1下的結(jié)果(MPJPE);中間表格:協(xié)議2下的結(jié)果(PMP jpe);底部表格:MPJVE的結(jié)果。t表示通過相應(yīng)方法估計(jì)的輸入幀數(shù),(+表示使用時(shí)間信息,*)表示基于變換器的方法。最佳和次佳結(jié)果分別以粗體和下劃線格式突出顯示。

表二。使用2D地面實(shí)況關(guān)鍵點(diǎn)作為輸入,在協(xié)議1下在Human3.6M上以毫米(mm)為單位的MPJPE的詳細(xì)定量比較結(jié)果。最佳結(jié)果以粗體突出顯示。我們的方法明顯優(yōu)于所有其他方法,與PoseFormer [57]相比,平均MPJPE提高了約31.0%。

?



圖3。MPJPE在Human3.6M測(cè)試集上的分布。

??


在圖4中,我們比較了Human3.6M測(cè)試集所有幀上各個(gè)關(guān)節(jié)的MPJPE,以評(píng)估不同關(guān)節(jié)的估計(jì)精度。四肢關(guān)節(jié)因動(dòng)作靈活誤差較高,軀干關(guān)節(jié)因動(dòng)作穩(wěn)定誤差較低。我們的每個(gè)聯(lián)合類別的準(zhǔn)確性達(dá)到最好,方差(V AR。)比較表明,我們的方法具有更穩(wěn)定的性能。

MPI-INF-3DHP數(shù)據(jù)集:曲線下面積(AUC)、正確關(guān)鍵點(diǎn)百分比(PCK)和MPJPE被報(bào)告為評(píng)估指標(biāo)。

?

?? MPI-INF-3DHP上的結(jié)果。表3報(bào)告了在MPI-INF-3DHP測(cè)試集上與其他方法的詳細(xì)比較。此外,1幀設(shè)置用于評(píng)估單幀性能。輸入是地面真相2D關(guān)鍵點(diǎn)。如表中所示,方法(T =27)在三個(gè)評(píng)估指標(biāo)中表現(xiàn)最好,單幀設(shè)置(T =1)也達(dá)到了第二好的精度。這些結(jié)果證明了我們的模型在單幀和多幀場(chǎng)景中的強(qiáng)大性能。


?? HumanEva的結(jié)果。我們利用 HumanEva 來評(píng)估所提出方法的泛化能力以及從大型數(shù)據(jù)集進(jìn)行微調(diào)的影響。表 4 報(bào)告了來自 Human3.6M 的 HumanEva 微調(diào)的 MPJPE 結(jié)果。由于 seq2seq 設(shè)置和小數(shù)據(jù)集中轉(zhuǎn)換器的限制,我們沒有微調(diào)的方法比我們的基線略差。但是可以通過使用更小的數(shù)據(jù)樣本步幅(interval=1)來提高性能。實(shí)驗(yàn)表明,我們的模型比以前的方法具有更好的泛化能力。

4.4.消融研究

為了評(píng)估我們模型中每個(gè)組件的影響和性能,我們?cè)诒竟?jié)中評(píng)估它們的有效性。Human3.6M數(shù)據(jù)集和CPN[8]檢測(cè)器用于提供2D關(guān)鍵點(diǎn)。


每個(gè)組件的效果。如表5所示,我們首先將中心幀3D姿態(tài)輸出修改為序列輸出,而不進(jìn)行任何其他優(yōu)化,以獲得seq2seq基線模型。為了公平比較,seq2seq基線的參數(shù)設(shè)置直接應(yīng)用于所提出的方法,并且在基線模型中利用MPJPE損失。在應(yīng)用交替學(xué)習(xí)設(shè)計(jì)后,結(jié)果表明我們的方法減少了6.2毫米MPJPE(從51.7毫米減少到45.5毫米)。然后利用聯(lián)合分離關(guān)節(jié)來證明其在提高性能(從45.5到41.7)和降低計(jì)算成本(每幀的FLOPs從186405減少到645)方面的優(yōu)勢(shì)。通過應(yīng)用我們的損失函數(shù)來代替MPJPE損失,我們的結(jié)果達(dá)到最佳(40.9mm MPJPE,645次FLOPs)。與seq2seq基線相比,使用我們的損失函數(shù)的MixSTE提高了20.9%(從51.7到40.9),這證明了我們的網(wǎng)絡(luò)設(shè)計(jì)的合理性。


損失函數(shù)的影響。我們已經(jīng)詳細(xì)研究了損失函數(shù)的貢獻(xiàn)。如表6所示,在應(yīng)用WMPJPE損失之后,MPJPE度量從41.7下降到41.3。結(jié)果表明,WMPJPE是提高精度的一個(gè)重要損失。然后使用[16]之后的時(shí)間一致性損失(TCLoss)來將時(shí)間平滑性能(MPJVE)提高1.0(從4.6降低到3.6),并且在使用MPJVE損失之后,相干性變得更好(從4.6降低到2.6)。運(yùn)動(dòng)損失[46]對(duì)相干性的貢獻(xiàn)小于TCLoss和MPJVE損失。最后,在將T損失和WMPJPE損失應(yīng)用到我們的方法之后,結(jié)果在MPJPE和MPJVE度量上達(dá)到最佳(40.9mm MPJPE,2.3 MPJVE)。消融研究表明,我們的損失函數(shù)對(duì)于所提出的模型在精確性和平滑性方面是全面的。

?

?


參數(shù)設(shè)置分析。表7顯示了我們方法中不同超參數(shù)的設(shè)置如何影響使用 MPJPE 的協(xié)議 1 下的性能。網(wǎng)絡(luò)有三個(gè)主要的超參數(shù):MixSTE 的深度 (dl)、模型的維度 (dm) 和輸入序列長(zhǎng)度 (T)。我們將配置按行分為 3 組,并為一個(gè)超參數(shù)分配不同的值,同時(shí)保持其他兩個(gè)超參數(shù)固定,以評(píng)估每種配置的影響和選擇。根據(jù)表中的結(jié)果,我們選擇 Depth=8、Channel=512、Input Length=243 的組合。請(qǐng)注意,我們選擇 Depth = 8 而不是 Depth = 10,因?yàn)楹笳叩脑O(shè)置引入了更多的參數(shù)(33.7M vs. 42.2M)。

4.5.定性結(jié)果


如圖 5 所示,我們進(jìn)一步對(duì)空間和時(shí)間注意力進(jìn)行可視化。所選動(dòng)作(測(cè)試集 S11 的 SittingDown)應(yīng)用于可視化。此外,對(duì)不同頭部的注意力輸出進(jìn)行平均以觀察關(guān)節(jié)和幀的整體相關(guān)性,并將注意力輸出歸一化為[0, 1]。從空間注意力圖(圖 5 左側(cè))可以很容易地觀察到,我們的模型學(xué)習(xí)了關(guān)節(jié)之間的不同依賴關(guān)系。此外,我們還可視化了來自最后一個(gè)時(shí)間注意層的時(shí)間注意圖(圖 5 右側(cè))。淺色的兩部分與相鄰幀的姿勢(shì)相似,而深色對(duì)應(yīng)的幀(幀序列中的中間圖像)與相鄰幀的姿勢(shì)不同。

我們還評(píng)估了圖 6 中 Human3.6M 的估計(jì)姿勢(shì)和 3D 地面實(shí)況的視覺結(jié)果,以表明與 PoseFormer [57] 相比,我們可以估計(jì)更準(zhǔn)確的姿勢(shì)。

5. 結(jié)論

我們提出了MixSTE,一種新穎的基于transformer的 seq2seq 方法,用于從單目視頻進(jìn)行3D姿態(tài)估計(jì)。該模型可以更好地捕捉不同身體關(guān)節(jié)的全局序列相干性和時(shí)間運(yùn)動(dòng)軌跡。此外,3D 人體姿態(tài)估計(jì)的效率也大大提高。綜合評(píng)價(jià)結(jié)果表明,我們的模型獲得了最好的性能。作為一種新的通用基線,所提出的方法也為未來的工作開辟了許多可能的方向。盡管如此,我們的方法仍然受到不準(zhǔn)確的 2D 檢測(cè)結(jié)果的限制,例如缺失和嘈雜的關(guān)鍵點(diǎn)。通過應(yīng)用更好的 2D 檢測(cè)器可以緩解這種情況,但對(duì)輸入噪聲的分布進(jìn)行建模也是一種可行且有價(jià)值的探索。致謝。這項(xiàng)工作得到了國(guó)家自然科學(xué)基金 62106177 和 61773272 的資助。


用于視頻中 3D 人體姿勢(shì)估計(jì)的 Seq2seq 混合時(shí)空編碼器的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
河东区| 斗六市| 广汉市| 烟台市| 甘洛县| 大宁县| 嘉义市| 临猗县| 松滋市| 武乡县| 霍邱县| 公安县| 灌云县| 九江县| 新密市| 神农架林区| 余庆县| 大方县| 景洪市| 靖州| 福海县| 措美县| 田林县| 金平| 卫辉市| 聂拉木县| 庆元县| 易门县| 文水县| 增城市| 贡觉县| 乌审旗| 长岛县| 子长县| SHOW| 达拉特旗| 铜梁县| 东源县| 合山市| 巴青县| 长武县|