用于視頻中 3D 人體姿勢估計的 Seq2seq 混合時空編碼器

如圖一頂部所示:左邊是每幀的空間相關(guān)性,中間位置是S-T相關(guān)的交替學(xué)習(xí),右邊是每個關(guān)節(jié)有一個不同的運動,每個關(guān)節(jié)的單獨時間相關(guān)性;
從左到右隨時間變化視頻中每幀人物的每個關(guān)節(jié)發(fā)生的變化。
具體地說圖一上提出的關(guān)節(jié)分離去捕獲每個關(guān)節(jié)的時間運動運動信息,將每個二維關(guān)節(jié)作為一個單獨的特征(稱為transformer的標(biāo)記),通過交替時空充分學(xué)習(xí)時空相關(guān)性,并有助于在時間特征中降低關(guān)節(jié)特征維數(shù),提出了一種與seq2seq的交替設(shè)計,可在長序列中靈活的獲得較好的序列一致性,減少冗余計算和過度平滑。通過這種方式可充分考慮不同身體關(guān)節(jié)的時間運動軌跡來預(yù)測準(zhǔn)確的3D姿勢序列。
圖一底部:不同方法在Human3.6m數(shù)據(jù)集上的精度和每秒傳輸幀數(shù)的比較。藍(lán)色和橙色表示輸入序列的長度T=81和243。

首先將視頻圖像序列轉(zhuǎn)換為2D關(guān)節(jié)點序列,經(jīng)過線性層后加入到空間位置嵌入向量,再傳入到空間transformer塊中,先經(jīng)過Layer Norm歸一化處理(在一定程度上降低梯度消失的問題),然后在加入到空間注意力層,再和傳入空間transformer之前的做一次求和并再次做一次歸一化,傳入到MLP再做一次求和得到的輸出加入時間位置向量再放入transformer塊,經(jīng)過關(guān)節(jié)分離、歸一化和時間注意力歸一化、MLP網(wǎng)絡(luò)完成對關(guān)節(jié)分類得到的輸出再次回到空間transformer塊中以此作l次循環(huán),兩個塊都有殘差網(wǎng)絡(luò),經(jīng)過l次循環(huán)后,做一個Regression Head得到一個3D位姿序列;