識別圖像和視頻中的姿勢相似性
日常動作,例如慢跑、讀書、倒水或運動,可以被視為一系列姿勢,包括一個人身體的位置和方向。從圖像和視頻中了解姿勢是實現(xiàn)一系列應(yīng)用的關(guān)鍵步驟,包括增強現(xiàn)實顯示、全身手勢控制和體育鍛煉量化。然而,在圖像和視頻中以二維方式捕獲的 3 維姿勢因相機的視點而異。僅使用 2D 信息識別 3D 姿勢相似性的能力將有助于視覺系統(tǒng)更好地理解世界。
在ECCV 2020的焦點論文“ View-Invariant Probabilistic Embedding for Human Pose ”(Pr-VIPE)中,我們提出了一種新的人體姿勢感知算法,該算法通過映射2D 身體姿勢關(guān)鍵點來識別不同相機視圖中人體姿勢的相似性到視圖不變的嵌入空間。這種能力支持諸如姿勢檢索、動作識別、動作視頻同步等任務(wù)。與直接將 2D 姿勢關(guān)鍵點映射到 3D 姿勢關(guān)鍵點的現(xiàn)有模型相比,Pr-VIPE 嵌入空間是 (1) 視圖不變的,(2)概率性以捕獲 2D 輸入模糊性,以及 (3) 不需要相機參數(shù)在訓(xùn)練或推理期間。該模型使用實驗室內(nèi)設(shè)置數(shù)據(jù)進行訓(xùn)練,在提供相當好的 2D 姿勢估計器(例如PersonLab、BlazePose等)的情況下,開箱即用地處理野外圖像。該模型很簡單,產(chǎn)生緊湊的嵌入,并且可以使用 15 個 CPU 進行訓(xùn)練(約 1 天)。我們已經(jīng)在我們的?GitHub repo上發(fā)布了代碼。
Pr-VIPE Pr-VIPE
的輸入是一組 2D 關(guān)鍵點,來自任何至少產(chǎn)生13 個身體關(guān)鍵點的2D 姿勢估計器,輸出是姿勢嵌入的均值和方差。2D 姿勢嵌入之間的距離與它們在絕對 3D 姿勢空間中的相似性相關(guān)。我們的方法基于兩個觀察:
隨著視點的變化,相同的 3D 姿勢在 2D 中可能看起來非常不同。
可以從不同的 3D 姿勢投影相同的 2D 姿勢。
第一個觀察激發(fā)了對視圖不變性的需求。為了實現(xiàn)這一點,我們定義了匹配概率,即從相同或相似的 3D 姿態(tài)投影不同 2D 姿態(tài)的可能性。Pr-VIPE 預(yù)測的匹配姿勢對的匹配概率應(yīng)該高于非匹配對。
為了解決第二個觀察結(jié)果,Pr-VIPE 使用概率嵌入公式。由于許多 3D 姿勢可以投影到相同或相似的 2D 姿勢,因此模型輸入表現(xiàn)出固有的模糊性,很難通過嵌入空間中點對點的確定性映射來捕捉。因此,我們通過概率映射將 2D 姿勢映射到嵌入分布,其中我們使用方差來表示輸入 2D 姿勢的不確定性。例如,在下圖中,左側(cè) 3D 姿勢的第三個 2D 視圖與右側(cè)不同 3D 姿勢的第一個 2D 視圖相似,因此我們將它們映射到具有較大方差的嵌入空間中的相似位置.
視圖不變性
在訓(xùn)練期間,我們使用來自兩個來源的 2D 姿勢:多視圖圖像和真實 3D 姿勢的投影。從批次中選擇 2D 姿勢的三元組(錨、正和負),其中錨和正是相同 3D 姿勢的兩個不同投影,負是非匹配 3D 姿勢的投影。Pr-VIPE 然后從它們的嵌入中估計 2D 姿勢對的匹配概率。
在訓(xùn)練過程中,我們將正對的匹配概率推到接近 1 的正對損失,其中我們最小化正對之間的嵌入距離,并通過最大化匹配概率的比率來減小負對的匹配概率在具有三重比損失的正負對之間。
概率嵌入
Pr-VIPE使用基于采樣的方法將 2D 姿勢映射到概率嵌入作為多元高斯分布,用于計算兩個分布之間的相似性得分。在訓(xùn)練期間,我們使用高斯先驗損失來正則化預(yù)測分布。
評估
我們提出了一個新的跨視圖姿勢檢索基準來評估嵌入的視圖不變性。給定單眼姿態(tài)圖像,交叉視圖檢索旨在不使用相機參數(shù)從不同視圖檢索相同的姿態(tài)。結(jié)果表明,與兩個評估數(shù)據(jù)集(Human3.6M、MPI-INF-3DHP)中的基線方法相比,Pr-VIPE 在視圖中檢索姿勢更準確。
常見的3D姿態(tài)估計方法(如簡單的基線用于上述比較,SemGCN,和EpipolarPose,以及很多其他),預(yù)測照相機坐標三維姿態(tài),這是不直接查看不變。因此,使用估計的 3D 姿態(tài)進行檢索需要每個查詢索引對之間的嚴格對齊,由于需要奇異值分解(SVD) ,這在計算上是昂貴的。相比之下,Pr-VIPE 嵌入可以直接用于歐幾里德空間中的距離計算,無需任何后處理。
應(yīng)用
視圖不變姿態(tài)嵌入可以應(yīng)用于許多圖像和視頻相關(guān)的任務(wù)。下面,我們展示了 Pr-VIPE 在不使用相機參數(shù)的情況下應(yīng)用于野外圖像的交叉視圖檢索。
相同的 Pr-VIPE 模型也可用于視頻對齊。為此,我們在一個小時間窗口內(nèi)堆疊 Pr-VIPE 嵌入,并使用動態(tài)時間扭曲(DTW) 算法來對齊視頻對。
然后,通過使用最近鄰搜索對視頻進行分類,可以將通過 DTW 計算出的視頻對齊距離用于動作識別。我們使用Penn Action數(shù)據(jù)集評估 Pr-VIPE 嵌入,并證明使用 Pr-VIPE 嵌入而不對目標數(shù)據(jù)集進行微調(diào),可產(chǎn)生極具競爭力的識別準確度。此外,我們表明 Pr-VIPE 甚至僅使用索引集中單個視圖的視頻就可以獲得相對準確的結(jié)果。

結(jié)論
我們引入了 Pr-VIPE 模型,用于將 2D 人體姿勢映射到視圖不變的概率嵌入空間,并表明學(xué)習(xí)到的嵌入可以直接用于姿勢檢索、動作識別和視頻對齊。我們的跨視圖檢索基準可用于測試其他嵌入的視圖不變性。我們期待聽到您可以使用姿勢嵌入做什么!
更新說明:優(yōu)先更新微信公眾號“雨夜的博客”,后更新博客,之后才會陸續(xù)分發(fā)到各個平臺,如果先提前了解更多,請關(guān)注微信公眾號“雨夜的博客”。