論文解讀|規(guī)模感知表示學習自底向上人體姿態(tài)估計
原創(chuàng) | 文 BFT機器人

《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》是一篇關(guān)于底層人體姿勢估計的論文。論文的主要目的是解決底層人體姿勢估計中的尺度不變性問題。
底層人體姿勢估計是指從圖像中檢測和定位人體關(guān)鍵點的任務(wù),它對于許多計算機視覺應(yīng)用,如人體行為分析和姿勢識別等,具有重要意義。然而,由于人體在圖像中的尺度和姿勢變化較大,傳統(tǒng)的底層人體姿勢估計方法往往面臨尺度不變性和魯棒性的挑戰(zhàn)。
本文提出了一種名為HigherHRNet的方法,通過引入多尺度特征表示和自適應(yīng)分辨率策略,提高了對不同尺度姿勢的準確性和魯棒性。
01
Introduction
這篇論文介紹了2D人體姿勢估計的背景和現(xiàn)狀,并指出了自上而下方法和自下而上方法兩種不同的姿勢估計方法。自上而下方法通過人體檢測器檢測每個人的邊界框,然后將問題簡化為單人姿勢估計任務(wù)。
這種方法對于人體比例的變化不太敏感,但需要單獨的人體檢測器,并且不是端到端的系統(tǒng)。相比之下,自下而上方法通過預(yù)測不同解剖學關(guān)鍵點的熱圖來定位輸入圖像中所有人的無身份關(guān)鍵點,然后將它們分組為人實例,從而實現(xiàn)更快速和實時的姿勢估計。
然而,自下而上方法在處理小尺度人體時面臨兩個挑戰(zhàn)。首先是尺度變化,即在不降低對大人體性能的影響的情況下提高小人體的姿勢估計性能。其次是生成高質(zhì)量的高分辨率熱圖,以精確定位小型人群的關(guān)鍵點。
先前的自下而上方法主要使用單一分辨率的特征圖來預(yù)測關(guān)鍵點的熱圖,忽略了尺度變化的挑戰(zhàn),并依賴圖像金字塔來處理不同尺度的人體。然而,分辨率較低的特征圖通常會受到限制。另一種方法是通過提高輸入分辨率生成高分辨率的熱圖,從而提高小型人體的性能。然而,當輸入分辨率過大時,大型人體的性能會下降。
因此,本論文的目標是以一種自然而簡單的方式,通過引入多尺度特征表示和自適應(yīng)分辨率策略,生成空間上更準確且具有尺度感知的熱圖,提高對不同尺度人體姿勢的準確性和魯棒性,同時不增加計算成本。

02
Related?works
提出了尺度感知的高分辨率網(wǎng)絡(luò)(HigherHRNet)來應(yīng)對人體姿勢估計中的挑戰(zhàn)。HigherHRNet通過引入高分辨率特征金字塔模塊生成高分辨率的熱圖。與傳統(tǒng)的特征金字塔從1/32分辨率開始逐漸提高到1/4分辨率的方法不同,高分辨率特征金字塔直接從backbone中的最高分辨率1/4開始生成特征圖,并通過反卷積進一步生成更高分辨率的特征圖。
同時,為了處理尺度變化,他們提出了一種多分辨率監(jiān)督策略,將不同分辨率的訓練目標分配給相應(yīng)的特征金字塔級別。在推理過程中,他們引入了一種簡單的“多分辨率熱圖聚合”策略,以生成尺度感知的高分辨率熱圖。
他們在具有挑戰(zhàn)性的COCO關(guān)鍵點檢測數(shù)據(jù)集上驗證了HigherHRNet的性能,并展示了出色的關(guān)鍵點檢測結(jié)果。在COCO2017 test-dev上,HigherHRNet實現(xiàn)了70.5%的平均準確率(AP),無需進行任何后處理,遠遠超過所有現(xiàn)有的自下而上方法。
尤其是對于中型人體,在不降低性能的情況下,HigherHRNet相比以前最佳的自下而上方法提高了2.5%的準確率,對于大型人體提高了0.3%的準確率。
這表明HigherHRNet在解決尺度變化問題上具有顯著的優(yōu)勢。
此外,該方法在新的CrowdPose數(shù)據(jù)集上也取得了優(yōu)秀的結(jié)果,并超過了所有現(xiàn)有方法。在CrowdPose測試集上,HigherHRNet實現(xiàn)了67.6%的準確率,進一步證明了自下而上方法在擁擠場景中具有優(yōu)勢。
具體而言,HigherHRNet方法采用了一個自底向上的策略,首先在多個尺度上生成候選的人體關(guān)鍵點。然后,通過引入高分辨率分支和低分辨率分支,分別從細節(jié)和全局上下文兩個方面對候選關(guān)鍵點進行表示學習。
高分辨率分支用于捕捉細節(jié)信息,而低分辨率分支用于捕捉全局上下文信息。最后,通過一個級聯(lián)的池化和堆疊模塊,將不同尺度的特征圖進行聚合和融合,得到最終的姿勢估計結(jié)果。
03
Higher-Resolution Network
本節(jié)介紹了提出的使用HigherHRNet的規(guī)模感知高分辨率表示學習。下圖展示了我們方法的整體架構(gòu)。我們將首先簡要概述擬議的HigherHRNet,然后詳細描述其組成部分。

HigherHRNet是一種尺度感知的高分辨率網(wǎng)絡(luò),用于解決自下而上的多人姿勢估計問題中的尺度變化挑戰(zhàn),特別是準確定位小人體的關(guān)鍵點。它使用HRNet作為主干網(wǎng)絡(luò),并通過添加新的并行分支來實現(xiàn)多分辨率特征金字塔。
網(wǎng)絡(luò)的不同階段具有具有不同分辨率的并行分支,且先前階段的分辨率保留在后續(xù)階段。通過調(diào)整分辨率,可以實現(xiàn)不同容量的網(wǎng)絡(luò)。在自下而上的方法中,使用最高分辨率的特征圖進行預(yù)測,并通過1×1卷積預(yù)測熱圖和標簽圖。
為了解決小人體關(guān)鍵點定位中的混淆問題,通過反卷積模塊在HRNet最高分辨率特征圖的基礎(chǔ)上生成更高分辨率的特征圖,以提高熱圖的準確性。
使用關(guān)聯(lián)嵌入方法進行關(guān)鍵點分組,將具有較小L2距離的關(guān)鍵點聚類成個體。這種方法通過關(guān)聯(lián)嵌入在關(guān)鍵點分組方面取得了很高的準確性。
實驗證明,在COCO關(guān)鍵點檢測數(shù)據(jù)集的500張訓練圖像上,使用預(yù)測標簽的真實檢測結(jié)果可以將平均精度(AP)從59.2提高到94.0。
04
Results
表格1總結(jié)了在COCO2017 test-dev數(shù)據(jù)集上的結(jié)果。從結(jié)果可以看出,僅使用HRNet作為自下而上方法的基準已經(jīng)是一個簡單而強大的基線(64.1 AP)。我們的HRNet基準方法僅使用單一尺度測試就超過了Hourglass使用多尺度測試的表現(xiàn),同時HRNet在參數(shù)和計算量(FLOPs)方面要少得多。
通過使用輕量級的反卷積模塊,我們提出的HigherHRNet(66.4 AP)相比HRNet提高了2.3 AP,而參數(shù)僅略微增加了0.4%,計算量增加了23.1%。HigherHRNet與PersonLab相媲美,但參數(shù)和FLOPs僅為其50%和11%。如果進一步使用多尺度測試,我們的HigherHRNet實現(xiàn)了70.5 AP,大幅超越了所有現(xiàn)有的自下而上方法。
表2列出了在COCO2017 test-dev數(shù)據(jù)集上的自下而上和自上而下方法。HigherHRNet進一步縮小了自下而上方法和自上而下方法之間的性能差距。


05
Conlusion
提出了一種尺度感知的高分辨率網(wǎng)絡(luò)(HigherHRNet),用于解決自下而上的多人姿勢估計問題中的尺度變化挑戰(zhàn),尤其是對小人體關(guān)鍵點的準確定位。
我們發(fā)現(xiàn)多尺度圖像金字塔和更大的輸入尺寸可以部分解決問題,但這些方法計算成本較高。為了解決這個問題,他們提出了一種基于HRNet的高效高分辨率特征金字塔,并通過多分辨率監(jiān)督進行訓練。
在推理過程中,HigherHRNet通過多分辨率熱圖聚合策略,能夠高效生成多分辨率和更高分辨率的熱圖,從而實現(xiàn)更準確的人體姿勢估計。在具有挑戰(zhàn)性的COCO數(shù)據(jù)集上,HigherHRNet在小人體方面的表現(xiàn)大大超過所有現(xiàn)有的自下而上方法。
來自:CVPR 2020
網(wǎng)址:1908.10357.pdf (arxiv.org)?
標題:HigherHRNet: Scale-Aware Representation Learningfor Bottom-Up Human Pose Estimation
更多精彩內(nèi)容請關(guān)注公眾號:BFT機器人
本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應(yīng)。