最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

計(jì)算機(jī)視覺(jué)在生物力學(xué)和運(yùn)動(dòng)康復(fù)中的應(yīng)用和研究

2020-12-02 20:32 作者:3D視覺(jué)工坊  | 我要投稿

來(lái)源:公眾號(hào)|3D視覺(jué)工坊(系投稿)

作者:夏初

「3D視覺(jué)工坊」技術(shù)交流群已經(jīng)成立,目前大約有12000人,方向主要涉及3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、CV入門(mén)、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、視覺(jué)競(jìng)賽、車(chē)牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等。工坊致力于干貨輸出,不做搬運(yùn)工,為計(jì)算機(jī)視覺(jué)領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長(zhǎng)~

添加小助手微信:CV_LAB,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。

近幾十年來(lái),在運(yùn)動(dòng)生物力學(xué)和康復(fù)環(huán)境中對(duì)人體運(yùn)動(dòng)的研究取得了長(zhǎng)足的進(jìn)步。基于視覺(jué)的運(yùn)動(dòng)分析涉及從順序圖像中提取信息以描述運(yùn)動(dòng),可以追溯到19世紀(jì)后期, Eadweard Muybridge首先開(kāi)發(fā)了捕獲屈步態(tài)圖像序列的技術(shù)。此后,運(yùn)動(dòng)分析相關(guān)技術(shù)進(jìn)步很快,與不斷增長(zhǎng)的需求相平行,這些技術(shù)可以捕獲從臨床步態(tài)評(píng)估到視頻游戲動(dòng)畫(huà)在內(nèi)的各種運(yùn)動(dòng)。在運(yùn)動(dòng)生物力學(xué)和康復(fù)應(yīng)用中,人體運(yùn)動(dòng)學(xué)的定量分析是一種功能強(qiáng)大的工具,生物力學(xué)工具已經(jīng)從使用圖像的人工注釋發(fā)展為基于標(biāo)記的光學(xué)跟蹤器,基于慣性傳感器的系統(tǒng)以及使用復(fù)雜的人體模型,計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)算法的無(wú)標(biāo)記系統(tǒng),已經(jīng)取得了長(zhǎng)足的發(fā)展。

目前在運(yùn)動(dòng)生物力學(xué)和康復(fù)中最廣泛使用的運(yùn)動(dòng)分析系統(tǒng)不允許在沒(méi)有附加標(biāo)記,控制條件和/或大量處理時(shí)間的情況下自動(dòng)收集運(yùn)動(dòng)數(shù)據(jù)。這些限制可能會(huì)妨礙在正常的訓(xùn)練或康復(fù)環(huán)境中常規(guī)使用運(yùn)動(dòng)捕捉,因此非常需要開(kāi)發(fā)自動(dòng)無(wú)標(biāo)記系統(tǒng),并且結(jié)合應(yīng)用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)中的相關(guān)技術(shù)。

無(wú)標(biāo)記運(yùn)動(dòng)捕捉系統(tǒng)的四個(gè)主要組成部分是:(1)使用的攝像頭系統(tǒng);(2)人體表示--人體模型;(3)使用的圖像特征;(4)用于確定人體模型的參數(shù)(形狀,姿勢(shì),位置)所使用的算法。用于推斷給定圖像數(shù)據(jù)的人體姿勢(shì)的算法通常分為“生成式”(模型參數(shù)可用于生成針對(duì)圖像數(shù)據(jù)進(jìn)行評(píng)估的假設(shè),然后對(duì)其進(jìn)行迭代優(yōu)化以確定最佳擬合)和“判別式”(使用圖像數(shù)據(jù)直接推斷模型參數(shù))。通常,無(wú)標(biāo)記運(yùn)動(dòng)捕獲系統(tǒng)將具有如下圖所示的形式,在此階段,先前的數(shù)據(jù)會(huì)告知模型設(shè)計(jì)或基于機(jī)器學(xué)習(xí)的判別算法的訓(xùn)練,然后圖像數(shù)據(jù)將被捕獲,處理并輸入到可估計(jì)人體姿勢(shì)和形狀的算法中。


生成算法

生成運(yùn)動(dòng)捕捉方法是通過(guò)將人體模型擬合到從圖像中提取的信息來(lái)確定人的姿勢(shì)和形狀。對(duì)于一組給定的模型參數(shù)(身體形狀,骨骼長(zhǎng)度,關(guān)節(jié)角度),用生成模型表示。然后可以將該表示形式與從圖像中提取的特征進(jìn)行比較,并計(jì)算出一個(gè)“誤差值”,該誤差值表示假設(shè)與觀察到的數(shù)據(jù)相差多少。在一種可能性中,可以將由預(yù)測(cè)參數(shù)產(chǎn)生的3D三角形網(wǎng)格投影到2D圖像中,并使網(wǎng)格和人的輪廓的重疊最大化,或者,通過(guò)將模型的3D頂點(diǎn)與視覺(jué)外殼的3D點(diǎn)之間的距離最小化,可以通過(guò)迭代算法將3D人體模型與3D重建進(jìn)行比較最接近的點(diǎn)。

對(duì)于生成算法的關(guān)鍵因素是對(duì)功能的適當(dāng)定義,該功能將特定的假設(shè)與圖像中可用的信息進(jìn)行比較。如果不仔細(xì)考慮,那么搜索最佳模型參數(shù)集就很容易失敗,從而導(dǎo)致估計(jì)結(jié)果的錯(cuò)誤。此外,構(gòu)造一個(gè)對(duì)圖像噪聲和不現(xiàn)實(shí)模型構(gòu)型具有魯棒性的代價(jià)函數(shù)是比較困難的。在極端情況下,在追蹤開(kāi)始時(shí)需要強(qiáng)迫被捕獲者擺出一個(gè)特定的姿勢(shì)。如果擬合之后由于遮擋、圖像噪聲或其他故障而變得混亂,跟蹤在沒(méi)有人工干預(yù)的情況下將無(wú)法自我糾正。研究人員已經(jīng)嘗試使用改進(jìn)的搜索算法、身體部位檢測(cè)器和最近的姿態(tài)識(shí)別算法中獲得的額外信息,或者通過(guò)生成方法和鑒別方法的耦合來(lái)解決這種情況。

“生成算法”相關(guān)文章解析

Multi-view Pictorial Structures for 3D Human Pose Estimation

摘要:

圖像結(jié)構(gòu)模型是2D人體姿勢(shì)估計(jì)的標(biāo)準(zhǔn),已提出了許多改進(jìn)措施,例如,經(jīng)過(guò)區(qū)分訓(xùn)練的身體部位檢測(cè)器,靈活的身體模型以及局部和全局混合。盡管這些技術(shù)允許實(shí)現(xiàn)2D姿態(tài)估計(jì)的最新性能,但它們尚未擴(kuò)展為支持3D姿態(tài)估計(jì)。因此,本文提出了一種基于2D姿態(tài)估計(jì)的最新進(jìn)展的多視圖圖形結(jié)構(gòu)模型,并結(jié)合了跨多個(gè)視點(diǎn)的證據(jù)以實(shí)現(xiàn)可靠的3D姿態(tài)估計(jì)。文中評(píng)估了HumanEva-I和MPII Cooking數(shù)據(jù)集上的多視圖圖片結(jié)構(gòu)方法。與3D姿態(tài)估計(jì)的相關(guān)工作相比,文中的方法僅在單幀上運(yùn)行,并且不依賴(lài)于特定于運(yùn)動(dòng)的運(yùn)動(dòng)模型或跟蹤,從而獲得了相似或更好的結(jié)果。對(duì)于具有更復(fù)雜動(dòng)作的活動(dòng),文中的方法要優(yōu)于最新技術(shù)。

正文:

本文中考慮了來(lái)自多個(gè)校準(zhǔn)攝像機(jī)的關(guān)節(jié)式3D人體姿勢(shì)估計(jì)的任務(wù)。傳統(tǒng)上,此任務(wù)使用3D人體模型解決,并且涉及3D人體配置的高維空間中的復(fù)雜推理。為了解決搜索復(fù)雜性,已經(jīng)提出了各種機(jī)制,例如退火粒子濾波或非參數(shù)置信傳播。在本文中,作者認(rèn)為,通過(guò)將3D推理問(wèn)題公式化為每個(gè)攝像機(jī)視圖中姿勢(shì)的2D投影的聯(lián)合推理,可以顯著降低搜索復(fù)雜度。為此,文中以成功的2D圖形結(jié)構(gòu)模型為基礎(chǔ),這些模型被證明對(duì)2D人體姿態(tài)估計(jì)有效。僅僅以2D推理可以將解決2D到3D提升歧義的時(shí)間延遲到考慮所有圖像觀測(cè)值的時(shí)間點(diǎn),但是這與基于3D人體模型的方法相反,該方法需要在推理過(guò)程的早期就假設(shè)3D姿勢(shì)。

本文提出了一種2D姿態(tài)估計(jì)方法,該方法以色彩特征和更有效的空間術(shù)語(yǔ)擴(kuò)展了作者最新的2D圖形結(jié)構(gòu)模型。同樣,文中將其推廣到混合模型,并提出了一種新的混合組分選擇方法。同時(shí)文中是將2D姿勢(shì)估計(jì)模型擴(kuò)展到多視圖模型,該模型對(duì)從多個(gè)角度看到的人的姿勢(shì)執(zhí)行聯(lián)合推理,然后,此模型的輸出將用于恢復(fù)3D姿勢(shì)。同時(shí)在HumanEva-I數(shù)據(jù)集和MPII Cooking數(shù)據(jù)集上評(píng)估該方法,該數(shù)據(jù)集是多視圖3D姿態(tài)估計(jì)的標(biāo)準(zhǔn)基準(zhǔn),在HumanEva-I上,文中的方法達(dá)到的準(zhǔn)確度與他人文獻(xiàn)中的最新結(jié)果相當(dāng),后者依賴(lài)于特定活動(dòng)的運(yùn)動(dòng)模型和跟蹤,而本文的方法僅在單幀上運(yùn)行。在MPII Cooking上,本文的方法比2D方法有了很大的改進(jìn),證明了在多個(gè)視圖中共同估計(jì)姿勢(shì)的優(yōu)勢(shì)。


1. Single-view model單視圖模型

1.1 Pictorial structures model

在下文中,作者描述了依賴(lài)于圖形結(jié)構(gòu)模型的2D姿態(tài)估計(jì)方法。作者介紹了一種更靈活的零件配置和多模式成對(duì),顏色特征和圖形結(jié)構(gòu)的混合。

圖片結(jié)構(gòu)模型將人體表示為N個(gè)剛性零件的配置L = {,...,}和成對(duì)零件關(guān)系E的集合。每個(gè)部分的位置由li =()給出,其中(()是該部分的圖像位置,而是絕對(duì)方向,分解為一元和成對(duì)項(xiàng)的乘積:


文中不是通過(guò)四肢的配置來(lái)編碼身體姿態(tài),而是通過(guò)身體關(guān)節(jié)的配置來(lái)編碼。從肢體轉(zhuǎn)換到關(guān)節(jié)的優(yōu)點(diǎn)是,新模型可以更好地編碼出平面旋轉(zhuǎn)導(dǎo)致的身體部位的透視縮短。文中的新模型有14個(gè)部分,分別對(duì)應(yīng)軀干、頭部、左、右手腕、肘部、肩膀、腳踝、膝蓋和臀部,MPII數(shù)據(jù)集只使用了10個(gè)上半身部分。

1.2 Appearance representation

零件似然項(xiàng)用增強(qiáng)零件檢測(cè)器表示,該零件檢測(cè)器依賴(lài)于使用密集計(jì)算的形狀上下文描述符網(wǎng)格對(duì)圖像的編碼。本文使用顏色特征來(lái)增強(qiáng)在增強(qiáng)部分檢測(cè)器中使用的形狀上下文特征,例如手或頭部經(jīng)常具有特征性的膚色。另外,某些顏色比身體部位更可能對(duì)應(yīng)于相應(yīng)的背景。為此,作者針對(duì)RGB顏色空間的每個(gè)維度使用10個(gè)面元的多維直方圖對(duì)零件邊界框的顏色進(jìn)行編碼,從而得出1000維度的特征向量,將形狀上下文與顏色特征連接起來(lái),并在此組合表示的基礎(chǔ)上學(xué)習(xí)增強(qiáng)型零件檢測(cè)器。

1.3 Spatial model

下列等式編碼模型各部分之間的空間約束,并在兩部分之間的關(guān)節(jié)的變換空間中以高斯分布進(jìn)行建模:


作者通過(guò)在這些成對(duì)的部分依賴(lài)層引入混合模型來(lái)擴(kuò)展模型。為此,將上述公式中的單峰高斯項(xiàng)替換為K個(gè)模態(tài)的最大值項(xiàng),并用高斯表示每個(gè)模態(tài)。新的多模態(tài)兩兩項(xiàng)為:


1.4 Mixtures of pictorial structures (Mixture PS)

作者將方法擴(kuò)展到混合圖形結(jié)構(gòu)模型。作者通過(guò)將訓(xùn)練數(shù)據(jù)與k均值聚類(lèi)并為每個(gè)聚類(lèi)學(xué)習(xí)單獨(dú)的模型來(lái)獲得混合成分。組件通常對(duì)應(yīng)于數(shù)據(jù)中的主要模式,例如人相對(duì)于相機(jī)的各種視點(diǎn)。組件的索引被視為潛在變量,在測(cè)試時(shí)進(jìn)行推斷。作者發(fā)現(xiàn)使用等式中的后驗(yàn)值對(duì)預(yù)測(cè)最佳混合成分不可靠,因此提出兩種替代策略。

a. 組件分類(lèi)器:作者訓(xùn)練了一個(gè)整體分類(lèi)器,該分類(lèi)器根據(jù)人員邊界框的內(nèi)容來(lái)區(qū)分混合成分。為此,作者使用的方法可以共同解決對(duì)象檢測(cè)和視點(diǎn)分類(lèi)的任務(wù),但依賴(lài)于結(jié)構(gòu)化的預(yù)測(cè)公式,該公式既可以鼓勵(lì)正確的定位又可以進(jìn)行組件檢測(cè)。

b. 最小方差:作者使用與姿勢(shì)估計(jì)的質(zhì)量直接相關(guān)的標(biāo)準(zhǔn)選擇混合分量,選擇了身體各部位后緣分布具有最小不確定性的最佳組件。

2. Multi-view model多視圖模型

描述3D姿態(tài)估計(jì)的方法包括兩個(gè)步驟。第一步,作者共同估算每個(gè)視圖中3D人體關(guān)節(jié)的2D投影。作為表示和推斷人體姿勢(shì)的基本工具,作者依賴(lài)于單視圖模型中引入的2D模型。在第二步中,作者使用估計(jì)的2D投影并通過(guò)三角剖分恢復(fù)3D姿勢(shì)。

為了清楚起見(jiàn),作者首先針對(duì)兩個(gè)視圖的情況介紹多視圖模型。類(lèi)似于單視圖模型中的公式,有條件的身體后部結(jié)構(gòu)在兩個(gè)視圖中分解為一元和成對(duì)項(xiàng)的乘積,它們?yōu)槊總€(gè)視圖獨(dú)立定義零件之間的外觀和空間約束。另外,作者在每個(gè)視圖的每對(duì)對(duì)應(yīng)部分之間引入成對(duì)因子。兩種視圖中的關(guān)節(jié)后部結(jié)構(gòu)由下式給出:


2.1 Multi-view appearance

因子編碼從多個(gè)角度看到的身體部位的顏色和形狀。作者通過(guò)連接來(lái)自多個(gè)視圖的特征來(lái)定義關(guān)節(jié)外觀特征向量,并使用此表示來(lái)訓(xùn)練增強(qiáng)部分檢測(cè)器。外觀因素取決于每個(gè)視圖中零件的位置。與單視圖增強(qiáng)部分檢測(cè)器相比,多視圖檢測(cè)器在訓(xùn)練期間可以訪問(wèn)所有視圖中的特征,并且可以利用視圖中的特征的同時(shí)出現(xiàn),來(lái)學(xué)習(xí)更具判別性的檢測(cè)器。

因子對(duì)每個(gè)視圖中的零件位置應(yīng)在同一3D位置上的一致性進(jìn)行約束。給定一對(duì)對(duì)應(yīng)的零件位置和,作者首先使用線性三角測(cè)量在3D中重建零件的對(duì)應(yīng)位置,多視圖對(duì)應(yīng)因子為


2.2 3D mixture model

多視圖模型也采用圖形結(jié)構(gòu)的混合來(lái)表示每個(gè)視圖的2D身體配置。但是,在多視圖情況下,混合分量對(duì)應(yīng)于3D中類(lèi)似的姿勢(shì)組。為了獲得此類(lèi)3D混合分量,作者首先將3D訓(xùn)練姿勢(shì)與k均值聚類(lèi)。然后,投影每個(gè)3D群集的訓(xùn)練數(shù)據(jù),并從投影數(shù)據(jù)中學(xué)習(xí)2D模型。對(duì)于組件檢測(cè)器,作者在所有視圖中添加相應(yīng)組件的分?jǐn)?shù)。對(duì)于基于不確定性的標(biāo)準(zhǔn),作者將在單視圖模型中的空間模型中為所有視圖中的每個(gè)對(duì)應(yīng)組件添加不確定性得分。

2.3 Inference

在簡(jiǎn)化的假設(shè)的前提下,圖形結(jié)構(gòu)方法可以進(jìn)行有效而精確的推斷。但是,這些假設(shè)限制了模型的表達(dá)能力。例如,等式中的成對(duì)因子以及等式中的多視圖因子不是高斯模型,并在模型結(jié)構(gòu)中創(chuàng)建循環(huán)依賴(lài)。為了用非高斯因素和循環(huán)模型進(jìn)行推理,作者使用近似兩階段推理程序。在第一階段,此過(guò)程依賴(lài)于具有高斯成對(duì)因子以及簡(jiǎn)單的形狀和顏色外觀術(shù)語(yǔ)的簡(jiǎn)化樹(shù)結(jié)構(gòu)模型,以便生成有關(guān)身體部位位置的建議。這個(gè)階段可以看作是減少搜索空間的步驟,這是應(yīng)用更復(fù)雜的模型所必需的,第一階段的推論是通過(guò)求和積置信傳播來(lái)執(zhí)行的,允許計(jì)算每個(gè)身體部位的邊緣分布。該推論是精確而有效的,因?yàn)樵撃P褪菢?shù)形結(jié)構(gòu)的,并且可以使用高斯卷積來(lái)計(jì)算消息。在第二階段中,作者從中采樣了足夠大的位置集,并在所有模型中使用所有因素在采樣部分位置的縮減狀態(tài)空間中進(jìn)行了推斷,使用最大乘積置信度傳播,因?yàn)樗试S獲得整個(gè)身體配置的一致估計(jì)。最后,給定多視圖圖片結(jié)構(gòu)模型估計(jì)的2D投影,使用三角剖分重建3D姿勢(shì)。


實(shí)驗(yàn)結(jié)果

結(jié)論:

傳統(tǒng)上會(huì)使用3D人體模型解決3D人體姿勢(shì)估計(jì)問(wèn)題。在這項(xiàng)工作中,作者采用了另一種方法,并將問(wèn)題重新表述為對(duì)每個(gè)攝像機(jī)視圖中3D姿勢(shì)的2D投影集的推斷。這種替代的公式建立在最先進(jìn)的圖片結(jié)構(gòu)模型的基礎(chǔ)上,可以從2D人體姿勢(shì)估計(jì)的最新進(jìn)展中受益。通過(guò)擴(kuò)展之前提出的原始模型,該模型具有靈活的部分,顏色特征,多模式成對(duì)術(shù)語(yǔ)以及圖形結(jié)構(gòu)的混合,作者的2D姿態(tài)估計(jì)方法顯著提高了用于評(píng)估的兩個(gè)數(shù)據(jù)集的性能。為了利用多視圖信息,作者使用跨視圖的外觀和空間對(duì)應(yīng)約束來(lái)擴(kuò)充模型。

判別算法

判別算法避免了反復(fù)調(diào)整身體模型參數(shù)以適應(yīng)圖像的過(guò)程,因此它們也通常被稱(chēng)為無(wú)模型算法。與生成方法相比,它們通常會(huì)有更快的處理時(shí)間,改進(jìn)的健壯性和減少對(duì)初始猜測(cè)的依賴(lài)。然而,它們可以降低精確度,并且它們需要一個(gè)非常大的樣本數(shù)據(jù)數(shù)據(jù)庫(kù)(甚至比生成算法所使用的構(gòu)建統(tǒng)計(jì)體型模型所需要的數(shù)據(jù)還要多),從中它們可以學(xué)習(xí)如何推斷結(jié)果。判別算法主要有兩種方法,一種方法是直接發(fā)現(xiàn)從圖像特征到位姿描述的映射,例如使用基于機(jī)器學(xué)習(xí)的回歸,從而就有可能“教”計(jì)算機(jī)如何僅使用圖像數(shù)據(jù)來(lái)確定一個(gè)簡(jiǎn)單骨架模型的姿態(tài)。另一個(gè)方法是利用深度學(xué)習(xí)來(lái)訓(xùn)練一個(gè)系統(tǒng),這個(gè)系統(tǒng)可以識(shí)別多個(gè)人的身體部位,然后快速解析這些部位來(lái)確定骨骼?;蛘?,也可以創(chuàng)建一個(gè)位姿示例數(shù)據(jù)庫(kù),然后搜索當(dāng)前圖像中已知的最相似的位姿。

“判別算法”相關(guān)文章解析

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

摘要:

作者提出一種有效檢測(cè)圖像中多個(gè)人的2D姿勢(shì)的方法。該方法使用非參數(shù)表示(作者稱(chēng)為PAF)來(lái)學(xué)習(xí)將身體部位與圖像中的個(gè)體相關(guān)聯(lián)。該體系結(jié)構(gòu)對(duì)全局上下文進(jìn)行編碼,從而允許自下而上的解析步驟,無(wú)論圖像中有多少人,都可以在保持高精度的同時(shí)實(shí)現(xiàn)實(shí)時(shí)性能。該體系結(jié)構(gòu)旨在通過(guò)同一順序預(yù)測(cè)過(guò)程的兩個(gè)分支共同學(xué)習(xí)零件位置及其關(guān)聯(lián)。作者的方法在首次COCO 2016關(guān)鍵點(diǎn)挑戰(zhàn)中排在首位,在性能和效率上都大大超過(guò)了MPII MultiPerson基準(zhǔn)測(cè)試之前的最新結(jié)果。

正文:

人體2D姿態(tài)估計(jì)-定位解剖學(xué)關(guān)鍵點(diǎn)或部位的問(wèn)題,主要集中在尋找個(gè)體的身體部位。推斷圖像中的多個(gè)人的姿勢(shì),尤其是從事社交活動(dòng)的人,會(huì)帶來(lái)一系列獨(dú)特的挑戰(zhàn)。首先,每個(gè)圖像可能包含未知數(shù)量的人,這些人可以在任何位置或任何比例出現(xiàn)。其次,由于接觸,咬合和肢體關(guān)節(jié)活動(dòng),人與人之間的互動(dòng)會(huì)引起復(fù)雜的空間干擾,從而使零件的關(guān)聯(lián)變得困難。第三,運(yùn)行時(shí)復(fù)雜度往往隨著映像中的人數(shù)而增加,這使實(shí)時(shí)性能成為挑戰(zhàn)。

在本文中,作者提出了一種有效的方法,可以在多個(gè)公共基準(zhǔn)上以最先進(jìn)的精度進(jìn)行多人姿勢(shì)估計(jì)。作者通過(guò)PAF展示了關(guān)聯(lián)評(píng)分的第一個(gè)自下而上的表示形式,這是一組二維矢量場(chǎng),它們?cè)趫D像域上編碼肢體的位置和方向。作者證明,同時(shí)推斷出這些檢測(cè)和關(guān)聯(lián)的自下而上的表示方式,可以很好地編碼全局上下文,以使貪婪的解析能夠以少量的計(jì)算成本來(lái)獲得高質(zhì)量的結(jié)果。

Simultaneous Detection and Association:


作者的架構(gòu),如上圖所示,同時(shí)預(yù)測(cè)檢測(cè)置信度映射和編碼部分到部分關(guān)聯(lián)的親和域。這個(gè)網(wǎng)絡(luò)被分成兩個(gè)分支,上面的分支(用米色表示)預(yù)測(cè)可信度圖,下面的分支(用藍(lán)色表示)預(yù)測(cè)親和力域。每個(gè)分支都是一個(gè)迭代架構(gòu),它細(xì)化了連續(xù)階段的預(yù)測(cè)。首先通過(guò)卷積網(wǎng)絡(luò)(由VGG-19和微調(diào)的前10層初始化)對(duì)圖像進(jìn)行分析,生成一組特征圖F,輸入到每個(gè)分支的第一階段。在第一階段,網(wǎng)絡(luò)生成一組檢測(cè)置信度圖和一組部分親和場(chǎng),其中,lawren1和czain1是第一階段進(jìn)行推理的CNNs。在隨后的每一個(gè)階段中,前一階段的兩個(gè)分支的預(yù)測(cè),連同原始圖像特征F,被連接起來(lái)并用于產(chǎn)生精確的預(yù)測(cè),并進(jìn)行了跨階段的置信度圖和親和度字段的細(xì)化。為了指導(dǎo)網(wǎng)絡(luò)迭代預(yù)測(cè)第一個(gè)支路的身體部分和第二個(gè)支路的PAF的置信度圖,作者在每個(gè)階段末分別應(yīng)用兩個(gè)損失函數(shù)和一個(gè)損失函數(shù)。作者在估計(jì)預(yù)測(cè)和真實(shí)地面圖和場(chǎng)之間使用L2損失。因此,作者對(duì)損失函數(shù)進(jìn)行空間加權(quán)來(lái)解決一個(gè)實(shí)際問(wèn)題,從而使一些數(shù)據(jù)集不能完全的標(biāo)記所有人。具體而言,t階段兩個(gè)分行的損失函數(shù)為:


每個(gè)階段的中間監(jiān)督通過(guò)定期補(bǔ)充梯度來(lái)解決梯度消失的問(wèn)題,總目標(biāo)是:


Confidence Maps for Part Detection

在訓(xùn)練期間,作者從帶注釋的2D關(guān)鍵點(diǎn)生成接地的真實(shí)度置信圖。每個(gè)置信度圖是特定身體部位出現(xiàn)在每個(gè)像素位置的信念的2D表示。理想情況下,如果圖像中只有一個(gè)人,則只要可見(jiàn)部分可見(jiàn),則每個(gè)置信度圖中應(yīng)存在一個(gè)峰值;如果出現(xiàn)多個(gè)人,則應(yīng)該為每個(gè)人k對(duì)應(yīng)于每個(gè)可見(jiàn)部分j的峰值。作者先為每一個(gè)人生成置信圖,網(wǎng)絡(luò)中要預(yù)測(cè)的接地真實(shí)度置信度圖是通過(guò)最大算子對(duì)單個(gè)置信度圖進(jìn)行的匯總。

Part Affinity Fields for Part Association

給定一組檢測(cè)到的身體部位,如何組裝它們以形成未知人數(shù)的全身姿勢(shì)?作者是對(duì)每對(duì)身體部位檢測(cè)的關(guān)聯(lián)性進(jìn)行置信度度量,即它們屬于同一個(gè)人。測(cè)量關(guān)聯(lián)的一種可能方法是檢測(cè)肢體上每對(duì)零件之間的附加中點(diǎn),并檢查候選零件檢測(cè)之間其發(fā)生率,但是,當(dāng)人們擠在一起時(shí),這些中點(diǎn)很可能支持虛假的關(guān)聯(lián)。這種假聯(lián)想是由于表示方面的兩個(gè)限制而引起的:(1)它僅編碼每個(gè)肢體的位置,而不是編碼方向;(2)將肢體的支撐區(qū)域減少到單個(gè)點(diǎn)。

為了解決這些限制,作者提出了一種新穎的特征表示,稱(chēng)為零件親和力字段,該字段保留了肢體支撐區(qū)域中的位置和方向信息。零件相似性是每個(gè)肢體的2D矢量場(chǎng):對(duì)于屬于特定肢體的區(qū)域中的每個(gè)像素,2D向量編碼從肢體的一部分指向另一部分的方向。每種肢體都有一個(gè)對(duì)應(yīng)的親和力場(chǎng),將其兩個(gè)相關(guān)的身體部位連接在一起。

在測(cè)試期間,作者通過(guò)計(jì)算對(duì)應(yīng)PAF上沿著連接候選零件位置的線段的線積分來(lái)測(cè)量候選零件檢測(cè)之間的關(guān)聯(lián),即作者測(cè)量預(yù)測(cè)的PAF與候選肢體的對(duì)齊方式,該肢體將通過(guò)連接檢測(cè)到的身體部位而形成。具體來(lái)說(shuō),對(duì)于兩個(gè)候選零件位置dj1和dj2,作者沿著線段對(duì)預(yù)測(cè)零件字段進(jìn)行采樣,以測(cè)量對(duì)其關(guān)聯(lián)的置信度:


Multi-Person Parsing using PAFs

作者對(duì)檢測(cè)置信度圖執(zhí)行非極大值抑制,以獲得零件候選位置的離散集合。對(duì)于每個(gè)部分,由于圖像中有多個(gè)人或誤判斷,作者可能有多個(gè)候選對(duì)象。這些候選零件定義了大量可能的肢體,作者使用定義的PAF上的線積分計(jì)算為每個(gè)候選肢體評(píng)分。找到最佳解析的問(wèn)題對(duì)應(yīng)于一個(gè)稱(chēng)為NP-Hard的K維匹配問(wèn)題。在本文中,作者提出了一個(gè)貪婪的松弛,該松弛持續(xù)產(chǎn)生高質(zhì)量的匹配項(xiàng)。作者推測(cè)原因是由于PAF網(wǎng)絡(luò)的接收域很大,成對(duì)關(guān)聯(lián)分?jǐn)?shù)隱式編碼全局上下文。

當(dāng)要找到多個(gè)人的全身姿勢(shì)時(shí),確定Z是K維匹配問(wèn)題。在這項(xiàng)工作中,作者為優(yōu)化添加了兩個(gè)放寬部分。首先,選擇了最少數(shù)量的邊緣來(lái)獲得人體姿勢(shì)的生成樹(shù)骨架,而不是使用完整的圖形。其次,進(jìn)一步將匹配問(wèn)題分解為一組二分匹配子問(wèn)題,并獨(dú)立確定相鄰樹(shù)節(jié)點(diǎn)中的匹配。本文中顯示了詳細(xì)的比較結(jié)果,該結(jié)果表明,最小的貪婪推理以很小的計(jì)算成本就能很好地逼近全局解。原因是,相鄰樹(shù)節(jié)點(diǎn)之間的關(guān)系是通過(guò)PAF顯式建模的,但是內(nèi)部,非相鄰樹(shù)節(jié)點(diǎn)之間的關(guān)系是由CNN隱式建模的。之所以會(huì)出現(xiàn)此屬性,是因?yàn)镃NN是在大接收域下訓(xùn)練的,并且來(lái)自非相鄰樹(shù)節(jié)點(diǎn)的PAF也影響預(yù)測(cè)的PAF。

通過(guò)這兩個(gè)松弛,優(yōu)化可以簡(jiǎn)單地分解為:


使用相應(yīng)等式分別獲得每種肢體類(lèi)型的肢體連接候選者。使用所有肢體連接候選者,可以將共享相同零件檢測(cè)候選者的連接組裝成多個(gè)人的全身姿勢(shì),在樹(shù)結(jié)構(gòu)上的優(yōu)化方案比在全連接圖上的優(yōu)化快幾個(gè)數(shù)量級(jí)。

實(shí)驗(yàn)結(jié)果:



在本文中,作者考慮了這種感知的關(guān)鍵組成部分:實(shí)時(shí)算法來(lái)檢測(cè)圖像中多個(gè)人的2D姿勢(shì)。提出了關(guān)鍵點(diǎn)關(guān)聯(lián)的顯式非參數(shù)表示形式,它編碼了人類(lèi)四肢的位置和方向。其次,作者設(shè)計(jì)了一種用于共同學(xué)習(xí)零件檢測(cè)和零件關(guān)聯(lián)的架構(gòu)。第三,作者證明了文中的解析算法足以產(chǎn)生高質(zhì)量的人體姿勢(shì)解析,即使圖像中的人數(shù)增加,該算法也能保持效率。

Reference:

1.A Review of the Evolution of Vision-Based Motion Analysis and the Integration of Advanced Computer Vision Methods Towards Developing a Markerless System

2.Multi-view Pictorial Structures for 3D Human Pose Estimation

3.Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

參考文獻(xiàn)下載地址:在公眾號(hào)「3D視覺(jué)工坊」,后臺(tái)回復(fù)「計(jì)算機(jī)視覺(jué)應(yīng)用」,即可直接下載。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


計(jì)算機(jī)視覺(jué)在生物力學(xué)和運(yùn)動(dòng)康復(fù)中的應(yīng)用和研究的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
滕州市| 宁都县| 台北县| 新泰市| 河南省| 阿拉善右旗| 新营市| 鄂伦春自治旗| 湟中县| 武宣县| 黄大仙区| 永修县| 广丰县| 开化县| 光泽县| 五原县| 静海县| 延寿县| 石家庄市| 馆陶县| 麻江县| 基隆市| 都昌县| 方正县| 浮梁县| 察隅县| 沈丘县| 东海县| 京山县| 陵水| 广东省| 商南县| 阳江市| 张家川| 彩票| 桂阳县| 利辛县| 常山县| 大安市| 高雄县| 商水县|