最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Meta研究員:3D手部姿態(tài)質(zhì)量顯著影響動作識別性能

2023-06-20 17:59 作者:映維網(wǎng)劉衛(wèi)華  | 我要投稿

查看引用/信息源請點擊:映維網(wǎng)Nweon

自中心手部姿態(tài)數(shù)據(jù)集

映維網(wǎng)Nweon?2023年06月20日)識別人類活動是計算機視覺領域的一個重要課題。隨著增強現(xiàn)實和虛擬現(xiàn)實系統(tǒng)的進步,從自中心(第一人稱)角度識別動作的需求越來越大。諸如微軟HoloLens、Magic Leap和Meta?Quest等設備通常配備了自中心攝像頭,以捕獲用戶與真實世界或虛擬世界的交互。

在這種場景中,用戶通過雙手操縱對象是一種非常重要的交互方式。特別是,手的姿態(tài)在理解和實現(xiàn)手-物交互、基于姿態(tài)的動作識別和交互界面中起著核心作用。社區(qū)已經(jīng)提出了數(shù)個用于理解自中心活動的大規(guī)模數(shù)據(jù)集,如EPICKITCHENS、Ego4D和Assembly101。特別是,Assembly101強調(diào)了3D手在識別程序性活動的重要性,例如組裝玩具。

值得注意的是,Assembly101的作者發(fā)現(xiàn),對于組裝動作的分類,從3D手部姿態(tài)中學習比僅僅使用視頻特征更有效。然而,所述研究的一個缺點是,Assembly101中的3D手部姿態(tài)注釋并不總是準確,因為它們是從現(xiàn)成的自中心手部追蹤器計算出來的。如圖1可以觀察到,提供的姿態(tài)往往是不準確,特別是當手被物體遮擋時。

因此,之前的研究給社區(qū)留下了一個未解決的問題:3D手部姿態(tài)的質(zhì)量如何影響動作識別性能?

為了系統(tǒng)地回答這個問題,由Meta和東京大學的研究人員提出了一個名為AssemblyHands的新基準數(shù)據(jù)集。它包括從Assembly101采樣的總共3.0M圖像,并使用高質(zhì)量的3D手部姿態(tài)注釋。他們不僅獲得了手動標注,而且利用它們來訓練精確的自動標注模型,通過第三人稱圖像的多視圖特征融合。

如圖2所示。模型實現(xiàn)了4.20 mm的平均關鍵點誤差,比Assembly101中提供的原始注釋低85%。這種自動管道使得能夠有效地將注釋擴展到來自34個主題的490K以自中心圖像,令AssemblyHands成為迄今為止最大的自中心手部姿態(tài)數(shù)據(jù)集,包括規(guī)模和主題多樣性方面。

與DexYCB和H2O等手-物姿態(tài)數(shù)據(jù)集相比,AssemblyHands具有明顯更多的手-物組合。鑒于標注的數(shù)據(jù)集,他們首先使用2.5D heatmap optimization和hand identity classification開發(fā)了一個強大的基線,以用于自中心3D手姿態(tài)估計。然后,為了評估手部姿態(tài)預測的有效性,團隊提出了一種新的評估方案:手部姿態(tài)的動作分類。與先前的自中心手部姿態(tài)估計基準不同,他們詳細分析了3D手部姿態(tài)注釋的質(zhì)量,其對自中心姿態(tài)估計器性能的影響,以及預測姿態(tài)在動作分類中的應用。

AssemblyHands數(shù)據(jù)集生成

所述基準測試中的輸入數(shù)據(jù)來自Assembly101。盡管它可以以合理的精度估計3D手部姿態(tài),但存在數(shù)個限制。例如,由于自為中心攝像頭的立體區(qū)域相對狹窄,當手遠離圖像中心時,深度估計就會變得不準確。

另外,在手物交互過程中,由于嚴重的遮擋,僅自中心追蹤容易出現(xiàn)嚴重的故障模式。這促使團隊開發(fā)一種使用非自中心(第三人稱視角)RGB攝像頭的多視圖注釋方法。盡管存在現(xiàn)有的數(shù)據(jù)集使用基于RGB的模型來注釋手部姿態(tài)(例如OpenPose),但它們在Assembly101中的準確性并不令人滿意。由于OpenPose是在較少手物遮擋圖像進行訓練的,因此當在Assembly101中呈現(xiàn)新穎現(xiàn)實世界對象和更高水平的遮擋時,其預測通常充滿噪點。

因此,有必要開發(fā)一種適合新設置的注釋方法。

團隊在名為《AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation》的論文中提出了一種基于多視圖第三人稱RGB圖像的自動標注管道。首先為從Assembly101的子集中以1hz采樣的幀準備手動注釋。由于獲取手工標注非常費力,研究人員使用它們來訓練一個標注網(wǎng)絡,從而自動提供合理的3D手部姿態(tài)標注。

然后,他們詳細介紹了相關的標注網(wǎng)絡:

  • 使用MVExoNet的標注網(wǎng)絡;

  • 在網(wǎng)絡推理過程中進行迭代改進。

與手動標注相比,這種自動標注方案允許他們在30 Hz采樣的Assembly101的另一個子集中分配21倍的標簽。

首先,獲得了雙手21個關節(jié)在世界坐標空間中的三維位置的手工標注??偟膩碚f,他們以1 Hz的采樣率注釋了來自Assembly101的62個視頻序列,并得到了一組22K幀的注釋集,每個幀有8個RGB視圖。

研究人員進一步將其分成54個序列用于訓練,8個序列用于測試Volumetric標注網(wǎng)絡。接下來,設計了一個三維關鍵點標注的神經(jīng)網(wǎng)絡模型。對于多攝像投設置,標準方法是對2D關鍵點檢測進行三角測量,他們稱之為“2D +三角測量”基線。例如,在InterHand2.6M中,由于攝像頭數(shù)量較多(80到140個),這種方法可以達到2.78 mm的精度。但對于Assembly101,在8臺RGB攝像頭這種數(shù)量有限的情況下,2D +三角測量只能達到7.97 mm(見表2)。

另一方面,端到端的“可學習三角測量”方法在人體姿態(tài)估計方面優(yōu)于標準三角測量。因此,團隊采用這一原理,設計了一個基于三維體特征聚合的多視角手部姿態(tài)估計網(wǎng)絡。他們將體積網(wǎng)絡命名為MVExoNet,并在圖3中展示其設計。

首先,特征編碼器為每個視圖提取2D關鍵點特征。然后,使用基于softmax的加權平均值將特征投影到單個3D體中。然后,基于三維卷積的編碼器-解碼器網(wǎng)絡細化體積特征并輸出3D熱圖。在熱圖上采用soft-argmax運算獲得三維關節(jié)坐標。

對于架構,使用effentnet作為編碼器,在體積聚合之前提取緊湊的2D特征,以節(jié)省GPU內(nèi)存。他們使用V2VPoseNet作為三維卷積網(wǎng)絡。在訓練期間,通過稍微擴展包含手動注釋的2D關鍵點的區(qū)域來生成2D手動裁剪。三維體每側(cè)長300mm,以中指底部為中心(即第三個MCP關節(jié))。

團隊同時通過在每個軸上添加隨機噪點來增加體積的根位置,這可以防止模型總是將體積的源預測為第三個MCP。在測試時,根據(jù)手部檢測器的輸出裁剪手部區(qū)域,并使用2D +三角測量基線預測的第三個MCP作為體積根。然后,他們在MVExoNet的推理過程中提出了一種簡單的迭代改進啟發(fā)式方法。

如上所述,MVExoNet需要手動bounding box來裁剪輸入圖像,并需要根位置來構建3D體。在測試時,bounding box和體積根分別來自于初始2D關鍵點預測的手檢測器和三角測量,并可能存在不準確性。

迭代改進是由以下觀察結(jié)果驅(qū)動的:由于MVExoNet已經(jīng)生成了合理的預測,可以使用它的輸出來重新初始化手部作物和體積根位置。這使得網(wǎng)絡在每個連續(xù)的回合中都有更好的輸入。

他們將原始模型命名為MVExoNet-R1,將接下來的幾輪命名為MVExoNet-R2,以此類推。在每一個額外的回合中,根據(jù)mvexonein在前一輪中生成的投影2D關鍵點定義輸入手部裁剪,并將3D體集中在預測的根位置上。注意,在迭代精化推理期間凍結(jié)了MVExoNet,并且只更新模型的輸入(即bounding box和體積根)。

評估

接下來,將提出的注釋方法的準確性與幾個基線進行比較,包括原始Assembly101中使用的自中心手部追蹤器。

首先,為了評估分布內(nèi)泛化,使用了來自Assembly101的手動注釋測試集,其中包含從8個序列中以1hz采樣的幀。他們同時考慮了對不可見多攝像頭設置的泛化。為此,使用最近發(fā)布的Aria Pilot Dataset中的Desktop Activities子集。

表2比較了手動標注的評估集上標注方法的準確性。Assembly101中的原始手部注釋是由一個以自中心的手部姿態(tài)估計器UmeTrack計算的,使用的是自中心攝像頭的單色圖像。自中心標注的誤差為27.55mm,明顯高于使用2D +三角剖分和團隊提出的方法。

研究人員發(fā)現(xiàn),當手持物體阻擋了用戶的視角時,自中心攝像頭的注釋變得不準確。對于這種情況,來自多個第三視角攝像頭的關鍵點預測有助于定位被遮擋的關鍵點。通過融合來自多視角圖像的體積特征,MVExoNet比標準的2D +三角測量基線性能要好得多。

如表2所示,初始推理結(jié)果(MVExoNet-R1)達到了合理的性能,誤差為5.42 mm。經(jīng)過兩輪迭代改進,進一步將標注誤差從5.42 mm減少到4.20 mm(減少22.5%)。

圖4可視化了手部裁剪和MVExoNet在Assembly101和Desktop Activities的預測的轉(zhuǎn)換。第一輪的手部裁剪對兩個數(shù)據(jù)集來說都不是最優(yōu)的。例如,模型無法區(qū)分要標注哪只手,因為兩只手都位于Assembly101(左)中的圖像中心。另外,這只手在圖像上方(右上)移動,看起來很小(右下)。考慮到這種次優(yōu)手部裁剪,預測變得充滿噪點,

但在之后的回合中,手部裁剪逐漸聚焦于目標手(例如左上角的左手),這提高了關鍵點的定位。

為了評估團隊注釋方法的跨數(shù)據(jù)集泛化能力,他們使用了Desktop Activities。其中,所述數(shù)據(jù)集同時具有多攝像頭設置中的手-物交互功能。

如表3所示,由于新的攝像頭配置和新對象的存在,所有方法獲得的誤差都高于Assembly101設置。特別是,基線注釋方法2D +三角測量在應用于Desktop Activities時顯著降低,MPJPE接近50 mm。相比之下,MVExoNet在新設置下非常穩(wěn)健,初始MPJPE為21.20 mm,經(jīng)過兩輪迭代優(yōu)化后達到13.38 mm(誤差降低36.9%)。

自中心3D手部姿態(tài)估計

為了為以自中心的視圖構建手姿估計器,團隊使用上面所述的注釋在自中心圖像訓練模型。對自中心圖像進行訓練是必要的,因為現(xiàn)有的自中心數(shù)據(jù)集不能完全捕獲特定的偏差,包括視點、攝像頭特征(自中心攝像頭通常是魚眼)和頭部運動的模糊。

因此,將第三視角模型泛化到以自中心的數(shù)據(jù)往往是有限的。團隊對自中心的3D手部姿態(tài)估計進行了評估。

給定一個自中心圖像,任務旨在預測腕部相對空間中21個關節(jié)的三維坐標。他們將人工標注和自動標注的數(shù)據(jù)集(M/A)分為訓練和評估兩個部分。人工標注的訓練集和評估集分別包含19.2K和3.0K圖像,而所述圖像以1 Hz的頻率從62個視頻序列中采樣,包含14個主題。

自動標注集分別包括405K和63K圖像,圖像以30 Hz的頻率從包含20個主題的20個序列的不相交集中采樣。

根據(jù)標準的基于熱圖的手部姿態(tài)估計器,團隊構建了一個單目自中心圖像訓練的單視圖網(wǎng)絡(SVEgoNet)。所述模型由2.5D heatmap optimization和hand identity classification組成。2.5D熱圖在x-y軸上表示2D關鍵點熱圖,在z軸上表示手腕與相機的相對距離。

他們使用ResNet-50骨干網(wǎng)絡。通過在2.5D熱圖上應用argmax計算三維關節(jié)坐標。另外,他們觀察到學習hand pose和hand identity之間的相關性在任務中是有效的。例如在“螺絲”運動中,Assembly101的參與者更有可能用左手拿著玩具,用右手轉(zhuǎn)動螺絲刀。當處理小零件時,兩只手往往更近,出現(xiàn)在同一個手裁剪。

為了捕獲這種相關性,他們在SVEgoNet中添加了一個hand identity classification分支,靈感來自[23]。我們讓分支對左手、右手還是雙手出現(xiàn)在給定的手群中進行分類。評估。我們將我們的模型和UmeTrack[11]的預測與手腕相對坐標下的實際情況進行了比較。我們使用兩個標準指標:以毫米為單位的平均每個關節(jié)位置誤差(MPJPE)和正確關鍵點百分比的曲線下面積(PCK-AUC)。

結(jié)果

表4分別比較了在手動(M)、自動(A)和手動+自動注釋(M+A)的數(shù)據(jù)集訓練的SVEgoNet的性能。他們提供了Eval-M結(jié)果作為規(guī)范參考,并提供了所有評估集上的其他結(jié)果??梢钥吹剑诮M合注釋上訓練的模型Train-M+A始終給出最低的錯誤,這驗證了使用自動方法縮放注釋的努力。

研究同時表明,混合使用手動和自動注釋是提高模型性能的實用解決方案。

圖片

圖5顯示了由UmeTrack、團隊的自動標注管道、以及團隊訓練的以自中心的基線SVEgoNet生成的3D手部姿態(tài)的定性示例。

他們從不同的角度對每個模型的預測進行可視化。自中心的基線UmeTrack可以相當好地估計手部姿態(tài)。然而,在第三視角視圖中的可視化顯示,它傾向于沿著z軸產(chǎn)生錯誤。特別是,在自遮擋(左)或手遮擋(中、右)中,預測的準確性會下降。

另一方面,團隊的多視圖自動標注利用多個第三視角圖像的提示克服了所述缺陷。因此,在注釋上訓練的SVEgoNet對遮擋情況的結(jié)果更加魯棒。

最后,團隊重新審視激勵問題:3D手部姿態(tài)的質(zhì)量如何影響動作識別性能?

他們用一種新的評價方案來回答這個問題:以手部姿態(tài)為輸入的動詞分類。在Assembly101中,動作在細粒度級別上定義為描述運動的單個動詞和交互對象的組合,例如拿起螺絲刀。團隊使用六個動詞標簽來評估預測的手部姿態(tài),包括pick up拾起, position位置, screw扭緊, put down放下, remove移除和unscrew扭開。這是因為所述動詞嚴重依賴于用戶的手部運動,而手部姿態(tài)估計的目的是對其進行編碼。

對于動詞分類,研究人員使用自為中心的手姿估計器的輸出來訓練MS-G3D。按照Assembly101的實驗,對于每個片段,輸入42個關鍵點的序列(每只手21個)。

表5報告了從自中心攝像頭估計的3D手部姿態(tài)的動詞分類精度。他們在自動標注上訓練了一個動詞分類器,平均達到56.5%的動詞準確率。他們注意到較低的10hz采樣率會影響對快速非線性運動的識別。特別是,擰開螺絲的精度相當?shù)?,這主要是由于與螺絲運動混淆。

然后,將我們的單視圖SVEgoNet與現(xiàn)成的自中心手部姿態(tài)估計器UmeTrack進行比較。其中,UmeTrack用于為Assembly101提供原始注釋,并使用來自多個自中心的圖像的特征融合模塊。

姿態(tài)估計度量顯示,SVEgoNet達到22.96 mm MPJPE,比UmeTrack低38%。其次,對于動詞分類精度,使用SVEgoNet預測的手部姿態(tài)也大大優(yōu)于使用UmeTrack (51.7 vs. 41.8)。

當以56.5的上界性能為參考時,使用SVEgoNet姿態(tài)的相對性能達到91.5%,明顯優(yōu)于使用UmeTrack的73.9%。另外,圖6給出了UmeTrack和SVEgoNet的分類混淆矩陣。使用SVEg- oNet預測可以顯著減少非對角線混淆,特別是對于具有挑戰(zhàn)性的動詞對。

SVEgoNet分別測量每個動詞的性能,在位置、扭緊、放下、移除和扭開螺絲方面,SVEgoNet分別將UmeTrack的動詞準確度提高了22%、5%、16%、28%和17%,而拾取的準確度則降低了5%。

對于令人困惑的動詞對(拾起和放下), UmeTrack傾向于將兩個動詞都預測為拾起,因為它們是最常見的動詞類。因此,放下的準確率特別低(29.8%),而拾起的準確率為67.2%,略高于SVEgoNet的58.0%。

值得注意的是,團隊的模型在位置和移除動詞方面的改進是顯著的,因為對于所述動詞,大多數(shù)時候一只手被嚴重遮擋,而UmeTrack無法預測被遮擋的手的準確姿態(tài)。

相關論文


AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand Pose Estimation


https://paper.nweon.com/14481

總的來說,團隊提出了AssemblyHands。這個全新的基準數(shù)據(jù)集用于研究在強手-物交互存在下的自中心活動。他們使用基于多視圖特征聚合的自動標注方法提供了大規(guī)模精確的3D手部姿態(tài)標注,遠遠優(yōu)于原始Assembly101中基于自中心的標注。準確的注釋使得他們能夠深入分析手部姿態(tài)估計如何通知動作識別。

他們同時提出了一種基于動詞分類的單視角自中心手部姿態(tài)評價方法。研究結(jié)果證實,3D手部姿態(tài)的質(zhì)量顯著影響動作識別性能。

團隊表示,希望AssemblyHands能啟發(fā)新的方法和見解,從自中心角度來理解人類活動。

在未來的研究中,他們首先計劃以更高的采樣率將手部姿態(tài)注釋擴展到整個Assembly101。研究人員同時計劃獲得對象級別的注釋,例如對象bounding box。最后,他們有興趣探索手,物體和多任務學習之間的相互作用。

?

---
原文鏈接:https://news.nweon.com/108904



Meta研究員:3D手部姿態(tài)質(zhì)量顯著影響動作識別性能的評論 (共 條)

分享到微博請遵守國家法律
二手房| 个旧市| 沭阳县| 扶余县| 广南县| 涪陵区| 偃师市| 漳浦县| 永福县| 太康县| 温宿县| 资溪县| 遂昌县| 炎陵县| 临西县| 宜君县| 桃江县| 同仁县| 吉隆县| 临安市| 梁山县| 基隆市| 定西市| 德阳市| 安达市| 汶川县| 舒城县| 彝良县| 深州市| 玛沁县| 大埔县| 蒲江县| 德阳市| 肇源县| 大理市| 鹤山市| 藁城市| 永顺县| 景宁| 和田县| 洮南市|