AAAI 2023 Oral | 對自然條件下的點(diǎn)云序列中手物交互的位姿追蹤與重建

導(dǎo) 讀
本文是 AAAI 2023 Oral 入選論文 Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild 的解讀。本論文由北京大學(xué)王鶴研究團(tuán)隊(duì)與北京通用人工智能研究院、弗吉尼亞理工大學(xué)、斯坦福大學(xué)、清華大學(xué)、哥倫比亞大學(xué)合作,針對追蹤并重建一段輸入點(diǎn)云序列中的手和物體這一任務(wù)進(jìn)行了研究。
我們首次提出了一個(gè)基于點(diǎn)云的手部關(guān)節(jié)追蹤網(wǎng)絡(luò) HandTrackNet,并設(shè)計(jì)了一套完整的算法來完成手和物體追蹤與重建這一具有挑戰(zhàn)性的任務(wù)。此外,為了獲得更多樣且精準(zhǔn)的數(shù)據(jù),我們在仿真器中生成了大量手物交互的數(shù)據(jù),并模擬了深度相機(jī)的拍攝原理,以獲得接近真實(shí)世界噪聲分布的深度數(shù)據(jù)。僅用仿真數(shù)據(jù)進(jìn)行訓(xùn)練,我們的方法可以很好地泛化到未見過的真實(shí)場景測試數(shù)據(jù)上,以較快的速度(9FPS)取得遠(yuǎn)超前人工作的精度。
論文鏈接:
http://arxiv.org/abs/2209.12009
項(xiàng)目主頁:
https://pku-epic.github.io/HOtrack
代碼地址:
https://github.com/PKU-EPIC/HOTrack
圖1. HO3D 數(shù)據(jù)集上的效果展示圖。左起依次為輸入點(diǎn)云,輸出重建結(jié)果,另一個(gè)視角的輸出,以及輸出與 RGB 疊置的效果??梢钥吹剑覀兊乃惴▽κ治锝换ブ械恼趽鯁栴}有很好的魯棒性。



圖2. DexYCB 數(shù)據(jù)集上的效果展示圖。
01
引 言
手和物體的交互作為人類與復(fù)雜現(xiàn)實(shí)場景交互的主要途徑,在現(xiàn)實(shí)生活中無處不在。作為感知人類與物體交互的主要方法,位姿追蹤和重建人手與物體是兩個(gè)至關(guān)重要的研究課題,可以實(shí)現(xiàn)廣泛的應(yīng)用,包括人機(jī)交互[1],增強(qiáng)現(xiàn)實(shí)[2],以及讓機(jī)器人從人類的演示中學(xué)習(xí)相應(yīng)技能(如抓取和操縱等[3])。
近年來,隨著深度學(xué)習(xí)的發(fā)展,越來越多基于深度學(xué)習(xí)的工作涌現(xiàn)出來,研究如何從單幀信息(RGB 圖片[4]或點(diǎn)云[5])中去感知手和物體,重建他們的幾何形狀或是估計(jì)他們的位姿,但是這類方法往往無法利用上視頻相鄰幀之間的連續(xù)性。另一方面,深度學(xué)習(xí)非常依賴數(shù)據(jù),而對真實(shí)場景視頻中的手和物體去準(zhǔn)確標(biāo)注三維幾何形狀及位姿是一件非常困難且成本極大的事情,現(xiàn)有的數(shù)據(jù)集如 DexYCB[6]和 HO3D[7]都規(guī)模不大且包含的物體數(shù)量少(不超過20個(gè)不同物體),用這樣的數(shù)據(jù)難以訓(xùn)練出能夠泛化到未見過的手和物體的模型。
因此,在這個(gè)工作中,我們關(guān)注于這樣一個(gè)非常有挑戰(zhàn)的任務(wù)——在不用任何真實(shí)數(shù)據(jù)作訓(xùn)練的前提下,對自然條件下的點(diǎn)云序列,聯(lián)合追蹤并重建人手和物體。我們的任務(wù)設(shè)定如下所述:給定一個(gè)包含已分割的手和物體的深度點(diǎn)云序列,還有初始的手部位姿和物體位姿,我們的算法需要去重建手和物體的幾何形狀,并以一個(gè)在線的方式(即對于第t幀的預(yù)測只能利用當(dāng)前幀和過去幀的信息,不能利用未來幀的信息)對他們的位姿進(jìn)行追蹤。我們選擇點(diǎn)云這一模態(tài)作為輸入而非圖片是因?yàn)樗麄兙哂懈訙?zhǔn)確的三維結(jié)構(gòu),便于我們感知手和物體的位姿,并且具有更小的歧義性。
為了實(shí)現(xiàn)這一目標(biāo),首先,為了緩解數(shù)據(jù)問題,我們提出了一套流程來合成手和物體交互的仿真數(shù)據(jù)集。該數(shù)據(jù)集擁有非常高的多樣性,無論是手的形狀、物體的形狀,還是兩者的交互姿勢;此外,得益于仿真環(huán)境的優(yōu)勢,這些數(shù)據(jù)帶有免費(fèi)的位姿和形狀標(biāo)注。為了最小化仿真和現(xiàn)實(shí)的領(lǐng)域差異,我們利用 DDS[8]提出的基于結(jié)構(gòu)光的深度傳感器模擬器,生成帶有真實(shí)傳感器噪聲的仿真點(diǎn)云。
除此之外,我們首次提出了一個(gè)基于點(diǎn)云的手部姿勢跟蹤網(wǎng)絡(luò),HandTrackNet,以追蹤幀間手部關(guān)節(jié)的運(yùn)動(dòng)。HandTrackNet 建立在 PointNet++[9]的基礎(chǔ)上,基于上一幀的預(yù)測來估計(jì)當(dāng)前幀手部關(guān)節(jié)位置的變化。相較于單幀回歸的算法,這樣做壓縮了輸出數(shù)據(jù)的分布空間,簡化了回歸任務(wù),增強(qiáng)了時(shí)序上的連續(xù)性。此外,HandTrackNet 會(huì)從上一幀的預(yù)測中計(jì)算手的全局位姿,并利用手的全局位姿來將當(dāng)前幀的輸入點(diǎn)云變換到一個(gè)規(guī)范化的坐標(biāo)系內(nèi),這極大地壓縮了輸入數(shù)據(jù)的分布空間,進(jìn)一步簡化了回歸任務(wù)。在訓(xùn)練過程中,HandTrackNet 會(huì)學(xué)習(xí)修正隨機(jī)的手部關(guān)節(jié)擾動(dòng),因此不會(huì)過擬合到任何時(shí)序軌跡上。
最后,為了更好的解決手和物體遮擋帶來的歧義性,我們進(jìn)一步利用基于優(yōu)化的方法來推理手和物體之間的空間關(guān)系,獲取物理上更加真實(shí)的預(yù)測。我們先將追蹤到的手部關(guān)節(jié)位置轉(zhuǎn)化為 MANO[10]這一參數(shù)化模型的表示,得到手部幾何的重建,然后根據(jù)手和物體交互的先驗(yàn)構(gòu)建幾個(gè)能量函數(shù),用于進(jìn)一步調(diào)整手的位姿,從而產(chǎn)生更加符合物理規(guī)律、更加真實(shí)的手部位姿。
通過充分的實(shí)驗(yàn),我們證明了我們的方法在從未見過的真實(shí)世界手和物體交互數(shù)據(jù)集 HO3D[7]和 DexYCB[6]中的有效性。我們的方法在手和物體的位姿追蹤精度上明顯優(yōu)于之前的方法,并顯示出良好的追蹤魯棒性和極強(qiáng)的泛化性。整個(gè)算法能夠以交互式幀率(約9FPS)進(jìn)行在線跟蹤和重建。
02
方法簡介

圖3. 我們生成的 SimGrasp 數(shù)據(jù)集。
首先,為了應(yīng)對數(shù)據(jù)不足的問題,我們在仿真環(huán)境中造了一個(gè)手和物體交互的數(shù)據(jù)集 SimGrasp,包含超過450個(gè)不同的物體和100個(gè)不同大小的手,一共生成了1810段視頻,每段視頻有100幀。我們首先使用 GraspIt[11]來生成了一些手和物體呈持握狀態(tài)的數(shù)據(jù),然后將手往手背方向挪一定距離,并通過對位姿插值的方式獲取動(dòng)態(tài)抓取的視頻。為了減少 Sim2real 的巨大差異,我們重新實(shí)現(xiàn)了 DDS 算法[8],基于結(jié)構(gòu)光深度相機(jī)的原理,在仿真環(huán)境中模擬了真實(shí)相機(jī)點(diǎn)云會(huì)產(chǎn)生的噪聲。

圖4. HandTrackNet 結(jié)構(gòu)示意圖。
在方法上,我們首次提出了一個(gè)基于點(diǎn)云的手部關(guān)節(jié)追蹤網(wǎng)絡(luò) HandTrackNet,該網(wǎng)絡(luò)接收當(dāng)前第t幀的手部點(diǎn)云和上一幀預(yù)測的手部關(guān)節(jié)位置
作為輸入,并對二者進(jìn)行全局姿勢規(guī)范化處理。然后,它利用 PointNet++[9]從規(guī)范化的手部點(diǎn)云
中提取特征,并使用每個(gè)關(guān)節(jié)進(jìn)行K近鄰查詢和特征傳遞,最后用一個(gè)多層線性感知機(jī)來回歸并更新關(guān)節(jié)位置。
其中,主要的創(chuàng)新部分在于利用上一幀預(yù)測的關(guān)節(jié)位置來進(jìn)行全局姿勢規(guī)范化上。前人的工作[5]發(fā)現(xiàn)手的全局位姿的多樣性會(huì)給網(wǎng)絡(luò)預(yù)測關(guān)節(jié)位置帶來很大的困難,而如果能夠設(shè)計(jì)比較好的全局位姿規(guī)范化方法,使得所有的輸入點(diǎn)云都能被變換到同一個(gè)規(guī)范位姿下(例如手心朝向+y軸,指尖指向+z軸),就能大大降低學(xué)習(xí)難度,提升泛化能力。注意到,按照之前定義的手部規(guī)范位姿,規(guī)范化的手部點(diǎn)云的第一特征向量應(yīng)該平行z軸,第二特征向量應(yīng)該平行x 軸,因此前人工作[5]中大多使用 PCA 來獲取手部點(diǎn)云的外包圍盒,并利用上述特性進(jìn)行手的全局姿勢規(guī)范化。然而,這樣的做法存在的缺陷是當(dāng)手被嚴(yán)重遮擋時(shí),獲取的外包圍盒無法很好地反應(yīng)真實(shí)手部全局位姿,因此不適用于手和物體交互的場景。
而我們則是注意到,手部指根處的關(guān)節(jié)點(diǎn)相對位置無論手指怎么動(dòng)都是基本不變的,因此我們可以用 SVD 求解上一幀指根關(guān)節(jié)位置相對于預(yù)定義的規(guī)范位姿下的指根位置的平移和旋轉(zhuǎn),結(jié)合視頻的連續(xù)性,利用這一平移和旋轉(zhuǎn)去規(guī)范化當(dāng)前幀的手部點(diǎn)云輸入。

圖5.
完整流程圖。第0幀,我們會(huì)重建手和物體的幾何(如虛線所示);后續(xù)每一幀,我們會(huì)分別預(yù)測物體的位姿{(lán)R^{obj},
T^{obj}}和手的位姿{(lán)R^{hand},
T^{hand},Θ},并通過優(yōu)化來進(jìn)一步修復(fù)手的位姿。我們還可以每10幀更新一次手和物體的幾何。
利用 HandTrackNet 獲取手部關(guān)節(jié)位置后,我們利用一個(gè)簡單的多層感知機(jī)網(wǎng)絡(luò) IKNet 將手部關(guān)節(jié)位置轉(zhuǎn)化成了手部各關(guān)節(jié)角度Θ,將Θ作為
MANO 這一常用的手部參數(shù)化模型的輸入,結(jié)合第0幀通過優(yōu)化獲得的手部形狀參數(shù)β,就可以得到手的完整三維重建了。而物體這一支,我們在第0幀利用
DeepSDF[12]的技術(shù)來根據(jù)觀察到的點(diǎn)云去重建類別級(jí)未知物體的幾何形狀,并在之后每一幀通過優(yōu)化的辦法來解算物體位姿。最后,我們還使用了一個(gè)聯(lián)合優(yōu)化的模塊,使用手與物體不會(huì)互相穿透、手指會(huì)貼近物體表面等條件作為能量函數(shù)來優(yōu)化手的位姿,獲取更符合物理規(guī)律、更真實(shí)的手物交互。我們還可以每隔10幀更新一次手和物體的幾何,降低初始化時(shí)的幾何誤差對后續(xù)追蹤的影響。
03
實(shí)驗(yàn)結(jié)果
我們僅僅使用我們合成的仿真數(shù)據(jù)集 SimGrasp 進(jìn)行訓(xùn)練,在不使用任何真實(shí)數(shù)據(jù)進(jìn)一步訓(xùn)練的情況下,直接在 HO3D[7]和 DexYCB[6]這兩個(gè)具有挑戰(zhàn)性的真實(shí)數(shù)據(jù)集上進(jìn)行測試。相較于之前基于單幀預(yù)測的工作HandFoldingNet[13],A2J[14]和 VirtualView[15]以及基于追蹤的工作 Forth[16],我們的方法在平均關(guān)節(jié)位置誤差這項(xiàng)指標(biāo)上在兩個(gè)數(shù)據(jù)集中分別能顯著提升6mm 和3mm 以上。

圖6. 手部關(guān)節(jié)追蹤實(shí)驗(yàn)結(jié)果。MPJPE 指平均關(guān)節(jié)位置誤差,PD 指手和物體最大穿透深度,DD 指手和物體在接觸時(shí)手指到物體上最近點(diǎn)的平均距離。
物體追蹤方面,雖然之前的工作 CAPTRA[17]在驗(yàn)證集上能獲得更好的表現(xiàn),但是在真實(shí)數(shù)據(jù)的測試集上,我們基于優(yōu)化的方法能夠一致地超過它,證明了我們方法具有更強(qiáng)的泛化能力。

圖7. 物體追蹤實(shí)驗(yàn)結(jié)果。5度5cm 指旋轉(zhuǎn)誤差小于5度且平移誤差小于5cm 的百分比,10度10cm 同理,CD 指帶位姿的重建物體和標(biāo)注物體的倒角距離(Chamfer distance)。
參考文獻(xiàn)
[1] Yang, W., Paxton, C., Cakmak, M., Fox, D.: Human grasp classification for reactive humanto-robot handovers. IROS 2020.
[2] Hürst, W., Van Wezel, C.: Gesture-based interaction via finger tracking for mobile augmented reality. MTA 2013.
[3] Garcia-Hernando, G., Johns, E., Kim, T.K.: Physics-based dexterous manipulations with estimated hand poses and residual reinforcement learning. IROS 2020.
[4] Oberweger, M., Wohlhart, P., Lepetit, V.: Hands deep in deep learning for hand pose estimation. arXiv:1502.06807 (2015).
[5] Ge, L., Cai, Y., Weng, J., Yuan, J.: Hand pointnet: 3d hand pose estimation using point sets. CVPR 2018.
[6] Chao, Y.W., Yang, W., Xiang, Y., Molchanov, P., Handa, A., Tremblay, J., Narang, Y.S., Van Wyk, K., Iqbal, U., Birchfield, S., et al.: Dexycb: A benchmark for capturing hand 10 grasping of objects. CVPR 2021.
[7] Hampali, S., Rad, M., Oberweger, M., Lepetit, V.: Honnotate: A method for 3d annotation of hand and object poses. CVPR 2020.
[8] Planche, B., Singh, R.V.: Physics-based differentiable depth sensor simulation. CVPR 2021.
[9] Qi, C.R., Yi, L., Su, H., Guibas, L.J.: Pointnet++: Deep hierarchical feature learning on point sets in a metric space. NeurIPS 2017.
[10] Romero, J., Tzionas, D., Black, M.J.: Embodied hands: Modeling and capturing hands and bodies together. ToG 2017.
[11] Miller, A.T., Allen, P.K.: Graspit! a versatile simulator for robotic grasping. RAM 2004.
[12] Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S.: Deepsdf: Learning continuous signed distance functions for shape representation. CVPR 2019.
[13] Cheng, W., Park, J.H., Ko, J.H.: Handfoldingnet: A 3d hand pose estimation network using multiscale-feature guided folding of a 2d hand skeleton. ICCV 2021.
[14] Xiong, F., Zhang, B., Xiao, Y., Cao, Z., Yu, T., Zhou, J.T., Yuan, J.: A2j: Anchor-tojoint regression network for 3d articulated pose estimation from a single depth image. ICCV 2019.
[15] Cheng, J., Wan, Y., Zuo, D., Ma, C., Gu, J., Tan, P., Wang, H., Deng, X., Zhang, Y.: Efficient virtual view selection for 3d hand pose estimation. arXiv:2203.15458 (2022).
[16] Oikonomidis, I., Kyriazis, N., Argyros, A.A.: Efficient model-based 3D tracking of hand articulations using kinect. BmVC 2011.
[17] Weng, Y., Wang, H., Zhou, Q., Qin, Y., Duan, Y., Fan, Q., Chen, B., Su, H., Guibas, L.J.: Captra: Category-level pose tracking for rigid and articulated objects from point clouds. ICCV 2021.

Embodied Perception and InteraCtion (EPIC)