ICCV 2023 | UniDexGrasp++:基于幾何感知課程和迭代通用-專家策略學(xué)習(xí)的靈巧手抓取算

關(guān)鍵詞:靈巧手抓取, 機(jī)器人操控, 策略學(xué)習(xí)

導(dǎo) 讀
本文是 ICCV 2023 入選 Oral 論文 UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning 的解讀。本論文由北京大學(xué)王鶴研究團(tuán)隊(duì)與清華大學(xué)、北京通用人工智能研究院合作,是研究團(tuán)隊(duì) CVPR 2023 工作 UniDexGrasp 的后續(xù)工作。
面對(duì)三千多種物體在任意位姿下的泛化視覺強(qiáng)化學(xué)習(xí)困難,我們提出了基于幾何的課程學(xué)習(xí),對(duì)視覺空間進(jìn)行劃分,并進(jìn)行多輪交替的專家策略學(xué)習(xí)和向通用策略的蒸餾,第一次達(dá)成了成功率超過80%的、點(diǎn)云輸入的通用靈巧手抓取策略。
文章在 ICCV 2023 中獲得全滿分的評(píng)審成績并被評(píng)為口頭報(bào)告展示(Oral Presentation)。
論文鏈接:https://arxiv.org/abs/2304.00464
項(xiàng)目主頁:https://pku-epic.github.io/UniDexGrasp++/
代碼地址:https://github.com/PKU-EPIC/UniDexGrasp2

01
引 言
機(jī)器人抓取是機(jī)器人與環(huán)境交互的重要組成,也是機(jī)器人實(shí)現(xiàn)復(fù)雜操作的關(guān)鍵。盡管傳統(tǒng)的二指抓取方法已經(jīng)取得了很大的進(jìn)展,但其在處理復(fù)雜物體也具有一定的局限性。相比之下,靈巧手抓取,特別是五指抓取,提供了更為豐富和多樣的抓取方式。然而,靈巧手驅(qū)動(dòng)空間的高維度既是賦予靈巧手這種多功能性的優(yōu)勢(shì),也是難以執(zhí)行成功抓取的主要原因。作為一種廣泛使用的五指機(jī)器人靈巧手,ShadowHand[1]擁有26個(gè)自由度(DoF)。這種高維度加大了生成有效抓取姿勢(shì)和規(guī)劃執(zhí)行軌跡的難度,從而迫使靈巧抓取任務(wù)的研究采取與平行抓取任務(wù)不同的方法。一些工作使用基于視覺輸入的強(qiáng)化學(xué)習(xí)解決這個(gè)問題[2,3],但由于目前強(qiáng)化學(xué)習(xí)算法的局限性,通常這些方法很難學(xué)習(xí)不同物體不同姿態(tài)的通用抓取策略。
UniDexGrasp[4]使用物體課程學(xué)習(xí)(Object Curriculum Learning)以及知識(shí)蒸餾的方法學(xué)習(xí)了一個(gè)通用的視覺抓取策略。在 UniDexGrasp 中,一個(gè)局限性是基于狀態(tài)(State-based)的教師策略只能達(dá)到79.4%的成功率,由此當(dāng)使用知識(shí)蒸餾學(xué)習(xí)基于視覺(Vision-based)的學(xué)生策略時(shí),學(xué)生策略的表現(xiàn)受到了很大的限制。另一方面,即使同一個(gè)物體,在不同位姿的下的幾何信息也差異很大,而 UniDexGrasp 的物體課程學(xué)習(xí)只關(guān)注了物體類別卻忽視了物體的位姿。我們提出了一種新的方法,UniDexGrasp++,關(guān)注不同物體不同位姿的幾何差異,并利用通用策略-專家策略學(xué)習(xí)[5]方法,極大地提升了 UniDexGrasp 的泛化能力。
首先,為了提升基于狀態(tài)的教師策略的表現(xiàn),我們提出了使用場(chǎng)景點(diǎn)云的的幾何特征來計(jì)算任務(wù)相似性的幾何感知任務(wù)課程學(xué)習(xí)(GeoCurriculum)。為了進(jìn)一步提高策略的泛化能力,我們采納了通用策略-專家策略學(xué)習(xí)(Generalist-Specialist Learning, GSL)的理念,其中一組專家策略在任務(wù)空間的子集上訓(xùn)練,然后將其知識(shí)蒸餾給一個(gè)通用策略。我們進(jìn)一步提出了幾何感知的迭代通用策略-專家策略學(xué)習(xí)(Geometry-aware iterative Generalist-Specialist Learning, GiGSL),在這里我們使用幾何特征來決定哪個(gè)專家處理哪個(gè)任務(wù),并迭代地進(jìn)行蒸餾和微調(diào)。我們的方法得到的基于狀態(tài)的策略,在訓(xùn)練集和測(cè)試集上分別達(dá)到了87.9%和83.7%的成功率。
接下來,我們將表現(xiàn)最佳的專家策略蒸餾給一個(gè)基于視覺的通用策略,并在基于視覺的策略上再次進(jìn)行 GiGSL,直至其性能飽和。通過我們完整的流程,我們最終的基于視覺的策略在3000+的物體實(shí)例上展現(xiàn)了普遍的靈巧抓取能力,其在訓(xùn)練集和測(cè)試集上的成功率分別為85.4%和78.2%,這顯著地超越了最先進(jìn)的基準(zhǔn)。同時(shí),完整的消融實(shí)驗(yàn)展現(xiàn)了我們提出的各個(gè)改進(jìn)策略的優(yōu)越性。
02
方法簡介

方法概覽
如圖2所示,方法的流程分為左右兩個(gè)階段:第一階段為基于狀態(tài)的策略學(xué)習(xí),第二階段為基于視覺的策略學(xué)習(xí)。
在第一階段中,我們的目標(biāo)是得到一個(gè)基于狀態(tài)的通用策略,該策略以機(jī)器人狀態(tài)、物體狀態(tài)
以及第一幀的場(chǎng)景點(diǎn)云
中獲取輸入。這里的物體點(diǎn)云是由多視角深度攝像機(jī)捕獲的多個(gè)深度點(diǎn)云融合而成的。我們?cè)谳斎胫邪▓?chǎng)景點(diǎn)云
以保留場(chǎng)景的幾何信息,并使用預(yù)訓(xùn)練的點(diǎn)云自動(dòng)編碼器的編碼器來提取其幾何特征。這里使用的點(diǎn)云編碼器是凍結(jié)的,以使其盡可能簡單,因此它不會(huì)干擾策略學(xué)習(xí)。我們將
的視覺處理留給基于視覺的策略。盡管通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)基于狀態(tài)的策略比學(xué)習(xí)基于視覺的策略更容易,但在如此多樣化的多任務(wù)設(shè)置下實(shí)現(xiàn)高成功率仍然非常具有挑戰(zhàn)性。因此,我們提出了一個(gè)幾何感知的課程學(xué)習(xí)(GeoCurriculum)來簡化多任務(wù) RL 并提高成功率。經(jīng)過這個(gè) GeoCurriculum,我們獲得了第一個(gè)可以處理所有任務(wù)的基于狀態(tài)的通用策略
。然后,我們提出了一個(gè)幾何感知的迭代通用策略-專家策略學(xué)習(xí)方法,稱為 GiGSL,以進(jìn)一步提高通用策略的性能。這個(gè)過程包括學(xué)習(xí)數(shù)個(gè)專門針對(duì)特定任務(wù)范圍的基于狀態(tài)的專家策略
和將專家策略蒸餾為通用策略
之間的迭代,其中i表示迭代索引。通過這種迭代學(xué)習(xí),整體性能持續(xù)提高,直到飽和。
在第二階段中,我們的目標(biāo)是學(xué)習(xí)一個(gè)基于視覺的通用策略。對(duì)于基于視覺的策略,我們只允許它訪問現(xiàn)實(shí)世界中可用的信息,包括機(jī)器人狀態(tài)和場(chǎng)景點(diǎn)云
。在這個(gè)階段,我們需要聯(lián)合學(xué)習(xí)一個(gè)從
中提取特征的視覺主干網(wǎng)絡(luò)以及我們的策略(參見圖2的藍(lán)色部分)。在這里,我們采用 PointNet+Transformer[6]。我們隨機(jī)初始化我們第一個(gè)視覺通用策略
的網(wǎng)絡(luò)權(quán)重。我們首先進(jìn)行跨模態(tài)蒸餾,將最新的基于狀態(tài)的專家
蒸餾給
。然后,我們開始對(duì)基于視覺的策略進(jìn)行 GiGSL 迭代,這個(gè)過程在微調(diào)
和蒸餾給
之間迭代,直到基于視覺的通用策略的性能飽和。最終的基于視覺的通才
是我們學(xué)到的性能最高的通用抓取策略。整個(gè)流程的偽代碼請(qǐng)參考圖3。

下面,我們分別詳細(xì)介紹上述概覽中提出的方法模塊。
迭代通用策略-專家策略學(xué)習(xí)(iGSL)
我們?cè)谕ㄓ貌呗?專家策略學(xué)習(xí)[5]的基礎(chǔ)上提出了迭代通用策略-專家策略學(xué)習(xí)。具體來說,我們將整個(gè)任務(wù)空間分割成多個(gè)子空間,并讓一個(gè)專家策略負(fù)責(zé)一個(gè)子空間。由于每個(gè)子空間的任務(wù)變化較少,因此更容易學(xué)習(xí),每個(gè)專家策略都可以受到良好的訓(xùn)練,并在其任務(wù)分布上表現(xiàn)出色。最后,我們使用 DAgger-based policy distillation 的方法將所有的專家策略蒸餾成一個(gè)通用的 A 策略,并重復(fù)迭代執(zhí)行這個(gè)過程。
幾何感知的迭代通用策略-專家策略學(xué)習(xí)(GiGSL)
對(duì)于 iGSL,一個(gè)重要難題是如何劃分任務(wù)空間。之前的工作通常處理的是數(shù)量有限的任務(wù),因此可以為每個(gè)任務(wù)指定一個(gè)專家,或者隨機(jī)指定。然而,在我們的工作中,考慮到初始物體姿態(tài)可以連續(xù)變化,我們面臨的是無數(shù)的任務(wù)。我們只能負(fù)擔(dān)有限數(shù)量的專家策略,并需要找到一種方法將采樣的任務(wù)分配給一個(gè)專家。我們認(rèn)為,相似的任務(wù)需要被分配給同一個(gè)專家,因?yàn)橹挥挟?dāng)其任務(wù)變化很小時(shí),一個(gè)專家策略通過強(qiáng)化學(xué)習(xí)才能有效地提高。為此,我們提出了基于幾何的聚類策略(GeoClustering),這是一種在任務(wù)空間中進(jìn)行幾何感知聚類的策略。
基于幾何的聚類策略(GeoClustering)
我們將任務(wù)空間T=O*SO(3)分割成個(gè)簇,每個(gè)簇
中的任務(wù)在專家策略學(xué)習(xí)期間由指定的專家策略
處理。我們首先從任務(wù)空間T中采樣大量的任務(wù)(在我們的實(shí)現(xiàn)中采樣數(shù)≈270,000)并使用 K-Means 對(duì)其視覺特征進(jìn)行聚類。大規(guī)模任務(wù)樣本的聚類為整個(gè)連續(xù)任務(wù)空間的聚類提供了一個(gè)近似。我們還訓(xùn)練了一個(gè) 3D 點(diǎn)云的自編碼器,以 Chamfer Distance 作為點(diǎn)云重建損失訓(xùn)練,以此得到點(diǎn)云的編碼特征,更多細(xì)節(jié)請(qǐng)參見論文和補(bǔ)充材料。在為基于狀態(tài)的專家進(jìn)行聚類時(shí),我們使用預(yù)訓(xùn)練的編碼器 E 對(duì)每個(gè)任務(wù)的點(diǎn)云
進(jìn)行編碼并獲得特征z(k)。然后我們使用 K-Means 對(duì)這些采樣任務(wù)的特征{z(k)}進(jìn)行聚類,并生成
個(gè)簇和相應(yīng)的簇中心。對(duì)于基于視覺的專家,我們直接使用策略的視覺主干網(wǎng)絡(luò)生成特征f(k)來替換基于狀態(tài)設(shè)置中的相應(yīng)編碼特征z(k)。最后,專家策略的聚類可以表示為:在專家微調(diào)期間,我們?cè)诰€為給定的任務(wù)
分配一個(gè)專家策略來處理無限的任務(wù)空間。在微調(diào)期間,如果專家有最近的中心
到特征
或
,我們將
分配給
或
。然后,每個(gè)專家只需要在分配的任務(wù)集上進(jìn)行訓(xùn)練,并將他們學(xué)到的特定知識(shí)蒸餾給通用策略,偽代碼請(qǐng)參考圖4。

基于幾何的課程學(xué)習(xí)(GeoCurriculum)
UniDexGrasp 中提出了物體課程學(xué)習(xí)。具體來說,物體課程學(xué)習(xí)首先使用 RL 訓(xùn)練一個(gè)策略來抓取一個(gè)對(duì)象實(shí)例(這個(gè)對(duì)象可能處于不同的初始姿態(tài));一旦這個(gè)策略訓(xùn)練得很好,通過整合同一類別的幾個(gè)相似對(duì)象來增加對(duì)象的數(shù)量,然后使用 RL 在新的對(duì)象集合上微調(diào)策略;接著,再次增加對(duì)象的數(shù)量,使用該類別的所有對(duì)象并微調(diào)策略;最后,將對(duì)象范圍擴(kuò)展到整個(gè)訓(xùn)練對(duì)象中的所有不同類別,并完成最終的微調(diào)。但是這種方法并沒有考慮到物體的幾何特征。利用幾何特征來衡量任務(wù)之間的相似性,而不是對(duì)象身份和類別標(biāo)簽。因此,我們引入了 GeoCurriculum,一個(gè)利用層次任務(wù)空間劃分的幾何感知任務(wù)課程。具體來說,我們?cè)O(shè)計(jì)了一個(gè)多層次任務(wù)的課程,該課程將任務(wù)按照逐漸增加的變化級(jí)別分配給策略學(xué)習(xí),并促進(jìn)逐步學(xué)習(xí)。偽代碼如圖5所示。在訓(xùn)練過程中,我們迭代地在每個(gè)分配的任務(wù)集下訓(xùn)練策略。從在中只處理一個(gè)任務(wù)到在
中的所有訓(xùn)練任務(wù),策略逐步成長,并且比直接在所有任務(wù)下訓(xùn)練它的性能更好。

03
實(shí)驗(yàn)結(jié)果
我們將我們的方法與其他基線方法的結(jié)果進(jìn)行了比較。具體來說,我們使用了 UniDexGrasp 的 non-goal conditional setting,包含有來自133個(gè)物體類別的3165個(gè)物體,每個(gè)物體都在桌面上隨機(jī)初始化位姿。詳細(xì)成功率結(jié)果見圖6。圖6中列出了這些方法在訓(xùn)練集和測(cè)試集上的平均成功率。結(jié)果顯示,UniDexGrasp++ 在訓(xùn)練集和測(cè)試集上分別達(dá)到85.4%和78.2%的平均成功率,顯著優(yōu)于其他方法。

我們?cè)趫D7中可視化了聚類策略的定性結(jié)果。第一行顯示了一種簡單的聚類方式,它基于對(duì)象類別,這種聚類方法沒有對(duì)象幾何信息,因此在抓取學(xué)習(xí)中幫助有限。第二行顯示了我們基于狀態(tài)的聚類策略,它基于點(diǎn)云編碼器的特征,可以聚類具有相似形狀的對(duì)象。在第三行,我們的使用的基于視覺的聚類策略利用了視覺骨干提取點(diǎn)云特征,它具有更多的任務(wù)相關(guān)信息,因此聚類的對(duì)象不僅形狀相似,而且抓取姿勢(shì)也相似, 更有利于每個(gè)專家策略的學(xué)習(xí)。

同時(shí),我們?cè)趫D8中可視化了每個(gè)學(xué)習(xí)或微調(diào)步驟的成功率。無論是對(duì)于基于狀態(tài)的策略還是基于視覺的策略,通用策略-專家策略微調(diào)和蒸餾的改進(jìn)都顯示了幾何感知迭代通用-專家學(xué)習(xí) GiGSL 策略設(shè)計(jì)的有效性,并提高了通用靈巧抓取的最終性能。

參考文獻(xiàn)
[1] ShadowRobot. https://www.shadowrobot.com/dexterous-hand-series/, 2005.
[2] Priyanka Mandikal and Kristen Grauman. Dexvip: Learning dexterous grasping with human hand pose priors from video. In CoRL 2021.
[3] Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, and Xiaolong Wang. Dexpoint: Generalizable point cloud reinforcement learning for sim-to-real dexterous manipulation. In CoRL 2022.
[4] Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, and He Wang. UniDexGrasp: Universal robotic dexterous grasping via learning diverse proposal generation and goal-conditioned policy, In CVPR 2023.
[5] Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu, and Hao Su. Improving policy optimization with generalistspecialist learning. In ICML 2022.
[6] Tongzhou Mu, Zhan Ling, Fanbo Xiang, Derek Yang, Xuanlin Li, Stone Tao, Zhiao Huang, Zhiwei Jia, and Hao Su. Maniskill: Generalizable manipulation skill benchmark with large-scale demonstrations. arXiv preprint arXiv:2107.14483, 2021.

Embodied Perception and InteraCtion (EPIC)