最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICCV 2023 | UniDexGrasp++:基于幾何感知課程和迭代通用-專家策略學(xué)習(xí)的靈巧手抓取算

2023-08-31 11:05 作者:北大前沿計(jì)算研究中心  | 我要投稿


關(guān)鍵詞:靈巧手抓取, 機(jī)器人操控, 策略學(xué)習(xí)

導(dǎo) 讀

本文是 ICCV 2023 入選 Oral 論文 UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning 的解讀。本論文由北京大學(xué)王鶴研究團(tuán)隊(duì)與清華大學(xué)、北京通用人工智能研究院合作,是研究團(tuán)隊(duì) CVPR 2023 工作 UniDexGrasp 的后續(xù)工作。

面對(duì)三千多種物體在任意位姿下的泛化視覺強(qiáng)化學(xué)習(xí)困難,我們提出了基于幾何的課程學(xué)習(xí),對(duì)視覺空間進(jìn)行劃分,并進(jìn)行多輪交替的專家策略學(xué)習(xí)和向通用策略的蒸餾,第一次達(dá)成了成功率超過80%的、點(diǎn)云輸入的通用靈巧手抓取策略。

文章在 ICCV 2023 中獲得全滿分的評(píng)審成績并被評(píng)為口頭報(bào)告展示(Oral Presentation)。

論文鏈接:https://arxiv.org/abs/2304.00464

項(xiàng)目主頁:https://pku-epic.github.io/UniDexGrasp++/

代碼地址:https://github.com/PKU-EPIC/UniDexGrasp2

圖1. 通用的靈巧手抓取

01

引 言

機(jī)器人抓取是機(jī)器人與環(huán)境交互的重要組成,也是機(jī)器人實(shí)現(xiàn)復(fù)雜操作的關(guān)鍵。盡管傳統(tǒng)的二指抓取方法已經(jīng)取得了很大的進(jìn)展,但其在處理復(fù)雜物體也具有一定的局限性。相比之下,靈巧手抓取,特別是五指抓取,提供了更為豐富和多樣的抓取方式。然而,靈巧手驅(qū)動(dòng)空間的高維度既是賦予靈巧手這種多功能性的優(yōu)勢(shì),也是難以執(zhí)行成功抓取的主要原因。作為一種廣泛使用的五指機(jī)器人靈巧手,ShadowHand[1]擁有26個(gè)自由度(DoF)。這種高維度加大了生成有效抓取姿勢(shì)和規(guī)劃執(zhí)行軌跡的難度,從而迫使靈巧抓取任務(wù)的研究采取與平行抓取任務(wù)不同的方法。一些工作使用基于視覺輸入的強(qiáng)化學(xué)習(xí)解決這個(gè)問題[2,3],但由于目前強(qiáng)化學(xué)習(xí)算法的局限性,通常這些方法很難學(xué)習(xí)不同物體不同姿態(tài)的通用抓取策略。

UniDexGrasp[4]使用物體課程學(xué)習(xí)(Object Curriculum Learning)以及知識(shí)蒸餾的方法學(xué)習(xí)了一個(gè)通用的視覺抓取策略。在 UniDexGrasp 中,一個(gè)局限性是基于狀態(tài)(State-based)的教師策略只能達(dá)到79.4%的成功率,由此當(dāng)使用知識(shí)蒸餾學(xué)習(xí)基于視覺(Vision-based)的學(xué)生策略時(shí),學(xué)生策略的表現(xiàn)受到了很大的限制。另一方面,即使同一個(gè)物體,在不同位姿的下的幾何信息也差異很大,而 UniDexGrasp 的物體課程學(xué)習(xí)只關(guān)注了物體類別卻忽視了物體的位姿。我們提出了一種新的方法,UniDexGrasp++,關(guān)注不同物體不同位姿的幾何差異,并利用通用策略-專家策略學(xué)習(xí)[5]方法,極大地提升了 UniDexGrasp 的泛化能力

首先,為了提升基于狀態(tài)的教師策略的表現(xiàn),我們提出了使用場(chǎng)景點(diǎn)云的的幾何特征來計(jì)算任務(wù)相似性的幾何感知任務(wù)課程學(xué)習(xí)(GeoCurriculum)。為了進(jìn)一步提高策略的泛化能力,我們采納了通用策略-專家策略學(xué)習(xí)(Generalist-Specialist Learning, GSL)的理念,其中一組專家策略在任務(wù)空間的子集上訓(xùn)練,然后將其知識(shí)蒸餾給一個(gè)通用策略。我們進(jìn)一步提出了幾何感知的迭代通用策略-專家策略學(xué)習(xí)(Geometry-aware iterative Generalist-Specialist Learning, GiGSL),在這里我們使用幾何特征來決定哪個(gè)專家處理哪個(gè)任務(wù),并迭代地進(jìn)行蒸餾和微調(diào)。我們的方法得到的基于狀態(tài)的策略,在訓(xùn)練集和測(cè)試集上分別達(dá)到了87.9%和83.7%的成功率。

接下來,我們將表現(xiàn)最佳的專家策略蒸餾給一個(gè)基于視覺的通用策略,并在基于視覺的策略上再次進(jìn)行 GiGSL,直至其性能飽和。通過我們完整的流程,我們最終的基于視覺的策略在3000+的物體實(shí)例上展現(xiàn)了普遍的靈巧抓取能力,其在訓(xùn)練集和測(cè)試集上的成功率分別為85.4%和78.2%,這顯著地超越了最先進(jìn)的基準(zhǔn)。同時(shí),完整的消融實(shí)驗(yàn)展現(xiàn)了我們提出的各個(gè)改進(jìn)策略的優(yōu)越性。

02

方法簡介

圖2. 方法概覽。左側(cè)為基于狀態(tài)的策略學(xué)習(xí)階段,右側(cè)為基于視覺的策略學(xué)習(xí)階段。

方法概覽

如圖2所示,方法的流程分為左右兩個(gè)階段:第一階段為基于狀態(tài)的策略學(xué)習(xí),第二階段為基于視覺的策略學(xué)習(xí)。

在第一階段中,我們的目標(biāo)是得到一個(gè)基于狀態(tài)的通用策略,該策略以機(jī)器人狀態(tài)R_%7Bt%7D、物體狀態(tài)O_%7Bt%7D 以及第一幀的場(chǎng)景點(diǎn)云P_%7Bt%3D0%7D中獲取輸入。這里的物體點(diǎn)云是由多視角深度攝像機(jī)捕獲的多個(gè)深度點(diǎn)云融合而成的。我們?cè)谳斎胫邪▓?chǎng)景點(diǎn)云P_%7Bt%3D0%7D以保留場(chǎng)景的幾何信息,并使用預(yù)訓(xùn)練的點(diǎn)云自動(dòng)編碼器的編碼器來提取其幾何特征。這里使用的點(diǎn)云編碼器是凍結(jié)的,以使其盡可能簡單,因此它不會(huì)干擾策略學(xué)習(xí)。我們將P_%7Bt%7D的視覺處理留給基于視覺的策略。盡管通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)基于狀態(tài)的策略比學(xué)習(xí)基于視覺的策略更容易,但在如此多樣化的多任務(wù)設(shè)置下實(shí)現(xiàn)高成功率仍然非常具有挑戰(zhàn)性。因此,我們提出了一個(gè)幾何感知的課程學(xué)習(xí)(GeoCurriculum)來簡化多任務(wù) RL 并提高成功率。經(jīng)過這個(gè) GeoCurriculum,我們獲得了第一個(gè)可以處理所有任務(wù)的基于狀態(tài)的通用策略SG_%7B1%7D。然后,我們提出了一個(gè)幾何感知的迭代通用策略-專家策略學(xué)習(xí)方法,稱為 GiGSL,以進(jìn)一步提高通用策略的性能。這個(gè)過程包括學(xué)習(xí)數(shù)個(gè)專門針對(duì)特定任務(wù)范圍的基于狀態(tài)的專家策略%7BSS_%7Bi%7D%7D和將專家策略蒸餾為通用策略SG_%7Bi%2B1%7D之間的迭代,其中i表示迭代索引。通過這種迭代學(xué)習(xí),整體性能持續(xù)提高,直到飽和。

在第二階段中,我們的目標(biāo)是學(xué)習(xí)一個(gè)基于視覺的通用策略。對(duì)于基于視覺的策略,我們只允許它訪問現(xiàn)實(shí)世界中可用的信息,包括機(jī)器人狀態(tài)R_%7Bt%7D和場(chǎng)景點(diǎn)云VG_%7B1%7D。在這個(gè)階段,我們需要聯(lián)合學(xué)習(xí)一個(gè)從P_%7Bt%7D中提取特征的視覺主干網(wǎng)絡(luò)以及我們的策略(參見圖2的藍(lán)色部分)。在這里,我們采用 PointNet+Transformer[6]。我們隨機(jī)初始化我們第一個(gè)視覺通用策略VG_%7B1%7D的網(wǎng)絡(luò)權(quán)重。我們首先進(jìn)行跨模態(tài)蒸餾,將最新的基于狀態(tài)的專家%7BSS_%7Bn%7D%7D蒸餾給VG_%7B1%7D。然后,我們開始對(duì)基于視覺的策略進(jìn)行 GiGSL 迭代,這個(gè)過程在微調(diào)%7BVS_%7Bi%7D%7D和蒸餾給VG_%7Bi%2B1%7D之間迭代,直到基于視覺的通用策略的性能飽和。最終的基于視覺的通才VG_%7Bfinal%7D%20是我們學(xué)到的性能最高的通用抓取策略。整個(gè)流程的偽代碼請(qǐng)參考圖3。

圖3. 算法偽代碼

下面,我們分別詳細(xì)介紹上述概覽中提出的方法模塊。

迭代通用策略-專家策略學(xué)習(xí)(iGSL)

我們?cè)谕ㄓ貌呗?專家策略學(xué)習(xí)[5]的基礎(chǔ)上提出了迭代通用策略-專家策略學(xué)習(xí)。具體來說,我們將整個(gè)任務(wù)空間分割成多個(gè)子空間,并讓一個(gè)專家策略負(fù)責(zé)一個(gè)子空間。由于每個(gè)子空間的任務(wù)變化較少,因此更容易學(xué)習(xí),每個(gè)專家策略都可以受到良好的訓(xùn)練,并在其任務(wù)分布上表現(xiàn)出色。最后,我們使用 DAgger-based policy distillation 的方法將所有的專家策略蒸餾成一個(gè)通用的 A 策略,并重復(fù)迭代執(zhí)行這個(gè)過程。

幾何感知的迭代通用策略-專家策略學(xué)習(xí)(GiGSL)

對(duì)于 iGSL,一個(gè)重要難題是如何劃分任務(wù)空間。之前的工作通常處理的是數(shù)量有限的任務(wù),因此可以為每個(gè)任務(wù)指定一個(gè)專家,或者隨機(jī)指定。然而,在我們的工作中,考慮到初始物體姿態(tài)可以連續(xù)變化,我們面臨的是無數(shù)的任務(wù)。我們只能負(fù)擔(dān)有限數(shù)量的專家策略,并需要找到一種方法將采樣的任務(wù)分配給一個(gè)專家。我們認(rèn)為,相似的任務(wù)需要被分配給同一個(gè)專家,因?yàn)橹挥挟?dāng)其任務(wù)變化很小時(shí),一個(gè)專家策略通過強(qiáng)化學(xué)習(xí)才能有效地提高。為此,我們提出了基于幾何的聚類策略(GeoClustering),這是一種在任務(wù)空間中進(jìn)行幾何感知聚類的策略。

基于幾何的聚類策略(GeoClustering)

我們將任務(wù)空間T=O*SO(3)分割成N_%7Bclu%7D個(gè)簇,每個(gè)簇C_%7Bj%7D中的任務(wù)在專家策略學(xué)習(xí)期間由指定的專家策略S_%7Bj%7D處理。我們首先從任務(wù)空間T中采樣大量的任務(wù)(在我們的實(shí)現(xiàn)中采樣數(shù)≈270,000)并使用 K-Means 對(duì)其視覺特征進(jìn)行聚類。大規(guī)模任務(wù)樣本的聚類為整個(gè)連續(xù)任務(wù)空間的聚類提供了一個(gè)近似。我們還訓(xùn)練了一個(gè) 3D 點(diǎn)云的自編碼器,以 Chamfer Distance 作為點(diǎn)云重建損失訓(xùn)練,以此得到點(diǎn)云的編碼特征,更多細(xì)節(jié)請(qǐng)參見論文和補(bǔ)充材料。在為基于狀態(tài)的專家進(jìn)行聚類時(shí),我們使用預(yù)訓(xùn)練的編碼器 E 對(duì)每個(gè)任務(wù)的點(diǎn)云P(k)_%7Bt%3D0%7D進(jìn)行編碼并獲得特征z(k)。然后我們使用 K-Means 對(duì)這些采樣任務(wù)的特征{z(k)}進(jìn)行聚類,并生成N_%7Bclu%7D個(gè)簇和相應(yīng)的簇中心。對(duì)于基于視覺的專家,我們直接使用策略的視覺主干網(wǎng)絡(luò)生成特征f(k)來替換基于狀態(tài)設(shè)置中的相應(yīng)編碼特征z(k)。最后,專家策略的聚類可以表示為:在專家微調(diào)期間,我們?cè)诰€為給定的任務(wù)%5Ctau(k)分配一個(gè)專家策略來處理無限的任務(wù)空間。在微調(diào)期間,如果專家有最近的中心C_%7Bj%7D到特征z_%7Bk%7Df_%7Bk%7D,我們將%5Ctau(k)分配給SS_%7Bj%7DVS_%7Bj%7D。然后,每個(gè)專家只需要在分配的任務(wù)集上進(jìn)行訓(xùn)練,并將他們學(xué)到的特定知識(shí)蒸餾給通用策略,偽代碼請(qǐng)參考圖4。

圖4. 基于幾何的聚類(GeoCurriculum)偽代碼

基于幾何的課程學(xué)習(xí)(GeoCurriculum)

UniDexGrasp 中提出了物體課程學(xué)習(xí)。具體來說,物體課程學(xué)習(xí)首先使用 RL 訓(xùn)練一個(gè)策略來抓取一個(gè)對(duì)象實(shí)例(這個(gè)對(duì)象可能處于不同的初始姿態(tài));一旦這個(gè)策略訓(xùn)練得很好,通過整合同一類別的幾個(gè)相似對(duì)象來增加對(duì)象的數(shù)量,然后使用 RL 在新的對(duì)象集合上微調(diào)策略;接著,再次增加對(duì)象的數(shù)量,使用該類別的所有對(duì)象并微調(diào)策略;最后,將對(duì)象范圍擴(kuò)展到整個(gè)訓(xùn)練對(duì)象中的所有不同類別,并完成最終的微調(diào)。但是這種方法并沒有考慮到物體的幾何特征。利用幾何特征來衡量任務(wù)之間的相似性,而不是對(duì)象身份和類別標(biāo)簽。因此,我們引入了 GeoCurriculum,一個(gè)利用層次任務(wù)空間劃分的幾何感知任務(wù)課程。具體來說,我們?cè)O(shè)計(jì)了一個(gè)多層次任務(wù)的課程,該課程將任務(wù)按照逐漸增加的變化級(jí)別分配給策略學(xué)習(xí),并促進(jìn)逐步學(xué)習(xí)。偽代碼如圖5所示。在訓(xùn)練過程中,我們迭代地在每個(gè)分配的任務(wù)集下訓(xùn)練策略。從在C_%7B0%7D中只處理一個(gè)任務(wù)到在C_%7BN_%7Blevel%7D%7D%20中的所有訓(xùn)練任務(wù),策略逐步成長,并且比直接在所有任務(wù)下訓(xùn)練它的性能更好。

圖5. 基于幾何的課程學(xué)習(xí)(GeoCurriculum)偽代碼

03

實(shí)驗(yàn)結(jié)果

我們將我們的方法與其他基線方法的結(jié)果進(jìn)行了比較。具體來說,我們使用了 UniDexGrasp 的 non-goal conditional setting,包含有來自133個(gè)物體類別的3165個(gè)物體,每個(gè)物體都在桌面上隨機(jī)初始化位姿。詳細(xì)成功率結(jié)果見圖6。圖6中列出了這些方法在訓(xùn)練集和測(cè)試集上的平均成功率。結(jié)果顯示,UniDexGrasp++ 在訓(xùn)練集和測(cè)試集上分別達(dá)到85.4%和78.2%的平均成功率,顯著優(yōu)于其他方法。

圖6. 抓取成功率結(jié)果比較

我們?cè)趫D7中可視化了聚類策略的定性結(jié)果。第一行顯示了一種簡單的聚類方式,它基于對(duì)象類別,這種聚類方法沒有對(duì)象幾何信息,因此在抓取學(xué)習(xí)中幫助有限。第二行顯示了我們基于狀態(tài)的聚類策略,它基于點(diǎn)云編碼器的特征,可以聚類具有相似形狀的對(duì)象。在第三行,我們的使用的基于視覺的聚類策略利用了視覺骨干提取點(diǎn)云特征,它具有更多的任務(wù)相關(guān)信息,因此聚類的對(duì)象不僅形狀相似,而且抓取姿勢(shì)也相似, 更有利于每個(gè)專家策略的學(xué)習(xí)。

圖7. 不同聚類策略的定性可視化結(jié)果

同時(shí),我們?cè)趫D8中可視化了每個(gè)學(xué)習(xí)或微調(diào)步驟的成功率。無論是對(duì)于基于狀態(tài)的策略還是基于視覺的策略,通用策略-專家策略微調(diào)和蒸餾的改進(jìn)都顯示了幾何感知迭代通用-專家學(xué)習(xí) GiGSL 策略設(shè)計(jì)的有效性,并提高了通用靈巧抓取的最終性能。

圖8. GiGSL 算法過程中的成功率變化


參考文獻(xiàn)

[1] ShadowRobot. https://www.shadowrobot.com/dexterous-hand-series/, 2005.

[2] Priyanka Mandikal and Kristen Grauman. Dexvip: Learning dexterous grasping with human hand pose priors from video. In CoRL 2021.

[3] Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, and Xiaolong Wang. Dexpoint: Generalizable point cloud reinforcement learning for sim-to-real dexterous manipulation. In CoRL 2022.

[4] Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, and He Wang. UniDexGrasp: Universal robotic dexterous grasping via learning diverse proposal generation and goal-conditioned policy, In CVPR 2023.

[5] Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu, and Hao Su. Improving policy optimization with generalistspecialist learning. In ICML 2022.

[6] Tongzhou Mu, Zhan Ling, Fanbo Xiang, Derek Yang, Xuanlin Li, Stone Tao, Zhiao Huang, Zhiwei Jia, and Hao Su. Maniskill: Generalizable manipulation skill benchmark with large-scale demonstrations. arXiv preprint arXiv:2107.14483, 2021.


圖文 | 萬維康、耿浩然
Embodied Perception and InteraCtion (EPIC)




ICCV 2023 | UniDexGrasp++:基于幾何感知課程和迭代通用-專家策略學(xué)習(xí)的靈巧手抓取算的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
晋江市| 达孜县| 石嘴山市| 湘潭市| 崇义县| 鹤壁市| 武冈市| 嘉禾县| 分宜县| 巴林左旗| 宁津县| 通州市| 古交市| 延安市| 昭平县| 海盐县| 延边| 廉江市| 云和县| 万全县| 息烽县| 常熟市| 旬阳县| 定远县| 石泉县| 托克逊县| 石首市| 河津市| 淳安县| 正宁县| 淮北市| 马尔康县| 无锡市| 铜梁县| 木里| 德兴市| 睢宁县| 大宁县| 阿克苏市| 咸阳市| 元江|