【RSS 2023】行為檢索:通過查詢未標記的數(shù)據(jù)集進行少樣本模仿學習

Chelsea Finn是機器人、強化學習、元學習領(lǐng)域的知名學者。
該文章提出了一種基于元學習的方法,用于實現(xiàn)機器人在現(xiàn)實世界中的多任務學習。
這種方法通過在多個任務之間共享知識,提高了機器人在不同任務之間的泛化能力。
這種方法采用從少量人類專家數(shù)據(jù)和大量未標記數(shù)據(jù)集中學習機器人技能,其主要思想是使用專家數(shù)據(jù)來查詢未標記的數(shù)據(jù)集中的相關(guān)行為,然后針對專家和查詢的數(shù)據(jù)訓練策略。
具體來說,文章提出了一種稱為“行為檢索”的技術(shù),用于從先前的經(jīng)驗中檢索與當前任務相關(guān)的行為。這種方法使用了一種稱為“GCBC”的元學習算法,該算法可以在多個任務之間共享知識,并使用一種稱為“FT”的技術(shù)來適應新的任務。該論文聲稱,該方法可以從未標記的數(shù)據(jù)集中過濾出不相關(guān)或次優(yōu)的數(shù)據(jù),并利用相關(guān)數(shù)據(jù)的多樣性和豐富性。這種方法在多個任務上取得了良好的性能,包括在現(xiàn)實世界中的機器人任務。
本文從圖像中評估了該方法在模擬和真實機器人操作任務上的性能,并表明它優(yōu)于僅使用專家數(shù)據(jù)或所有未標記數(shù)據(jù)的基線方法。文中還將該方法與目標條件方法進行了比較,結(jié)果表明該方法以較低的復雜度獲得了更好的性能。
標簽: