最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

重新排列視覺世界

2021-09-17 01:34 作者:雨夜的博客  | 我要投稿

重新排列物體(例如整理書架上的書籍、移動餐桌上的餐具或推動成堆的咖啡豆)是一項基本技能,可以使機器人與我們多樣化和非結(jié)構(gòu)化的世界進行物理交互。雖然對人們來說很容易,但完成這些任務(wù)對于具身機器學習 (ML) 系統(tǒng)來說仍然是一個開放的研究挑戰(zhàn),因為它需要高級和低級的感知推理。例如,在堆放一堆書時,可以考慮將書堆放在哪里,按什么順序堆放,同時確保書的邊緣對齊,形成整齊的堆放。

在 ML 的許多應(yīng)用領(lǐng)域,模型架構(gòu)的簡單差異可以表現(xiàn)出截然不同的泛化特性。因此,人們可能會問是否有某些深層網(wǎng)絡(luò)架構(gòu)支持重排問題的簡單底層元素。例如,卷積架構(gòu)在計算機視覺中很常見,因為它們編碼平移不變性,即使圖像移位也會產(chǎn)生相同的響應(yīng),而Transformer 架構(gòu)在語言處理中很常見,因為它們利用自注意力來捕獲遠程上下文依賴關(guān)系。在機器人應(yīng)用中,一種常見的架構(gòu)元素是使用以對象為中心的表示,例如姿勢、關(guān)鍵點,或?qū)W習模型中的對象描述符,但這些表示需要額外的訓練數(shù)據(jù)(通常手動注釋)并且難以描述諸如可變形物(例如橡皮泥)、流體(蜂蜜)或成堆的東西(切碎的洋蔥)之類的困難場景。

今天,我們展示了Transporter Network,這是一種用于學習基于視覺的重排任務(wù)的簡單模型架構(gòu),它在CoRL 2020期間作為出版物和全體會議發(fā)表。Transporter Nets 使用一種新穎的 3D 空間理解方法,避免了對以對象為中心的表示的依賴,使它們成為基于視覺的操作的通用方法,但比基準的端到端替代方案具有更高的樣本效率。因此,它們在真正的機器人上進行訓練既快速又實用。我們還與Ravens一起發(fā)布了一個隨附的 Transporter Nets 開源實現(xiàn),這是我們新的模擬基準套件,包含十個基于視覺的操作任務(wù)。

Transporter Networks:為機器人操作重新排列視覺世界

Transporter Network?架構(gòu)背后的關(guān)鍵思想是,人們可以將重新排列問題表述為學習如何移動一大塊 3D 空間。而不是依賴于對象的明確定義(這必然難以捕捉所有邊緣情況),3D 空間是一個更廣泛的定義,可以作為重新排列的原子單元,并且可以廣泛地包含一個對象、一個對象的一部分或多個對象等。網(wǎng)絡(luò)通過捕獲 3D 視覺世界的深層表示來利用這種結(jié)構(gòu),然后將其部分疊加在自身上以想象 3D 空間的各種可能的重新排列。然后它選擇最匹配它在訓練期間(例如,來自專家演示)看到的那些重排,并使用它們來參數(shù)化機器人動作。這種公式允許 Transporter Nets 泛化到看不見的對象,并使它們能夠更好地利用數(shù)據(jù)中的幾何對稱性,以便它們可以外推到新的場景配置?;诳晒┬缘牟僮骱蚑ossingBot,只關(guān)注抓握和拋擲。

Transporter Nets?捕獲視覺世界的深層表示,然后將其部分疊加到自身上,以想象 3D 空間的各種可能的重新排列,以找到最佳的一個并告知機器人動作。

Ravens 基準

為了在一致的環(huán)境中評估 Transporter Nets 的性能,以便與基線和消融進行公平比較,我們開發(fā)了Ravens,這是一個包含十個模擬視覺重排任務(wù)的基準套件。Ravens 的Gym API 具有內(nèi)置的隨機預言機,用于評估模仿學習方法的樣本效率。Ravens 避免了無法轉(zhuǎn)移到真實設(shè)置的假設(shè):觀察數(shù)據(jù)僅包含 RGB-D 圖像和相機參數(shù);動作是末端執(zhí)行器姿勢(轉(zhuǎn)換為具有反向運動學的關(guān)節(jié)位置)。

在這十項任務(wù)上的實驗表明,Transporter Nets 的樣本效率比其他端到端方法高出幾個數(shù)量級,并且僅用 100 次演示就能在許多任務(wù)上取得超過 90% 的成功,而基線很難用相同數(shù)量的數(shù)據(jù)。在實踐中,這使得收集足夠的演示成為在真實機器人上訓練這些模型的更可行的選擇(我們在下面展示了示例)。

我們新的 Ravens 基準測試包括十個基于視覺的模擬操作任務(wù),包括推和取放,實驗表明 Transporter Nets 的樣本效率比其他端到端方法高幾個數(shù)量級。Ravens 的 Gym API 具有內(nèi)置的隨機預言機,用于評估模仿學習方法的樣本效率。 我們新的Ravens基準測試包括十個基于視覺的模擬操作任務(wù),包括推和取放,實驗表明 Transporter Nets 的樣本效率比其他端到端方法高幾個數(shù)量級。Ravens 的Gym API 具有內(nèi)置的隨機預言機,用于評估模仿學習方法的樣本效率。

亮點 通過

10 個示例演示,Transporter Nets 可以學習拾取和放置任務(wù),例如堆疊盤子(令人驚訝的是容易錯位?。?,多模式任務(wù),例如將盒子的任何角與桌面上的標記對齊,或構(gòu)建金字塔金字塔。

通過利用閉環(huán)視覺反饋,Transporter Nets 能夠通過少量演示來學習各種多步驟順序任務(wù):例如移動河內(nèi)塔的磁盤、碼垛箱或組裝訓練期間未見過的新對象套件. 這些任務(wù)具有相當長的“視野”,這意味著要解決該任務(wù),模型必須正確排列許多單獨的選擇。政策也傾向于學習緊急恢復行為。

關(guān)于這些結(jié)果的一個令人驚訝的事情是,除了感知之外,這些模型還開始學習類似于高級規(guī)劃的行為。例如,要解決河內(nèi)塔,模型必須選擇下一個要移動的圓盤,這需要根據(jù)當前可見的圓盤及其位置識別棋盤的狀態(tài)。對于箱子碼垛任務(wù),模型必須找到托盤的空位,并確定新箱子如何裝入這些空位。這樣的行為令人興奮,因為它們表明,有了所有內(nèi)置的不變性,模型可以將其能力集中在學習更高級的操作模式上。

Transporter Nets?還可以學習使用由兩個末端執(zhí)行器姿勢定義的任何運動原語的任務(wù),例如將成堆的小物體推入目標集,或重新配置可變形繩以連接 3 邊正方形的兩個端點。這表明剛性空間位移可以作為非剛性空間位移的有用先驗。

結(jié)論

Transporter Nets?為學習基于視覺的操作提供了一種很有前途的方法,但也不是沒有限制。例如,它們可能容易受到嘈雜的 3D 數(shù)據(jù)的影響,我們只展示了它們用于使用運動基元的基于稀疏路點的控制,目前尚不清楚如何將它們擴展到空間動作空間之外,以實現(xiàn)基于力或扭矩的動作。


重新排列視覺世界的評論 (共 條)

分享到微博請遵守國家法律
清徐县| 杂多县| 林甸县| 蒙阴县| 洛宁县| 平罗县| 凉城县| 会昌县| 汕头市| 滨州市| 即墨市| 普宁市| 宜昌市| 建昌县| 恭城| 清原| 北流市| 弥勒县| 应城市| 久治县| 伊春市| 手机| 武清区| 周至县| 公安县| 扶风县| 榆中县| 铜陵市| 精河县| 德化县| 兴国县| 称多县| 福海县| 镇原县| 汶上县| 南溪县| 新宾| 巴楚县| 申扎县| 武山县| 内江市|