最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

論文解讀 | 基于圖的強(qiáng)化學(xué)習(xí)與混合整數(shù)規(guī)劃

2023-07-05 14:57 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

圖片



01


背景


本文探討了自主機(jī)器人裝配發(fā)現(xiàn)(RAD)問題,這個(gè)問題在建筑行業(yè)中具有重要意義。


建筑行業(yè)普遍希望提高資源利用效率,通過更有效地重復(fù)使用現(xiàn)有材料,實(shí)現(xiàn)減少環(huán)境影響并朝著循環(huán)經(jīng)濟(jì)的發(fā)展目標(biāo)邁進(jìn)。為了達(dá)到資源的有效再利用,需要將智能算法與自主執(zhí)行相結(jié)合。


研究的焦點(diǎn)是RAD問題,即機(jī)器人代理如何根據(jù)一組可用的建筑模塊來推斷出需要滿足的抽象3D目標(biāo)形狀。與其他已知指令的裝配問題不同,RAD代理既沒有關(guān)于使用哪些模塊以及它們最終位置的先驗(yàn)信息,也沒有關(guān)于執(zhí)行順序的先驗(yàn)信息。相反,RAD代理需要通過發(fā)現(xiàn)建筑模塊的不同組合方式,找到適當(dāng)?shù)膭?dòng)作序列,并將其實(shí)施到實(shí)際裝配中。


通過本文的研究,提出了一種基于全局優(yōu)化、強(qiáng)化學(xué)習(xí)和運(yùn)動(dòng)規(guī)劃的方法,以實(shí)現(xiàn)高效穩(wěn)定的裝配過程。這種方法利用全局優(yōu)化技術(shù)來搜索可能的組合和動(dòng)作序列,強(qiáng)化學(xué)習(xí)用于指導(dǎo)代理在不確定環(huán)境中做出決策,而運(yùn)動(dòng)規(guī)劃則用于生成機(jī)器人執(zhí)行動(dòng)作的路徑。


通過將這些技術(shù)結(jié)合起來,本文的方法能夠有效地解決RAD問題,并實(shí)現(xiàn)高效穩(wěn)定的裝配過程。這將對(duì)建筑行業(yè)的資源利用效率產(chǎn)生積極影響,推動(dòng)行業(yè)朝著更可持續(xù)的方向發(fā)展。


圖片
圖1模擬的RAD環(huán)境(左)和本文提出的分層方法的所有三個(gè)組件(右)。


02


創(chuàng)新點(diǎn)


1. 本篇論文的創(chuàng)新點(diǎn)在于提出了一種基于全局MILP優(yōu)化和學(xué)習(xí)局部基于圖的RL裝配策略的結(jié)構(gòu)化、層次化方法,以實(shí)現(xiàn)高效穩(wěn)定的自主機(jī)器人裝配發(fā)現(xiàn)。這種方法通過將全局優(yōu)化與局部RL策略相結(jié)合,可以可靠地處理復(fù)雜的RAD實(shí)例。此外,該方法還利用了低級(jí)別的GAMP來處理大規(guī)模的動(dòng)作空間,從而提高了效率。


2. 本篇論文的另一個(gè)創(chuàng)新點(diǎn)在于,該方法跳過了確定高層次裝配順序的復(fù)雜性,而是將全局結(jié)構(gòu)推理與局部順序決策相結(jié)合。這種方法可以有效地處理巨大的動(dòng)作空間,并且具有可轉(zhuǎn)移性和泛化性,可以適用于不同目標(biāo)形狀和不同類型/數(shù)量的模塊實(shí)例。此外,該方法還提供了添加搜索以進(jìn)一步提高可靠性和魯棒性的靈活性。


03


算法具體介紹


本文介紹了一種用于自主機(jī)器人裝配發(fā)現(xiàn)(RAD)問題的三層混合方法。


RAD問題是指在沒有任何先驗(yàn)信息的情況下,機(jī)器人需要推理出如何組合建筑模塊以實(shí)現(xiàn)給定的抽象三維目標(biāo)形狀。為了解決RAD問題中的挑戰(zhàn),本文提出了一種結(jié)構(gòu)化的分層方法。


該方法的三個(gè)層次分別是全局資源分配、任務(wù)排序和動(dòng)作執(zhí)行。在全局資源分配層面,采用了混合整數(shù)線性規(guī)劃(MILP)的方法來解決全局資源分配問題。在任務(wù)排序?qū)用妫捎昧遂`活的、可學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)(GNN)來確定任務(wù)的順序。在動(dòng)作執(zhí)行層面,通過強(qiáng)化學(xué)習(xí)方法來執(zhí)行具體的動(dòng)作序列。


該方法的優(yōu)勢(shì)包括:


1. 結(jié)合了全局結(jié)構(gòu)推理和局部順序決策,以提高效率和準(zhǔn)確性。


2. 通過跳過高層次的裝配順序確定復(fù)雜度,同時(shí)在最低層次利用GAMP(Generalized Assignment and Matching Problem)引入強(qiáng)歸納偏差,有效處理了龐大的動(dòng)作空間。


3. 具有遷移和泛化能力,可以適應(yīng)不同目標(biāo)形狀和不同數(shù)量/類型的模塊。


4. 提供了添加搜索以增加可靠性和魯棒性的靈活性。該方法在一系列競(jìng)爭(zhēng)性的模擬RAD任務(wù)中進(jìn)行了實(shí)證評(píng)估,并展示了在真實(shí)環(huán)境中的遷移能力。實(shí)驗(yàn)結(jié)果表明,該方法在性能和魯棒性方面優(yōu)于經(jīng)驗(yàn)和學(xué)習(xí)基線方法,從而驗(yàn)證了其有效性。


圖片
圖2說明了使用GNN進(jìn)行動(dòng)作選擇的過程


04


總結(jié)


本篇論文提出了一種全新的機(jī)器人裝配發(fā)現(xiàn)(RAD)的分層方法。


該方法結(jié)合了混合整數(shù)規(guī)劃的全局推理、圖強(qiáng)化學(xué)習(xí)以及基于模型的局部決策搜索,并利用機(jī)械手關(guān)節(jié)層面上的抓取和運(yùn)動(dòng)規(guī)劃來實(shí)現(xiàn)裝配動(dòng)作。這種組合的方式使得原始問題的龐大組合操作空間能夠有效分解,從而產(chǎn)生了強(qiáng)大而可靠的RAD策略。


通過層次結(jié)構(gòu),該方法能夠高效地處理原始問題的巨大組合操作空間,從而實(shí)現(xiàn)了穩(wěn)健、可靠和高效的RAD策略。在一組模擬RAD實(shí)驗(yàn)中,該方法得到了驗(yàn)證,并在僅有5%的失敗率的同時(shí),實(shí)現(xiàn)了對(duì)75%的目標(biāo)形狀的平均覆蓋率。此外,該論文還展示了如何將這種方法應(yīng)用于真實(shí)世界的RAD場(chǎng)景。


未來的研究方向是如何將這種方法擴(kuò)展到處理更大范圍的對(duì)象。這表明該方法具有潛力在更復(fù)雜和廣泛的裝配任務(wù)中發(fā)揮作用,并為機(jī)器人裝配發(fā)現(xiàn)領(lǐng)域的進(jìn)一步研究提供了有價(jià)值的方向。


論文標(biāo)題:

Graph-based Reinforcement Learning meets Mixed Integer Programs


更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。

論文解讀 | 基于圖的強(qiáng)化學(xué)習(xí)與混合整數(shù)規(guī)劃的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
西昌市| 顺昌县| 云南省| 平度市| 孟村| 新丰县| 五寨县| 承德县| 大化| 新乡县| 嘉荫县| 刚察县| 广水市| 嘉荫县| 赣州市| 民和| 夹江县| 灵寿县| 简阳市| 化隆| 呼图壁县| 富宁县| 会宁县| 商南县| 牡丹江市| 乐都县| 河池市| 馆陶县| 加查县| 股票| 娱乐| 阿巴嘎旗| 涟水县| 商都县| 南安市| 呼伦贝尔市| 大同市| 汤阴县| 浦县| 东山县| 卓资县|