最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

2023-06-27 22:37 作者:中電新青年-探索號  | 我要投稿

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究?

摘要

當(dāng)控制系統(tǒng)是復(fù)雜非線性系統(tǒng)時(shí),設(shè)計(jì)一類優(yōu)化控制器是非常復(fù)雜的。強(qiáng)化學(xué)習(xí)是從與控制對象的交互中學(xué)習(xí)優(yōu)化策略。本文采取強(qiáng)化學(xué)習(xí)方法,在未知倒立擺數(shù)學(xué)模型情況下,通過輸入輸出數(shù)據(jù),實(shí)現(xiàn)對倒立擺的控制。

1. 引言

強(qiáng)化學(xué)習(xí)是一門決策學(xué)科,理解最佳的方式來制定決策。在工程控制當(dāng)中有一門課程叫最優(yōu)控制,與強(qiáng)化學(xué)習(xí)使用的方法有很大的類似之處,這種基于強(qiáng)化學(xué)習(xí)的方法不需要建模,也不需要設(shè)計(jì)控制器,只需要構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法。當(dāng)RL應(yīng)用于系統(tǒng)時(shí),智能體通過與系統(tǒng)交互學(xué)會采取行動,以便最大化一些累積獎(jiǎng)勵(lì)。學(xué)習(xí)可以基于不同形式的獎(jiǎng)勵(lì)反饋。與監(jiān)督學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)的期望輸出是不知道的。通過強(qiáng)化學(xué)習(xí)智能體與環(huán)境的交互得到一些列的輸出,這些輸出的好壞用來評判智能體學(xué)習(xí)的好壞。RL算法關(guān)注在線學(xué)習(xí)性能,涉及到在探索(未知領(lǐng)域)和開發(fā)(當(dāng)前知識)之間的平衡。為了獲得最大的獎(jiǎng)勵(lì),智能體必須利用它已經(jīng)知道的知識,但是它也必須探索,以便將來做出更好的行動選擇。

倒立擺問題是控制系統(tǒng)中一類經(jīng)典的問題。它是一個(gè)固有的不穩(wěn)定和欠驅(qū)動的機(jī)械系統(tǒng)。這個(gè)系統(tǒng)的動力學(xué)是用來更好理解平衡維護(hù)的任務(wù),如火箭推進(jìn)器的控制和自平衡的機(jī)械系統(tǒng)。 已有大量的文章研究了倒立擺的擺起與穩(wěn)定控制的若干設(shè)計(jì)技術(shù)。像PID控制、線性二次型調(diào)節(jié)器(LQR)和模糊邏輯控制器。

系統(tǒng)復(fù)雜性的增加需要復(fù)雜的控制器,特別是在系統(tǒng)存在非線性、不確定性和時(shí)變時(shí)。由于其固有的本質(zhì),RL使用來自環(huán)境的交互數(shù)據(jù),生成一個(gè)最優(yōu)控制器,而不需要環(huán)境本身的數(shù)學(xué)模型知識。此外,這種控制器具有適應(yīng)環(huán)境發(fā)生擾動的能力。

2. 倒立擺問題

倒立擺控制系統(tǒng)是一個(gè)復(fù)雜的、不穩(wěn)定的、非線性系統(tǒng)。是進(jìn)行控制算法驗(yàn)證的理想實(shí)驗(yàn)平臺。能有效的反映控制中的許多典型問題:如非線性問題、魯棒性問題、鎮(zhèn)定問題、隨動問題以及跟蹤問題等。通過對倒立擺的控制,可以較好檢驗(yàn)新的控制方法是否有較強(qiáng)的處理非線性和不穩(wěn)定性問題的能力。

圖一 ?倒立擺示意圖

????????本文所采用的模擬倒立擺如圖一所示,擺桿被鉸鏈固定在車體的正中心,可左右靈活擺動,輸入控制小車的力,根據(jù)其動力學(xué)方程可得到小車的位置,速度,角度,角加速度。

????????倒立擺的動力學(xué)方程。

倒立擺的動力學(xué)方程

3.強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)

強(qiáng)化學(xué)習(xí)是智能體在環(huán)境給予的獎(jiǎng)勵(lì)的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。以控制對象的動力學(xué)方程建立物理引擎,作為其環(huán)境交互對象,并定義其獎(jiǎng)勵(lì),使智能體獲取的獎(jiǎng)勵(lì)最大化,達(dá)到控制目的。

馬爾科夫決策過程
強(qiáng)化學(xué)習(xí)理論

4.實(shí)驗(yàn)

實(shí)驗(yàn)初始環(huán)境設(shè)置
圖二 倒立擺角度控制結(jié)果圖
圖三 倒立擺位置控制結(jié)果圖

參考文獻(xiàn):

[1] Zadeh L A. Outline of a new approach to the analysis of complex systems and decision processes[J]. IEEE Transactions on systems, Man, and Cybernetics, 1973 (1): 28-44.

[2] Lin W S. Optimality and convergence of adaptive optimal control by reinforcement synthesis[J]. Automatica, 2011, 47(5): 1047-1052.

[3] Lin W S, Sheu J W. Optimization of train regulation and energy usage of metro lines using an adaptive-optimal-control algorithm[J]. IEEE Transactions on Automation Science and Engineering, 2011, 8(4): 855-864.

[4] Modares H, Lewis F L, Naghibi-Sistani M B. Integral reinforcement learning and experience replay for adaptive optimal control of partially-unknown constrained-input continuous-time systems[J]. Automatica, 2014, 50(1): 193-202.

[5] Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.

[6] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.

[7] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[8] dos Santos Mignon A, da Rocha R L A. An Adaptive Implementation of ε-Greedy in Reinforcement Learning[J]. Procedia Computer Science, 2017, 109: 1146-1151.

[9] Lin L J. Reinforcement learning for robots using neural networks[R]. Carnegie-Mellon Univ Pittsburgh PA School of Computer Science, 1993.

[10] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//AAAI. 2016: 2094-2100.

[11] Riedmiller M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method[C]//ECML. 2005, 3720: 317-328.

[12] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. Cambridge: MIT press, 1998.

[13] Kharola A, Patil P, Raiwani S, et al. A comparison study for control and stabilisation of inverted pendulum on inclined surface (IPIS) using PID and fuzzy controllers[J]. Perspectives in Science, 2016, 8: 187-190.

[14] Dong Z, Song L, Chen H. The modeling and simulation of first-order Inverted pendulum control system[J]. Advances in Electronic Commerce, Web Application and Communication, 2012: 221-225.



基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究的評論 (共 條)

分享到微博請遵守國家法律
阜平县| 芦溪县| 敖汉旗| 长兴县| 杭锦旗| 兰西县| 上林县| 丹江口市| 桑日县| 石泉县| 彭山县| 平湖市| 赣州市| 吉首市| 台安县| 南岸区| 乌拉特前旗| 兖州市| 安徽省| 瓦房店市| 海安县| 合阳县| 乐都县| 都江堰市| 隆昌县| 岗巴县| 平顶山市| 浦城县| 五常市| 桐庐县| 曲周县| 县级市| 阜康市| 澳门| 延吉市| 隆化县| 黎城县| 九龙城区| 阜新市| 兰西县| 玉田县|