基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究?
摘要
當(dāng)控制系統(tǒng)是復(fù)雜非線性系統(tǒng)時(shí),設(shè)計(jì)一類優(yōu)化控制器是非常復(fù)雜的。強(qiáng)化學(xué)習(xí)是從與控制對象的交互中學(xué)習(xí)優(yōu)化策略。本文采取強(qiáng)化學(xué)習(xí)方法,在未知倒立擺數(shù)學(xué)模型情況下,通過輸入輸出數(shù)據(jù),實(shí)現(xiàn)對倒立擺的控制。
1. 引言
強(qiáng)化學(xué)習(xí)是一門決策學(xué)科,理解最佳的方式來制定決策。在工程控制當(dāng)中有一門課程叫最優(yōu)控制,與強(qiáng)化學(xué)習(xí)使用的方法有很大的類似之處,這種基于強(qiáng)化學(xué)習(xí)的方法不需要建模,也不需要設(shè)計(jì)控制器,只需要構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法。當(dāng)RL應(yīng)用于系統(tǒng)時(shí),智能體通過與系統(tǒng)交互學(xué)會采取行動,以便最大化一些累積獎(jiǎng)勵(lì)。學(xué)習(xí)可以基于不同形式的獎(jiǎng)勵(lì)反饋。與監(jiān)督學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)的期望輸出是不知道的。通過強(qiáng)化學(xué)習(xí)智能體與環(huán)境的交互得到一些列的輸出,這些輸出的好壞用來評判智能體學(xué)習(xí)的好壞。RL算法關(guān)注在線學(xué)習(xí)性能,涉及到在探索(未知領(lǐng)域)和開發(fā)(當(dāng)前知識)之間的平衡。為了獲得最大的獎(jiǎng)勵(lì),智能體必須利用它已經(jīng)知道的知識,但是它也必須探索,以便將來做出更好的行動選擇。
倒立擺問題是控制系統(tǒng)中一類經(jīng)典的問題。它是一個(gè)固有的不穩(wěn)定和欠驅(qū)動的機(jī)械系統(tǒng)。這個(gè)系統(tǒng)的動力學(xué)是用來更好理解平衡維護(hù)的任務(wù),如火箭推進(jìn)器的控制和自平衡的機(jī)械系統(tǒng)。 已有大量的文章研究了倒立擺的擺起與穩(wěn)定控制的若干設(shè)計(jì)技術(shù)。像PID控制、線性二次型調(diào)節(jié)器(LQR)和模糊邏輯控制器。
系統(tǒng)復(fù)雜性的增加需要復(fù)雜的控制器,特別是在系統(tǒng)存在非線性、不確定性和時(shí)變時(shí)。由于其固有的本質(zhì),RL使用來自環(huán)境的交互數(shù)據(jù),生成一個(gè)最優(yōu)控制器,而不需要環(huán)境本身的數(shù)學(xué)模型知識。此外,這種控制器具有適應(yīng)環(huán)境發(fā)生擾動的能力。
2. 倒立擺問題
倒立擺控制系統(tǒng)是一個(gè)復(fù)雜的、不穩(wěn)定的、非線性系統(tǒng)。是進(jìn)行控制算法驗(yàn)證的理想實(shí)驗(yàn)平臺。能有效的反映控制中的許多典型問題:如非線性問題、魯棒性問題、鎮(zhèn)定問題、隨動問題以及跟蹤問題等。通過對倒立擺的控制,可以較好檢驗(yàn)新的控制方法是否有較強(qiáng)的處理非線性和不穩(wěn)定性問題的能力。

????????本文所采用的模擬倒立擺如圖一所示,擺桿被鉸鏈固定在車體的正中心,可左右靈活擺動,輸入控制小車的力,根據(jù)其動力學(xué)方程可得到小車的位置,速度,角度,角加速度。
????????倒立擺的動力學(xué)方程。

3.強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)
強(qiáng)化學(xué)習(xí)是智能體在環(huán)境給予的獎(jiǎng)勵(lì)的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。以控制對象的動力學(xué)方程建立物理引擎,作為其環(huán)境交互對象,并定義其獎(jiǎng)勵(lì),使智能體獲取的獎(jiǎng)勵(lì)最大化,達(dá)到控制目的。


4.實(shí)驗(yàn)



參考文獻(xiàn):
[1] Zadeh L A. Outline of a new approach to the analysis of complex systems and decision processes[J]. IEEE Transactions on systems, Man, and Cybernetics, 1973 (1): 28-44.
[2] Lin W S. Optimality and convergence of adaptive optimal control by reinforcement synthesis[J]. Automatica, 2011, 47(5): 1047-1052.
[3] Lin W S, Sheu J W. Optimization of train regulation and energy usage of metro lines using an adaptive-optimal-control algorithm[J]. IEEE Transactions on Automation Science and Engineering, 2011, 8(4): 855-864.
[4] Modares H, Lewis F L, Naghibi-Sistani M B. Integral reinforcement learning and experience replay for adaptive optimal control of partially-unknown constrained-input continuous-time systems[J]. Automatica, 2014, 50(1): 193-202.
[5] Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.
[6] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.
[7] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[8] dos Santos Mignon A, da Rocha R L A. An Adaptive Implementation of ε-Greedy in Reinforcement Learning[J]. Procedia Computer Science, 2017, 109: 1146-1151.
[9] Lin L J. Reinforcement learning for robots using neural networks[R]. Carnegie-Mellon Univ Pittsburgh PA School of Computer Science, 1993.
[10] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//AAAI. 2016: 2094-2100.
[11] Riedmiller M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method[C]//ECML. 2005, 3720: 317-328.
[12] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. Cambridge: MIT press, 1998.
[13] Kharola A, Patil P, Raiwani S, et al. A comparison study for control and stabilisation of inverted pendulum on inclined surface (IPIS) using PID and fuzzy controllers[J]. Perspectives in Science, 2016, 8: 187-190.
[14] Dong Z, Song L, Chen H. The modeling and simulation of first-order Inverted pendulum control system[J]. Advances in Electronic Commerce, Web Application and Communication, 2012: 221-225.