散文網(wǎng) » 科技 »學(xué)習(xí) » 基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

2023-06-27 22:37 作者:中電新青年-探索號 0人讀過 | 我要投稿

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究?

摘要

當(dāng)控制系統(tǒng)是復(fù)雜非線性系統(tǒng)時(shí)，設(shè)計(jì)一類優(yōu)化控制器是非常復(fù)雜的。強(qiáng)化學(xué)習(xí)是從與控制對象的交互中學(xué)習(xí)優(yōu)化策略。本文采取強(qiáng)化學(xué)習(xí)方法，在未知倒立擺數(shù)學(xué)模型情況下，通過輸入輸出數(shù)據(jù)，實(shí)現(xiàn)對倒立擺的控制。

1. 引言

強(qiáng)化學(xué)習(xí)是一門決策學(xué)科，理解最佳的方式來制定決策。在工程控制當(dāng)中有一門課程叫最優(yōu)控制，與強(qiáng)化學(xué)習(xí)使用的方法有很大的類似之處，這種基于強(qiáng)化學(xué)習(xí)的方法不需要建模，也不需要設(shè)計(jì)控制器，只需要構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法。當(dāng)RL應(yīng)用于系統(tǒng)時(shí)，智能體通過與系統(tǒng)交互學(xué)會采取行動，以便最大化一些累積獎(jiǎng)勵(lì)。學(xué)習(xí)可以基于不同形式的獎(jiǎng)勵(lì)反饋。與監(jiān)督學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)的期望輸出是不知道的。通過強(qiáng)化學(xué)習(xí)智能體與環(huán)境的交互得到一些列的輸出，這些輸出的好壞用來評判智能體學(xué)習(xí)的好壞。RL算法關(guān)注在線學(xué)習(xí)性能，涉及到在探索（未知領(lǐng)域）和開發(fā)（當(dāng)前知識）之間的平衡。為了獲得最大的獎(jiǎng)勵(lì)，智能體必須利用它已經(jīng)知道的知識，但是它也必須探索，以便將來做出更好的行動選擇。

倒立擺問題是控制系統(tǒng)中一類經(jīng)典的問題。它是一個(gè)固有的不穩(wěn)定和欠驅(qū)動的機(jī)械系統(tǒng)。這個(gè)系統(tǒng)的動力學(xué)是用來更好理解平衡維護(hù)的任務(wù)，如火箭推進(jìn)器的控制和自平衡的機(jī)械系統(tǒng)。已有大量的文章研究了倒立擺的擺起與穩(wěn)定控制的若干設(shè)計(jì)技術(shù)。像PID控制、線性二次型調(diào)節(jié)器（LQR）和模糊邏輯控制器。

系統(tǒng)復(fù)雜性的增加需要復(fù)雜的控制器，特別是在系統(tǒng)存在非線性、不確定性和時(shí)變時(shí)。由于其固有的本質(zhì)，RL使用來自環(huán)境的交互數(shù)據(jù)，生成一個(gè)最優(yōu)控制器，而不需要環(huán)境本身的數(shù)學(xué)模型知識。此外，這種控制器具有適應(yīng)環(huán)境發(fā)生擾動的能力。

2. 倒立擺問題

倒立擺控制系統(tǒng)是一個(gè)復(fù)雜的、不穩(wěn)定的、非線性系統(tǒng)。是進(jìn)行控制算法驗(yàn)證的理想實(shí)驗(yàn)平臺。能有效的反映控制中的許多典型問題：如非線性問題、魯棒性問題、鎮(zhèn)定問題、隨動問題以及跟蹤問題等。通過對倒立擺的控制，可以較好檢驗(yàn)新的控制方法是否有較強(qiáng)的處理非線性和不穩(wěn)定性問題的能力。

????????本文所采用的模擬倒立擺如圖一所示，擺桿被鉸鏈固定在車體的正中心，可左右靈活擺動，輸入控制小車的力，根據(jù)其動力學(xué)方程可得到小車的位置，速度，角度，角加速度。

????????倒立擺的動力學(xué)方程。

3.強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)

強(qiáng)化學(xué)習(xí)是智能體在環(huán)境給予的獎(jiǎng)勵(lì)的刺激下，逐步形成對刺激的預(yù)期，產(chǎn)生能獲得最大利益的習(xí)慣性行為。以控制對象的動力學(xué)方程建立物理引擎，作為其環(huán)境交互對象，并定義其獎(jiǎng)勵(lì)，使智能體獲取的獎(jiǎng)勵(lì)最大化，達(dá)到控制目的。

4.實(shí)驗(yàn)

參考文獻(xiàn)：

[1] Zadeh L A. Outline of a new approach to the analysis of complex systems and decision processes[J]. IEEE Transactions on systems, Man, and Cybernetics, 1973 (1): 28-44.

[2] Lin W S. Optimality and convergence of adaptive optimal control by reinforcement synthesis[J]. Automatica, 2011, 47(5): 1047-1052.

[3] Lin W S, Sheu J W. Optimization of train regulation and energy usage of metro lines using an adaptive-optimal-control algorithm[J]. IEEE Transactions on Automation Science and Engineering, 2011, 8(4): 855-864.

[4] Modares H, Lewis F L, Naghibi-Sistani M B. Integral reinforcement learning and experience replay for adaptive optimal control of partially-unknown constrained-input continuous-time systems[J]. Automatica, 2014, 50(1): 193-202.

[5] Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.

[6] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.

[7] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[8] dos Santos Mignon A, da Rocha R L A. An Adaptive Implementation of ε-Greedy in Reinforcement Learning[J]. Procedia Computer Science, 2017, 109: 1146-1151.

[9] Lin L J. Reinforcement learning for robots using neural networks[R]. Carnegie-Mellon Univ Pittsburgh PA School of Computer Science, 1993.

[10] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with Double Q-Learning[C]//AAAI. 2016: 2094-2100.

[11] Riedmiller M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method[C]//ECML. 2005, 3720: 317-328.

[12] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. Cambridge: MIT press, 1998.

[13] Kharola A, Patil P, Raiwani S, et al. A comparison study for control and stabilisation of inverted pendulum on inclined surface (IPIS) using PID and fuzzy controllers[J]. Perspectives in Science, 2016, 8: 187-190.

[14] Dong Z, Song L, Chen H. The modeling and simulation of first-order Inverted pendulum control system[J]. Advances in Electronic Commerce, Web Application and Communication, 2012: 221-225.

標(biāo)簽：倒立擺強(qiáng)化學(xué)習(xí)控制策略研究

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究

本文作者的其他文章

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

基于強(qiáng)化學(xué)習(xí)的倒立擺控制策略研究的評論 (共條)