ICRA2022:強(qiáng)化學(xué)習(xí)能讓四旋翼無(wú)人機(jī)能豎著飛?
四旋翼無(wú)人機(jī)近些年得到了快速的發(fā)展,我們通常見(jiàn)到的四旋翼無(wú)人機(jī)基本都是在水平懸停狀態(tài)下飛行,那四旋翼無(wú)人機(jī)能否豎著飛呢?最近英國(guó)謝菲爾德大學(xué)和中國(guó)西湖大學(xué)智能無(wú)人系統(tǒng)實(shí)驗(yàn)室的研究人員在IEEE Robotics and Automation Letters發(fā)表了一篇利用強(qiáng)化學(xué)習(xí)使可變槳距四旋翼無(wú)人機(jī)實(shí)現(xiàn)“豎著飛”(Tic-toc 特技)的研究論文[1],我們一起來(lái)看一看吧。
▌什么是可變槳距四旋翼無(wú)人機(jī)?
可變槳距四旋翼無(wú)人機(jī)是一種相對(duì)較新的四旋翼無(wú)人機(jī),與傳統(tǒng)固定槳距四旋翼無(wú)人機(jī)只能改變力的大小相比,該種型號(hào)的四旋翼可以通過(guò)執(zhí)行器控制槳葉的俯仰角,改變力的方向。如圖1-2所示,逆時(shí)針旋轉(zhuǎn)的螺旋槳在槳葉角度為正的情況下產(chǎn)生向上的力,反之,則產(chǎn)生向下的力。此外,可變槳距無(wú)人機(jī)的動(dòng)力單元還可以利用電機(jī)旋轉(zhuǎn)速度改變產(chǎn)生的力和扭矩,因此,其動(dòng)力性能更優(yōu),在許多需要高性能飛行的應(yīng)用中展現(xiàn)出巨大潛力。

▌什么是tic-toc機(jī)動(dòng)?
tic-toc機(jī)動(dòng)是一種典型的直升機(jī)機(jī)動(dòng)動(dòng)作,如圖3所示[2]。tic-toc機(jī)動(dòng)動(dòng)作試圖使無(wú)人機(jī)在垂直平面而不是水平平面上飛行,因此,在特技飛行中,tic-toc特技也是飛手實(shí)現(xiàn)的最具挑戰(zhàn)性的動(dòng)作之一。

Tic-toc 機(jī)動(dòng)還沒(méi)有在四旋翼無(wú)人機(jī)上進(jìn)行過(guò)研究。研究它可以擴(kuò)大四旋翼無(wú)人機(jī)的飛行范圍,提高其在極端特技飛行任務(wù)中的性能。由于四旋翼無(wú)人機(jī)只存在垂直升力,要穩(wěn)定地保持豎直姿態(tài)飛行,必須依靠其定期地來(lái)回?cái)[動(dòng)。在生活中也有類似這樣的場(chǎng)景出現(xiàn),例如圖4展示的一種傳統(tǒng)民間運(yùn)動(dòng),“打花棍”。

▌如何利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)“豎著飛”?
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,使智能體在與環(huán)境的交互過(guò)程中通過(guò)學(xué)習(xí)策略實(shí)現(xiàn)特定目標(biāo)[3]。由于強(qiáng)化學(xué)習(xí)有可能解決傳統(tǒng)控制方法難以解決的問(wèn)題,近年來(lái)受到了極大的關(guān)注[4-5]。盡管強(qiáng)化學(xué)習(xí)已被應(yīng)用于多旋翼無(wú)人機(jī)的控制,但它主要用于實(shí)現(xiàn)穩(wěn)定飛行,如拋擲懸停[6]和姿態(tài)控制[7]。
為了實(shí)現(xiàn)四旋翼無(wú)人機(jī)“豎著飛“,深度確定性梯度策略(DDPG)方法被用于訓(xùn)練強(qiáng)化學(xué)習(xí)控制器。如圖5-6所示,得到的強(qiáng)化學(xué)習(xí)控制器可以產(chǎn)生兩種飛行模式:Spinning機(jī)動(dòng)和Tic-toc機(jī)動(dòng)。在兩種飛行模式控制器的基礎(chǔ)上,通過(guò)分析“豎著飛”的飛行特點(diǎn),并運(yùn)用支配性排序方法進(jìn)行評(píng)估,選出更符合條件的強(qiáng)化學(xué)習(xí)控制器。

此外,這篇文章引入了一個(gè)補(bǔ)償控制和一個(gè)基于LQR的恢復(fù)控制來(lái)擴(kuò)展該強(qiáng)化學(xué)習(xí)控制器的整體性能,從而使四旋翼無(wú)人機(jī)能夠從tic-toc恢復(fù)到懸停飛行。最后,文章還提出了一個(gè)基于模型的控制信號(hào)遷移補(bǔ)償器,使得一旦知道了標(biāo)準(zhǔn)訓(xùn)練模型和目標(biāo)模型的參數(shù),就可以將該強(qiáng)化學(xué)習(xí)控制器在無(wú)需訓(xùn)練的情況下,遷移到目標(biāo)模型上,并使其性能保持一致。
該研究首次提出了一個(gè)基于強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的控制器,該控制器在一個(gè)平面四旋翼無(wú)人機(jī)模型上進(jìn)行了訓(xùn)練,成功實(shí)現(xiàn)了Tic-toc機(jī)動(dòng)飛行。視頻1-2展示了其在模擬環(huán)境中進(jìn)行位置跟蹤和狹窄垂直隧道通過(guò)的能力。


▌結(jié)論與展望
該研究展示了了強(qiáng)化學(xué)習(xí)在變螺距無(wú)人機(jī)控制上的潛在應(yīng)用,研究旨在探索可變槳距四旋翼無(wú)人機(jī)的可操作性極限。這項(xiàng)研究可以加深我們對(duì)可變槳距四旋翼無(wú)人機(jī)動(dòng)力學(xué)特征的理解,并引導(dǎo)出更有趣和實(shí)用的控制策略。
不過(guò)這篇論文只是進(jìn)行了仿真驗(yàn)證,據(jù)說(shuō)該團(tuán)隊(duì)已經(jīng)在進(jìn)行該算法的現(xiàn)實(shí)平臺(tái)研究了,讓我們一起關(guān)注后續(xù)進(jìn)展吧!
論文詳細(xì)內(nèi)容請(qǐng)參看:Zhikun Wang, Roderich Gross, and Shiyu Zhao. "Aerobatic Tic-Toc Control of Planar Quadcopters via Reinforcement Learning." IEEE Robotics and Automation Letters (RA-L), vol. 7, no. 2, pp. 2140-2147, 2022
參考資料
[1] Zhikun Wang, Roderich Gross, and Shiyu Zhao. "Aerobatic Tic-Toc Control of Planar Quadcopters via Reinforcement Learning." IEEE Robotics and Automation Letters (RA-L), vol. 7, no. 2, pp. 2140-2147, 2022
[2] Jon Hull. "Master the Tic Toc.", 2021. URL:?http://www.helipilotonline.com/master-the-tic-toc/.
[3] R. S. Sutton, A. G. Barto et al., "Reinforcement learning: An introduction." MIT press, 1998.
[4] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, "Continuous control with deep reinforcement learning," arXiv preprint, arXiv:1509.02971, 2015.
[5] J. Hwangbo, J. Lee, A. Dosovitskiy, D. Bellicoso, V. Tsounis, V. Koltun, and M. Hutter, "Learning agile and dynamic motor skills for legged robots," Science Robotics, vol. 4, no. 26, p.eaau5872, 2019.
[6] J. Hwangbo, I. Sa, R. Siegwart, and M. Hutter, "Control of a quadrotor with reinforcement learning," IEEE Robotics and Automation Letters, vol. 2, no. 4, pp. 2096–2103, 2017.
[7] W. Koch, R. Mancuso, R. West, and A. Bestavros, "Reinforcement learning for UAV attitude control," ACM Transactions on Cyber-Physical Systems, vol. 3, no. 2, pp. 1–21, 2019.

本文共1396字
由西湖大學(xué)智能無(wú)人系統(tǒng)實(shí)驗(yàn)室訪問(wèn)學(xué)生汪治堃原創(chuàng)
申請(qǐng)文章授權(quán)請(qǐng)聯(lián)系后臺(tái)相關(guān)運(yùn)營(yíng)人員
▌微信公眾號(hào):空中機(jī)器人前沿
▌知乎:空中機(jī)器人前沿(本文鏈接:https://zhuanlan.zhihu.com/p/475282918?)
▌Youtube:Aerial robotics @ Westlake University
▌實(shí)驗(yàn)室網(wǎng)站:https://shiyuzhao.westlake.edu.cn/? ?
