1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

2016年和2017年最具影響力的AlphaGo大勝世界圍棋冠軍李世石和柯潔事件,其核心算法就用到強(qiáng)化學(xué)習(xí)算法Research (deepmind.com)。2022年第大熱的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今,強(qiáng)化學(xué)習(xí)正在各行各業(yè)開花結(jié)果,成為學(xué)術(shù)界和工業(yè)界追捧的熱點(diǎn)。到底強(qiáng)化學(xué)習(xí)解決其中什么問(wèn)題呢?
一句話來(lái)說(shuō),強(qiáng)化學(xué)習(xí)所能解決的問(wèn)題是智能決策問(wèn)題,更確切地說(shuō)是序貫決策問(wèn)題。
什么是序貫決策問(wèn)題?就是需要連續(xù)不斷地做出決策,才能實(shí)現(xiàn)最終目標(biāo)的問(wèn)題。

案例A:非線性二級(jí)擺系統(tǒng)
問(wèn)題描述:該系統(tǒng)由一個(gè)臺(tái)車(黑色矩形)和兩個(gè)擺桿組成,課控制輸入為臺(tái)車的左右運(yùn)動(dòng),該系統(tǒng)目的是讓兩級(jí)擺穩(wěn)定在豎直位置。
在控制系統(tǒng)理論中,解決該問(wèn)題的基本思路是先對(duì)兩級(jí)擺系統(tǒng)建立精確的動(dòng)力學(xué)模型,然后基于模型和各種非線性的理論設(shè)計(jì)控制方法?;趶?qiáng)化學(xué)習(xí)的方法,則不需要建模,也不需要設(shè)計(jì)控制器,只需構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法,讓二級(jí)擺系統(tǒng)自己去學(xué)習(xí)就可以了。
序貫決策問(wèn)題:臺(tái)車和擺桿每個(gè)狀態(tài)下,給出應(yīng)該施加給臺(tái)車什么方向、多大的力的連續(xù)決策問(wèn)題,一邊使整個(gè)系統(tǒng)逐漸收斂到兩個(gè)擺豎直的狀態(tài)。
案例B:訓(xùn)練好的AlphaGo與柯潔對(duì)戰(zhàn)的第二局
序貫決策問(wèn)題:AlphaGo根據(jù)當(dāng)前的棋局狀態(tài)做出該下那個(gè)子的連續(xù)決策,以便贏得比賽。
案例C:模擬機(jī)器人模擬摔倒后爬起
序貫決策問(wèn)題:機(jī)器人需要判斷每個(gè)狀態(tài)下,每個(gè)關(guān)節(jié)的力矩,以便能夠站立起來(lái)。
案例D:ChatGPT智能問(wèn)答機(jī)器人
序貫決策問(wèn)題:需要判斷當(dāng)前用戶提取的問(wèn)題,ChatGPT應(yīng)該回答什么,使得用戶體驗(yàn)最好。