最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

2023-02-19 11:46 作者:李富貴bilibili  | 我要投稿

2016年和2017年最具影響力的AlphaGo大勝世界圍棋冠軍李世石和柯潔事件,其核心算法就用到強(qiáng)化學(xué)習(xí)算法Research (deepmind.com)。2022年第大熱的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今,強(qiáng)化學(xué)習(xí)正在各行各業(yè)開花結(jié)果,成為學(xué)術(shù)界和工業(yè)界追捧的熱點(diǎn)。到底強(qiáng)化學(xué)習(xí)解決其中什么問(wèn)題呢?

一句話來(lái)說(shuō),強(qiáng)化學(xué)習(xí)所能解決的問(wèn)題是智能決策問(wèn)題,更確切地說(shuō)是序貫決策問(wèn)題。

什么是序貫決策問(wèn)題?就是需要連續(xù)不斷地做出決策,才能實(shí)現(xiàn)最終目標(biāo)的問(wèn)題。



案例A:非線性二級(jí)擺系統(tǒng)

問(wèn)題描述:該系統(tǒng)由一個(gè)臺(tái)車(黑色矩形)和兩個(gè)擺桿組成,課控制輸入為臺(tái)車的左右運(yùn)動(dòng),該系統(tǒng)目的是讓兩級(jí)擺穩(wěn)定在豎直位置。

在控制系統(tǒng)理論中,解決該問(wèn)題的基本思路是先對(duì)兩級(jí)擺系統(tǒng)建立精確的動(dòng)力學(xué)模型,然后基于模型和各種非線性的理論設(shè)計(jì)控制方法?;趶?qiáng)化學(xué)習(xí)的方法,則不需要建模,也不需要設(shè)計(jì)控制器,只需構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法,讓二級(jí)擺系統(tǒng)自己去學(xué)習(xí)就可以了。

序貫決策問(wèn)題:臺(tái)車和擺桿每個(gè)狀態(tài)下,給出應(yīng)該施加給臺(tái)車什么方向、多大的力的連續(xù)決策問(wèn)題,一邊使整個(gè)系統(tǒng)逐漸收斂到兩個(gè)擺豎直的狀態(tài)。

案例B:訓(xùn)練好的AlphaGo與柯潔對(duì)戰(zhàn)的第二局

序貫決策問(wèn)題:AlphaGo根據(jù)當(dāng)前的棋局狀態(tài)做出該下那個(gè)子的連續(xù)決策,以便贏得比賽。

案例C:模擬機(jī)器人模擬摔倒后爬起

序貫決策問(wèn)題:機(jī)器人需要判斷每個(gè)狀態(tài)下,每個(gè)關(guān)節(jié)的力矩,以便能夠站立起來(lái)。

案例D:ChatGPT智能問(wèn)答機(jī)器人

序貫決策問(wèn)題:需要判斷當(dāng)前用戶提取的問(wèn)題,ChatGPT應(yīng)該回答什么,使得用戶體驗(yàn)最好。


1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
农安县| 和硕县| 福安市| 观塘区| 汾西县| 松溪县| 册亨县| 江口县| 宜昌市| 蓝田县| 平邑县| 辰溪县| 巴里| 五台县| 富民县| 江安县| 江西省| 保德县| 盘锦市| 洪湖市| 伊金霍洛旗| 澜沧| 洮南市| 江西省| 兴化市| 平原县| 红原县| 英超| 渝中区| 鄂伦春自治旗| 无棣县| 博兴县| 大余县| 晋中市| 开江县| 来安县| 沾益县| 东兴市| 依安县| 栾川县| 洞头县|