散文網(wǎng) » 科技 »學(xué)習(xí) » 1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

2023-02-19 11:46 作者:李富貴bilibili 0人讀過(guò) | 我要投稿

2016年和2017年最具影響力的AlphaGo大勝世界圍棋冠軍李世石和柯潔事件，其核心算法就用到強(qiáng)化學(xué)習(xí)算法Research (deepmind.com)。2022年第大熱的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今，強(qiáng)化學(xué)習(xí)正在各行各業(yè)開花結(jié)果，成為學(xué)術(shù)界和工業(yè)界追捧的熱點(diǎn)。到底強(qiáng)化學(xué)習(xí)解決其中什么問(wèn)題呢？

一句話來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)所能解決的問(wèn)題是智能決策問(wèn)題，更確切地說(shuō)是序貫決策問(wèn)題。

什么是序貫決策問(wèn)題？就是需要連續(xù)不斷地做出決策，才能實(shí)現(xiàn)最終目標(biāo)的問(wèn)題。

案例A：非線性二級(jí)擺系統(tǒng)

問(wèn)題描述：該系統(tǒng)由一個(gè)臺(tái)車(黑色矩形)和兩個(gè)擺桿組成，課控制輸入為臺(tái)車的左右運(yùn)動(dòng)，該系統(tǒng)目的是讓兩級(jí)擺穩(wěn)定在豎直位置。

在控制系統(tǒng)理論中，解決該問(wèn)題的基本思路是先對(duì)兩級(jí)擺系統(tǒng)建立精確的動(dòng)力學(xué)模型，然后基于模型和各種非線性的理論設(shè)計(jì)控制方法?；趶?qiáng)化學(xué)習(xí)的方法，則不需要建模，也不需要設(shè)計(jì)控制器，只需構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法，讓二級(jí)擺系統(tǒng)自己去學(xué)習(xí)就可以了。

序貫決策問(wèn)題：臺(tái)車和擺桿每個(gè)狀態(tài)下，給出應(yīng)該施加給臺(tái)車什么方向、多大的力的連續(xù)決策問(wèn)題，一邊使整個(gè)系統(tǒng)逐漸收斂到兩個(gè)擺豎直的狀態(tài)。

案例B：訓(xùn)練好的AlphaGo與柯潔對(duì)戰(zhàn)的第二局

序貫決策問(wèn)題：AlphaGo根據(jù)當(dāng)前的棋局狀態(tài)做出該下那個(gè)子的連續(xù)決策，以便贏得比賽。

案例C：模擬機(jī)器人模擬摔倒后爬起

序貫決策問(wèn)題：機(jī)器人需要判斷每個(gè)狀態(tài)下，每個(gè)關(guān)節(jié)的力矩，以便能夠站立起來(lái)。

案例D：ChatGPT智能問(wèn)答機(jī)器人

序貫決策問(wèn)題：需要判斷當(dāng)前用戶提取的問(wèn)題，ChatGPT應(yīng)該回答什么，使得用戶體驗(yàn)最好。

標(biāo)簽：強(qiáng)化學(xué)習(xí)chatGPT 人工智能

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

本文作者的其他文章

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共條)