最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

春分 | 環(huán)境不僅改變了你,也改變了AI

2023-03-21 09:07 作者:北大前沿計(jì)算研究中心  | 我要投稿


當(dāng)你在課堂上漂亮地回答了老師提出的問題之后,老師滿意地點(diǎn)了點(diǎn)頭,并當(dāng)堂宣布你的期末總分加1分;周圍的同學(xué)們發(fā)出驚呼,并在之后的課堂上你和你的同學(xué)們響應(yīng)老師提問的頻率也提高了。而某一天,老師面對缺勤的同學(xué)宣布了扣分,從此每一次課都很少有人缺勤。這一現(xiàn)象很合理,因?yàn)橛泻锰幍氖虑榇蠹叶荚敢馊L試,而有壞處的事情大家都想去規(guī)避。

上述例子其實(shí)就是“強(qiáng)化理論”在教育學(xué)當(dāng)中的一個(gè)簡單應(yīng)用。強(qiáng)化理論是由美國心理學(xué)家斯金納(B. F. Skinner)提出的一套用于解釋人類行為是如何隨著環(huán)境反饋發(fā)生變化的理論。斯金納將環(huán)境反饋的信號分成了正強(qiáng)化和負(fù)強(qiáng)化,如果人的一個(gè)行為得到了正強(qiáng)化,那么這個(gè)行為出現(xiàn)的概率就會(huì)得到提升,反之則降低。在開頭的例子當(dāng)中,期末總分加1分就是正強(qiáng)化,因缺勤的扣分就是負(fù)強(qiáng)化。

既然人的行為能被正、負(fù)強(qiáng)化所修正影響,那么人工智能(AI)是否可以使用類似的手段去修正它的決策呢?這就是“強(qiáng)化學(xué)習(xí)”,通過預(yù)先設(shè)定的環(huán)境獎(jiǎng)勵(lì)反饋來更新 AI 模型的參數(shù),以優(yōu)化 AI 的行為策略;它不需要像監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)那樣預(yù)先收集、標(biāo)注很多數(shù)據(jù),而是在一個(gè)環(huán)境當(dāng)中通過不斷的交互并收到環(huán)境反饋的獎(jiǎng)勵(lì)信號,即自己收集數(shù)據(jù),然后用跟環(huán)境交互產(chǎn)生的數(shù)據(jù)優(yōu)化策略。像目前的很多棋類算法,王者榮耀 AI 絕悟,麻將 AI Suphx 均會(huì)涉及到強(qiáng)化學(xué)習(xí)算法;以及最近火熱的語言模型 ChatGPT,也用到了基于人類反饋的強(qiáng)化學(xué)習(xí)算法。

一般來說,強(qiáng)化學(xué)習(xí)可以分成三類:基于值(Value-based), 基于策略(Policy-based)和行動(dòng)者-評論家(Actor-Critic)。

基于值(Value-based)的方法注重于學(xué)習(xí)一個(gè)估值函數(shù)Q(s_%7Bt%7D%2C%20a_%7Bt%7D), 代表當(dāng)前t時(shí)刻的局面狀態(tài),a_%7Bt%7D代表選取的動(dòng)作,Q(s_%7Bt%7D%2C%20a_%7Bt%7D)%20就代表了當(dāng) AI 在狀態(tài)s_%7Bt%7D下執(zhí)行了動(dòng)作a_%7Bt%7D之后的局面情況;當(dāng)Q值通過強(qiáng)化學(xué)習(xí)的算法(比如DQN,DDQN)學(xué)的很好時(shí),面對每一個(gè)狀態(tài)s_%7Bt%7D,AI 就可以選擇使得Q(s_%7Bt%7D%2C%20a_%7Bt%7D)值最高的動(dòng)作a_%7Bt%7D來執(zhí)行(不考慮探索問題);在王者榮耀游戲當(dāng)中,AI 控制的英雄選擇的動(dòng)作擊殺了對方英雄,那么此時(shí)的Q值就應(yīng)該給出一個(gè)較高的打分。

基于策略(Policy-based)的方法直接學(xué)習(xí)一個(gè)策略概率分布%CF%80(a_%7Bt%7D%7Cs_%7Bt%7D)。如果在t時(shí)刻的局面s_%7Bt%7D下執(zhí)行動(dòng)作a_%7Bt%2C1%7D獲得了正的獎(jiǎng)勵(lì),那么下次選取動(dòng)作a_%7Bt%2C1%7D的概率應(yīng)該被提升;反之,如果動(dòng)作a_%7Bt%2C2%7D獲得了負(fù)的獎(jiǎng)勵(lì),那么選取動(dòng)作a_%7Bt%2C2%7D的概率應(yīng)該被降低。當(dāng)然,降低或者提升的幅度依賴于隨后環(huán)境反饋的獎(jiǎng)勵(lì)的幅度,獎(jiǎng)勵(lì)越高那么提升的幅度也越多,一些簡單的算法會(huì)把之后的所有獎(jiǎng)勵(lì)之和G_%7Bt%7D用于衡量幅度。

行動(dòng)者-評論家(Actor-Critic)其實(shí)是把上述兩者進(jìn)行了結(jié)合,Actor 即是策略%CF%80(a_%7Bt%7D%7Cs_%7Bt%7D),Critic 即是估值Q(s_%7Bt%7D%2C%20a_%7Bt%7D)。我們發(fā)現(xiàn)如果要計(jì)算 Policy-based 方法的G_%7Bt%7D,那么就要在游戲結(jié)束才能得到,而在G_%7Bt%7D其實(shí)描述了動(dòng)作a_%7Bt%7D對局面效果如何,在 Value-based 方法當(dāng)中,有一個(gè)類似的函數(shù)Q(s_%7Bt%7D%2C%20a_%7Bt%7D)也是描述了動(dòng)作a_%7Bt%7D對局面的效果。因此可以同時(shí)學(xué)習(xí)一個(gè)Q(s, a)和一個(gè)策略分布π(a|s),然后使用Q(s, a)的值來評估動(dòng)作a在概率分布中的概率是否應(yīng)該被提高、應(yīng)該被提高多少。

上述只是舉了一些簡單的算法例子,為了學(xué)習(xí)過程更加穩(wěn)定、學(xué)到的策略更加優(yōu)質(zhì),學(xué)者還會(huì)修改上述函數(shù)的學(xué)習(xí)方式,比如 Policy-based 方法當(dāng)中的提升幅度的衡量。

強(qiáng)化學(xué)習(xí)隨著發(fā)展還有更多的種類,比如離線強(qiáng)化學(xué)習(xí)通過類似于監(jiān)督學(xué)習(xí)的方式收集數(shù)據(jù),然后用這些數(shù)據(jù)預(yù)測每次的回報(bào)和動(dòng)作;也有不同的分類方法比如同策略(on-policy)和異策略(off-policy),前者用于更新策略的數(shù)據(jù)是當(dāng)前策略交互得到(你舉手回答問題->你獲得加分->你舉手更加頻繁),后者用于更新策略的數(shù)據(jù)是其他策略交互得到(別人舉手回答問題->你看到他獲得了加分->你舉手更加頻繁)。

目前強(qiáng)化學(xué)習(xí)仍然存在許多問題需要解決。例如人類可能幾天就能學(xué)會(huì)打乒乓球,但是 AI 因?yàn)闃颖纠寐实托枰獙W(xué)習(xí)很久。此外,如何平衡探索和利用也是一個(gè)挑戰(zhàn),因?yàn)?AI 需要在盡可能短的時(shí)間內(nèi)找到最優(yōu)解,同時(shí)又不能完全放棄探索新的可能性??傊?,為了更好地應(yīng)用于各種實(shí)際問題中,強(qiáng)化學(xué)習(xí)領(lǐng)域仍需要不斷地探索與研究。


文字 | 王鴻鋮
PKU Hyperplane Lab


春分 | 環(huán)境不僅改變了你,也改變了AI的評論 (共 條)

分享到微博請遵守國家法律
沾化县| 沾益县| 阳山县| 平顶山市| 鄂温| 盐山县| 丰原市| 丽江市| 满城县| 彭州市| 安徽省| 宜宾县| 松原市| 滦平县| 福海县| 晋中市| 桑日县| 漠河县| 舒兰市| 盐亭县| 乐昌市| 鹤山市| 临沧市| 东明县| 灌阳县| 吴川市| 泸西县| 白朗县| 深州市| 临夏市| 广德县| 宣城市| 安康市| 辰溪县| 巴里| 抚松县| 福鼎市| 海城市| 长宁县| 浪卡子县| 卢湾区|