第1期第2講-深度強(qiáng)化學(xué)習(xí)兵棋AI訓(xùn)練與加速

?
01:24
??
04:34
?馬爾可夫決策過(guò)程:智能體與環(huán)境不斷交互的過(guò)程。
從環(huán)境獲得狀態(tài)A—根據(jù)自身轉(zhuǎn)移函數(shù),選擇動(dòng)作執(zhí)行—狀態(tài)B,同時(shí)從環(huán)境中獲取收益,進(jìn)而調(diào)整自己的轉(zhuǎn)移函數(shù)。這里的轉(zhuǎn)移函數(shù)有點(diǎn)類(lèi)似 認(rèn)識(shí)論?

?
04:59
?1.長(zhǎng)期收益
2.部分可觀測(cè)
?
08:23
??
12:21
?1)有監(jiān)督2)無(wú)監(jiān)督。開(kāi)始有數(shù)據(jù)集合,發(fā)給神經(jīng)網(wǎng)絡(luò)。
強(qiáng)化學(xué)習(xí),開(kāi)始沒(méi)有數(shù)據(jù)集合。
①基于策略
②基于值
③兩者結(jié)合。AC算法

?
50:23
?掌握技能①會(huì)打兵棋②會(huì)構(gòu)建深度強(qiáng)化學(xué)習(xí)框架會(huì)算法③使用分布式的算法訓(xùn)練Ai
標(biāo)簽: