最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

北大公開(kāi)課-人工智能基礎(chǔ) 34 對(duì)抗性搜索之蒙特卡洛方法

2023-03-31 18:55 作者:朝朝暮暮1895  | 我要投稿


棋類游戲,博弈——對(duì)抗性搜索

兩個(gè)玩家的每一步,都可以組合成一個(gè)決策樹(shù)

alphago的相關(guān)算法基礎(chǔ)

蒙特卡洛方法

價(jià)值網(wǎng)絡(luò),用價(jià)值、每一步的效用函數(shù),判斷當(dāng)前action的有效性

蒙特卡洛方法:

定義一個(gè)輸入域(Xi 變量的集合)

隨機(jī)從輸入,分布輸出

對(duì)輸入進(jìn)行計(jì)算

聚合輸出結(jié)果,評(píng)估輸出的概率范圍

蒙特卡洛方法與決策樹(shù)集合

本質(zhì)上還是一顆決策樹(shù),但是每一個(gè)節(jié)點(diǎn)的后續(xù)action,通過(guò)蒙特卡洛方法來(lái)估算后續(xù)節(jié)點(diǎn)的概率

用蒙特卡洛方法,解決井字棋問(wèn)題

alphago 的CNN訓(xùn)練

alphago的兩個(gè)CNN結(jié)構(gòu)

一個(gè)是策略網(wǎng)絡(luò),通過(guò)蒙特卡洛方法及決策樹(shù)

判斷每個(gè)action的概率分布


第二個(gè)是價(jià)值網(wǎng)絡(luò)

判斷每一個(gè)決策節(jié)點(diǎn)action

得到的價(jià)值期望,來(lái)判斷每個(gè)action的最大價(jià)值化



北大公開(kāi)課-人工智能基礎(chǔ) 34 對(duì)抗性搜索之蒙特卡洛方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
堆龙德庆县| 莱州市| 灵璧县| 仁寿县| 鹿邑县| 霍山县| 安平县| 蚌埠市| 怀仁县| 桓仁| 北川| 弥渡县| 水富县| 阿图什市| 岐山县| 金乡县| 冕宁县| 嵊泗县| 海口市| 思茅市| 申扎县| 尤溪县| 宁化县| 淮南市| 通道| 松阳县| 来宾市| 龙山县| 濮阳市| 乐都县| 环江| 通辽市| 大余县| 泸定县| 景洪市| 景谷| 邢台县| 塔河县| 广汉市| 搜索| 安远县|