北大公開(kāi)課-人工智能基礎(chǔ) 34 對(duì)抗性搜索之蒙特卡洛方法


棋類游戲,博弈——對(duì)抗性搜索
兩個(gè)玩家的每一步,都可以組合成一個(gè)決策樹(shù)


alphago的相關(guān)算法基礎(chǔ)
蒙特卡洛方法

價(jià)值網(wǎng)絡(luò),用價(jià)值、每一步的效用函數(shù),判斷當(dāng)前action的有效性

蒙特卡洛方法:
定義一個(gè)輸入域(Xi 變量的集合)
隨機(jī)從輸入,分布輸出
對(duì)輸入進(jìn)行計(jì)算
聚合輸出結(jié)果,評(píng)估輸出的概率范圍




蒙特卡洛方法與決策樹(shù)集合
本質(zhì)上還是一顆決策樹(shù),但是每一個(gè)節(jié)點(diǎn)的后續(xù)action,通過(guò)蒙特卡洛方法來(lái)估算后續(xù)節(jié)點(diǎn)的概率

用蒙特卡洛方法,解決井字棋問(wèn)題


alphago 的CNN訓(xùn)練


alphago的兩個(gè)CNN結(jié)構(gòu)
一個(gè)是策略網(wǎng)絡(luò),通過(guò)蒙特卡洛方法及決策樹(shù)
判斷每個(gè)action的概率分布
第二個(gè)是價(jià)值網(wǎng)絡(luò)
判斷每一個(gè)決策節(jié)點(diǎn)action
得到的價(jià)值期望,來(lái)判斷每個(gè)action的最大價(jià)值化




標(biāo)簽: