把吊打全網(wǎng)王者榮耀玩家的AI架構(gòu)從論文里挖出來。【把學(xué)術(shù)的變成大眾的】

絕悟AI:別誤會,我是說在座的各位王者榮耀玩家,都是XX(狗頭)
?
大家好,我是一個長得好看說話好聽智商超高三者都不具備的,但關(guān)注我的人以上三者都會具備的,只相信原理、邏輯和數(shù)據(jù)的,么得感情的量化機器的,阿婆主略財經(jīng)。
?
本期就講講后浪們最愛的博弈論學(xué)習(xí)軟件,中西方神話藝術(shù)研究,團隊配合策略實驗,國家互聯(lián)網(wǎng)巨頭產(chǎn)品體驗與資金交易,大腦防衰老可能有點用的手指靈活度健指儀------王者榮耀。
?
大家可能以為我要以講游戲的角度來講游戲,too后浪too?naive,作為后浪牌基金經(jīng)理,我如果在網(wǎng)上講游戲,很可能我會被前浪牌基金經(jīng)理們罵成浪花。
?
想必當(dāng)年讓很多自媒體都用過“震驚!”一詞描述的震驚!全球的圍棋人工智能AlphaGo都震驚!過大家,今天就來講講最近讓中國玩家聞風(fēng)喪膽、哀鴻遍野,把人類打到自閉,虐到體無完膚的,絕悟AI。
?
騰訊AI實驗室有一篇論文入圍了人工智能頂級會議AAAI 2020,之前1月份那會我剛做視頻有個粉絲就很幫我說話,他就跟我私信說過他投過一篇論文給AAAI,改天邀請他來給大家分享下。

回到正題,騰訊那篇入圍的AI論文,作者是葉德珩博士,論文名《Mastering Complex Control in MOBA Games with Deep Reinforcement Learning》,直譯的意思就是,用深度強化學(xué)習(xí)掌控MOBA游戲中的復(fù)雜控制。

這篇論文是以1V1為測試場景的,而不是5V5,因為后者更注重所有agent的團隊合作策略,而不是單個agent的動作決策。Agent就是智能體,可以簡單理解成英雄。
?
葉博士邀請了5位知名的職業(yè)選手和大量頂級業(yè)余玩家與AI對抗(提供人類數(shù)據(jù)標(biāo)本[doge]),于是,他們就全軍覆沒了,而且是一次又一次的螺旋上升式的全軍循環(huán)覆沒,當(dāng)然,螺旋上升的是AI,循環(huán)挨打的是人類。

人類一共向AI發(fā)起了2100次維護人類尊嚴(yán)的生死決斗,失敗2096次,最終以勝率0.19%的光榮姿態(tài)屹立于文明的歷史長河,人類又又又又雙叒叕敗給了AI。
而且在人類贏的那四場里,絕悟AI選的英雄比較依靠暴擊,因為暴擊有較大的不確定性,所以勝負的不確定性會加大,當(dāng)暴擊天平傾向不利的一端時,AI輸?shù)舻母怕示蜁哟螅簿褪沁\氣成分阻礙了人家AI的勝利。
?
然后?騰訊將這個絕悟AI上線了,4 月 27-29 日,十支人類戰(zhàn)隊兵分五路,從五個平臺出發(fā),抗擊絕悟AI,于是,被無情屠戮;5 月 1 日~ 5 月 4 日期間,玩家可與絕悟AI對戰(zhàn),但是5月1日僅僅半天,AI不負眾望地吊打了全網(wǎng)玩家,人類再一次想起了被AI支配的恐懼,于是騰訊緊急更新調(diào)低了AI難度。
?
然后很多玩家表示終于能勉強與AI一戰(zhàn),還有些玩家特意把論文找出來研究,以知己知彼少被虐。我猜想大家應(yīng)該不會去找論文看,所以我給大家盡全力地降維解釋下論文里介紹的絕悟AI系統(tǒng)架構(gòu),幫助大家做到知己知彼,以便未來戰(zhàn)勝絕悟AI,向朋友和女朋友展現(xiàn)你超越AI的智慧。
?
以下進入我相信你終有一天會聽懂的環(huán)節(jié):

?這張圖是論文里的強化學(xué)習(xí)系統(tǒng),這是一種低耦合且高擴展性的系統(tǒng)架構(gòu),可構(gòu)建數(shù)據(jù)并行化,采用較大的批大小來加快這個訓(xùn)練速度,畢竟復(fù)雜agent的動作決策問題可能引入高方差的隨機梯度,所以采用這種系統(tǒng)架構(gòu)能更好地提升大規(guī)模問題的探索效率。
?
這個系統(tǒng)有四個模塊,AI Server,人工智能服務(wù)器,這個模塊將游戲中實時的環(huán)境變化數(shù)據(jù)與agent的數(shù)據(jù)進行交互,self-play,自己玩自己,就是AI與AI進行自我對戰(zhàn)來訓(xùn)練。
然后Dispatch,調(diào)度,這個模塊,是負責(zé)收集AI Server接收到的游戲樣本數(shù)據(jù),將數(shù)據(jù)壓縮并傳到內(nèi)存池。
?
Memory Pool:內(nèi)存池,就是前面講的數(shù)據(jù)儲存,它也會處理數(shù)據(jù),然后把數(shù)據(jù)喂給下一個模塊,學(xué)習(xí)器
RL learner,RL是Reinforcement Learning,強化學(xué)習(xí)學(xué)習(xí)器,兩個學(xué)習(xí)沒打多,這是模型核心,功能是基于內(nèi)存池傳過來的數(shù)據(jù)進行強化學(xué)習(xí)訓(xùn)練。
?
聽起來很簡單對吧,就是數(shù)據(jù)傳來傳去的,那只是因為我沒給大家講論文涉及的模塊細節(jié),比如這樣的:

這樣的:

還有這樣的:

? ? ? ?這些本質(zhì)就是復(fù)雜的不可能簡單化的專業(yè)內(nèi)容,真正專業(yè)的內(nèi)容要是都能簡單化來講,那專業(yè)人士都可以喝西北風(fēng)去了,網(wǎng)絡(luò)上所有能讓非專業(yè)人士輕易看懂的內(nèi)容,本質(zhì)上都是些很簡單的專業(yè)里的皮毛罷了。專業(yè)一詞本就帶有門檻之意,真正的專業(yè)知識就是帶有門檻的知識。比如外行人聽到那些不專業(yè)但了解一點財經(jīng)的人說兩句什么通脹啊,什么波動率啊,就覺得他很專業(yè)了,殊不知在真正專業(yè)的人眼里,這些不過是專業(yè)常識,隨便百度一下看50字的概念介紹就能學(xué)會的皮毛,而通脹里面的需求拉動型通脹和成本推動型通脹是更深一級的專業(yè)知識,波動率里面的歷史波動率、隱含波動率、真實波動率、異質(zhì)波動率是更深兩三級的專業(yè)知識。聽過一些不怎么專業(yè)的人說兩句通脹和波動率就認定其專業(yè)的外行人,看到真正專業(yè)的人說真正專業(yè)的但也不可避免對于外行人而言更為高深難懂的理論后,反而會因為越級過多無法理解而認為人家在故弄玄虛在唬人,從而認定那個講他聽得懂的話的人才是真大佬,這就是為什么不怎么專業(yè)的人總是能忽悠到更多的人,并且被忽悠的人看不出這其中隱含的種種虛假與陷阱。這就好比外面各種金融騙子只要營銷技術(shù)好,講些金融皮毛就能忽悠一批又一批人,就是抓住了有些群體的這種特征。