動(dòng)態(tài)Size算法:一項(xiàng)GTO技術(shù)突破

動(dòng)態(tài)Size算法是一種革命性的新型撲克算法,它可以在每個(gè)決策點(diǎn)自動(dòng)簡(jiǎn)化策略樹(shù),并提供最高的 EV 的下注size。
易于執(zhí)行的簡(jiǎn)單策略總是會(huì)勝過(guò)難以執(zhí)行的復(fù)雜策略。
自從各種基于瀏覽器的GTO學(xué)習(xí)工具問(wèn)世以來(lái),大多數(shù)撲克玩家都會(huì)遇到這樣一個(gè)問(wèn)題:復(fù)雜的GTO解策略樹(shù)很難理解,而且?guī)缀醪痪邆淇蓪?shí)施性。?而相對(duì)簡(jiǎn)單的GTO解策略樹(shù)雖然容易研究,但穩(wěn)健性較差,不能告訴你最佳size是多大或者如何應(yīng)對(duì)不同的size。
GTOWizard團(tuán)隊(duì)利用人工智能的力量?jī)?yōu)雅地解決了這個(gè)問(wèn)題。通過(guò)動(dòng)態(tài)Size算法,現(xiàn)在我們可以做到兩全其美。

功能概述
動(dòng)態(tài)Size算法最終產(chǎn)出一個(gè)干凈簡(jiǎn)單的策略,它確保我們關(guān)心的每個(gè)下注size都已在起始參數(shù)中被考慮,并最終剔除所有不必要的size。
GTOWizard AI應(yīng)用的動(dòng)態(tài)Size算法有幾個(gè)關(guān)鍵特性:
在每個(gè)決策點(diǎn)自動(dòng)簡(jiǎn)化最佳下注或加注size。
可選擇你想要的下注size個(gè)數(shù)。
可自定義的size列表以供求解器選擇。
可指定求解器應(yīng)在何時(shí)何處使用動(dòng)態(tài)size算法。
支持即時(shí)重新求解節(jié)點(diǎn)。
支持在訓(xùn)練中對(duì)抗我們自定義的解算結(jié)果。
當(dāng)在GTOWizard AI中選擇了默認(rèn)動(dòng)態(tài)size選項(xiàng)時(shí),我們直接可以獲得給定場(chǎng)景的最高 EV size,無(wú)需輸入任何size或手動(dòng)創(chuàng)建策略樹(shù)。?比如我們選擇最終輸出2個(gè)size,則意味著求解器會(huì)在大量size選項(xiàng)中自行比較,在最終輸出的樹(shù)中會(huì)包含最多兩個(gè)最優(yōu)size,并且可以根據(jù)需要進(jìn)行自定義。
當(dāng)然你也可以自行輸入自己在實(shí)際游戲中偏愛(ài)的size列表,然后讓 GTO Wizard AI 告訴你哪種size最適合每種情況。?你將看到不同牌面上會(huì)有不同的size選擇傾向,這意味著你可以很容易地基于動(dòng)態(tài)size算法不斷優(yōu)化自己的實(shí)際游戲策略樹(shù)。
動(dòng)態(tài) VS 自動(dòng)
GTOWizard AI中有兩種自動(dòng)簡(jiǎn)化選項(xiàng):動(dòng)態(tài)和自動(dòng),它們本質(zhì)上其實(shí)是相同的算法。在這兩種情況下,求解器都會(huì)從預(yù)設(shè)置的下注或加注size列表中進(jìn)行搜索,以找到每個(gè)節(jié)點(diǎn)的最佳size。主要區(qū)別在于,動(dòng)態(tài)模式允許用戶(hù)自定義應(yīng)考慮的下注size,以及在每個(gè)決策點(diǎn)應(yīng)使用的size個(gè)數(shù)。

自動(dòng):GTOWizard AI確定應(yīng)使用多少個(gè)size,并根據(jù) SPR 調(diào)整預(yù)設(shè)的size列表。求解器會(huì)在每次決策時(shí)自動(dòng)簡(jiǎn)化為最佳下注或加注size。對(duì)于新用戶(hù)來(lái)說(shuō),這通常是最佳選擇。
動(dòng)態(tài):你可以選擇想要的下注或加注size,以及解算器應(yīng)考慮的size列表。求解器會(huì)自動(dòng)簡(jiǎn)化每個(gè)決策點(diǎn)的最佳下注size。此選項(xiàng)為進(jìn)階用戶(hù)提供更多可能。
問(wèn)題

對(duì)于那些不熟悉求解器的人來(lái)說(shuō),可能會(huì)對(duì)這個(gè)功能產(chǎn)生一些疑惑,比如為什么傳統(tǒng)求解器不能直接告訴我們最佳下注size呢?
撲克是一個(gè)非常復(fù)雜的游戲,因此我們需要抽象下注策略樹(shù)以使其可計(jì)算。對(duì)于經(jīng)典的求解器,使用者必須準(zhǔn)確設(shè)置起始size這一參數(shù)。
但是我們?cè)趺粗涝摻o(傳統(tǒng))求解器設(shè)置多少和多大的下注size呢?這是問(wèn)題的核心。
針對(duì)一個(gè)多size的復(fù)雜策略樹(shù),比較經(jīng)典的簡(jiǎn)化方法是,使用solver之前選擇的頻率最高的size進(jìn)行單一size策略rerun,或者單獨(dú)重新rerun每個(gè)size并選擇相對(duì)損失最少 EV 的那個(gè)。然而,這個(gè)過(guò)程是漫長(zhǎng)而乏味的。翻后樹(shù)可能需要被重新求解數(shù)千次,以?xún)?yōu)化每個(gè)決策點(diǎn)的下注和加注size。
顯然,這樣的方法并不方便,這也是我們開(kāi)發(fā)動(dòng)態(tài)Size算法的原因。
我們是怎么找到最優(yōu)size的
動(dòng)態(tài)Size算法會(huì)掃描每個(gè)可用的下注size,消除對(duì)策略增加最少價(jià)值的下注或加注size。這個(gè)過(guò)程不斷重復(fù),不斷刪除最沒(méi)有價(jià)值的size,直到僅保留所需數(shù)量的size個(gè)數(shù)。
通常這將是一個(gè)非常長(zhǎng)的運(yùn)算過(guò)程。然而,借助人工智能的力量,我們可以非常快速地估算出每種下注策略的價(jià)值。

為了找到最優(yōu)size,我們比較每個(gè)可用size的頻率、EV 和移除遺憾以生成一組特征,用作專(zhuān)有機(jī)器學(xué)習(xí)算法的輸入。該算法的輸出告訴我們要?jiǎng)h除哪個(gè)size。然后,我們使用 GTO Wizard AI 重新求解策略樹(shù),重復(fù)該過(guò)程,直到只剩下1-2個(gè)最優(yōu)size。?最終的結(jié)果是一個(gè)高效、簡(jiǎn)單、最優(yōu)的下注策略。
基準(zhǔn)測(cè)試
下一個(gè)問(wèn)題則是:這個(gè)算法的精確性如何?我們進(jìn)行了廣泛的基準(zhǔn)測(cè)試來(lái)找出答案!?總結(jié)如下:
與最優(yōu)單一size策略相比,動(dòng)態(tài)Size算法在河牌圈的平均 EV 損失僅為 0.05%pot。與使用 8 種不同size的復(fù)雜河牌策略相比,它的平均 EV 損失僅為 0.30%pot,這優(yōu)于任何固定的單一size策略。


并且我們很高興地發(fā)現(xiàn),在GTOWizard AI與 Slumbot 對(duì)抗時(shí),表現(xiàn)最好的150,000 手牌使用的是動(dòng)態(tài)size算法輸出的單一size結(jié)果,這意味著我們?cè)诿總€(gè)節(jié)點(diǎn)僅使用一種下注尺度。從理論上講,復(fù)雜的策略應(yīng)該優(yōu)于簡(jiǎn)單的策略,但比賽規(guī)則的7 秒行動(dòng)限制使得更簡(jiǎn)單的方法可以達(dá)到更高的精確度,在更小的方差下展現(xiàn)更優(yōu)的性能!

總結(jié)
撲克玩家有時(shí)擔(dān)心他們會(huì)因?yàn)楹?jiǎn)化策略而損失EV,現(xiàn)在我們可以根據(jù)經(jīng)驗(yàn)自信地說(shuō)事實(shí)恰恰相反。請(qǐng)放心,簡(jiǎn)化的策略可以提高你的學(xué)習(xí)體驗(yàn)和實(shí)際贏率。?當(dāng)你開(kāi)始消除游戲中不必要的復(fù)雜性而專(zhuān)注于最重要的事情時(shí),你會(huì)發(fā)現(xiàn)自己的準(zhǔn)確性和信心都隨之飛躍。