最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

零之審判的統(tǒng)計學麻將——檢驗估計1

2021-11-23 15:22 作者:零之審判者  | 我要投稿

前言:這個專欄是我個人基于興趣得到的統(tǒng)計結(jié)果,包括1. 簡單的數(shù)據(jù)統(tǒng)計或隨機模擬, 2. 專業(yè)的統(tǒng)計檢驗或參數(shù)估計研究,3.一些機器學習模型的應用。 如果出現(xiàn)數(shù)據(jù)統(tǒng)計,基本來自于2010-2021年的近三百萬個四鳳南的牌譜,感謝nodocchi.moe網(wǎng)站作者提供資源。?


這期的主題是:給出兩個玩家的戰(zhàn)績,如何檢驗其中一個玩家的每局的pt期望是否高于另一個玩家?另外,如何給出每局的pt期望的估計?

為了更好的討論這個主題,我們以上期的結(jié)論為例。

問題1“點5200”的戰(zhàn)績?yōu)?4個1位,19個2位,33個3位,70個4位。問題2的戰(zhàn)績?yōu)?個1位,84個2位,91個3位,45個4位。問題3的戰(zhàn)績?yōu)?3個1位,60個2位,62個3位,74個4位。我們將三個問題看作三個七段的玩家,如何通過統(tǒng)計檢驗來確定這三個玩家中兩兩玩家的pt期望的差異?另外,如何準確地估計這三個玩家的pt期望?

統(tǒng)計檢驗

1.傳統(tǒng)的t檢驗

如果將戰(zhàn)績看作由90、45、0、-135組成的數(shù)據(jù),則玩家的pt期望相當于這個數(shù)據(jù)的均值。從而比較兩個玩家的pt期望的差異相當于比較兩組獨立數(shù)據(jù)的均值。我們通常采取獨立兩樣本t檢驗(Independent two-sample t-test)。檢驗過程如下:

首先,我們確認了三個玩家對應的樣本r1、r2、r3,其之間有顯著的方差差異,于是我們采用方差不一致的t檢驗。檢驗的結(jié)果是玩家1和玩家2有顯著差異,玩家2和玩家3有顯著差異,而玩家1和玩家3之間檢驗的p值為0.12,并不顯著。那么這是不是意味著我上期的結(jié)論“問題1的pt期望顯著差于問題3”是錯誤的呢?并不是這樣的。因為我采取了和傳統(tǒng)的t檢驗不一樣的檢驗方法。

在介紹新的檢驗方法之前,先要明白t檢驗的關鍵要求:樣本來自正態(tài)或近似正態(tài)總體。毫無疑問,七段麻將玩家的戰(zhàn)績樣本是一個多項分布,由90、45、0、-135組成,與正態(tài)分布區(qū)別極大。當然,如果對戰(zhàn)數(shù)相當大時,樣本的均值近似為一個正態(tài)分布,仍然可以采取t檢驗??稍谖覀冞@個例子中,三個玩家的對戰(zhàn)數(shù)都在200左右,并不算大樣本。因此,我推薦采取下面的檢驗方法。

2. 貝葉斯假設檢驗(推薦)

貝葉斯假設檢驗(Bayesian Hypothesis Testing)不僅避免了傳統(tǒng)的假設檢驗,如t檢驗下的不足:1.對樣本分布有要求; 2.檢驗值的計算公式使用了近似方法。同時,貝葉斯假設檢驗還能給出定量的顯著指標:貝葉斯因子(Bayes?factor)。不同于p值的大小沒有多大意義(只需要知道其是否小于0.05或小于0.1),貝葉斯因子的大小可以用來表示假設的靠譜程度。

貝葉斯因子簡介(摘自維基百科):

對于樣本D,以及兩個備選模型M1,M2。檢驗得到的貝葉斯因子K,等于樣本D在兩個模型下出現(xiàn)的概率的比值,使用貝葉斯定理,可以將其轉(zhuǎn)化為兩個后驗概率Pr(M|D)的比值與兩個先驗概率Pr(M)的比值的乘積。

具體計算:

回到麻將的例子,我們對玩家1和玩家3的戰(zhàn)績進行貝葉斯假設檢驗。由于戰(zhàn)績樣本是一個多項分布,因此我們通常采用的先驗分布為參數(shù)空間{p|p1+p2+p3+p4=1}的均勻分布Dir(1,1,1,1)或無信息的Jeffreys先驗分布Dir(1/2,1/2,1/2,1/2)。這兩種情況得到的K的值區(qū)別較小,我們下面給出均勻分布的例子。

現(xiàn)在的樣本D相當于兩組多項分布數(shù)據(jù):一組為多項分布參數(shù)p下的數(shù)據(jù)(24,19,33,70),另一組為多項分布參數(shù)q下的數(shù)據(jù)(13,60,62,74)。模型M1為子參數(shù)空間{p,q|90*p1+45*p2-135*p4<90*q1+45*q2-135*q4},相對應的模型M2為子參數(shù)空間{p,q|90*p1+45*p2-135*p4>=90*q1+45*q2-135*q4}。因此M1和M2的先驗概率都是1/2。為了計算兩者的后驗概率的比值,我們使用隨機模擬的數(shù)值估計方法。參數(shù)p和q的后驗分布分別為Dir(25,20,34,71)和Dir(14,61,63,75),于是按這兩個分布隨機取值并計算(90*p1+45*p2-135*p4)-(90*q1+45*q2-135*q4),記錄其是否小于0。則模型M1的后驗概率即為10000次模擬下小于0的記錄的比例。

具體的代碼如下:

計算可知貝葉斯因子約為15,這說明了數(shù)據(jù)非常支持模型M1(Strength of evidence is Strong)。因此統(tǒng)計結(jié)果告訴我們問題1的pt期望顯著差于問題3。


參數(shù)估計

在統(tǒng)計學中,與假設檢驗相對應的還有一個非常重要的領域:參數(shù)估計?;氐轿覀円婚_始的問題,一個玩家目前戰(zhàn)績?yōu)?4個1位,19個2位,33個3位,70個4位,那么其每局的pt期望是多少?

對于一個沒有統(tǒng)計學專業(yè)訓練的人,可能這是一個愚蠢的問題。難道結(jié)果不就是(24*90+19*45-70*135)/146,約為-44嗎?然而答案并不這么簡單。比如說我們讓四個相同的AI對戰(zhàn),有可能一個AI連贏了10把,我們能說它的每局pt期望為135嗎?顯然不可以,因為其每局pt期望應該是0。因此對每局pt期望的估計是一個不平凡的問題,它是一個完整的統(tǒng)計學問題,包括樣本空間、參數(shù)空間、似然函數(shù)以及損失函數(shù)。下面的敘述包括了我的博士研究結(jié)果,如需引用請私信我。

我們先給出這個問題的統(tǒng)計學敘述:參數(shù)空間為{p|p1+p2+p3+p4=1},樣本空間為{x|x1+x2+x3+x4=n},其中n為給定的對戰(zhàn)數(shù),似然函數(shù)為多項分布的似然函數(shù),損失函數(shù)為(f(p)-f(p*))^2,其中p*為參數(shù)p的估計值,f(p)=90*p1+45*p2-135*p4表示真實的每局pt期望。因此我們的目標是尋找一個好的估計p*,用f(p*)來估計每局pt期望。

一個好的估計應該是怎么樣的呢。一個重要的定義是可容許性(Admissibility)。可容許的估計方法p*指的是不存在另外一種估計方法q,使得q的損失函數(shù)的期望值在參數(shù)空間的所有參數(shù)上都小于等于p*的損失函數(shù)的期望值,且存在嚴格小于的情況。那么對于我們上述的問題,有哪些估計是可容許的估計呢?

通過Brown在1980年提出的complete-class theorem,我們可以知道在上述問題中,可容許的估計一定是貝葉斯估計。我們給出兩個貝葉斯估計的例子:

  1. 先驗分布為Dir(0,0,0,0)的貝葉斯估計。通過計算我們可以知道該貝葉斯估計就是最大似然估計,也就是最簡單的方法:用戰(zhàn)績中1位到4位所占的比例來估計。例如一個玩家目前戰(zhàn)績?yōu)?4個1位,19個2位,33個3位,70個4位,那么估計值就是(24/146,19/146,33/146,70/146)。從而每局pt期望的估計值就是(24*90+19*45-70*135)/146,約為-44。然而這個貝葉斯估計在損失函數(shù)(f(p)-f(p*))^2下是否是可容許的呢?我的博士研究成果證明了確實是可容許的。

  2. 先驗分布為Dir(1,1,1,1)的貝葉斯估計。通過計算我們可以知道此時參數(shù)的貝葉斯估計值為(25/150,20/150,34/150,71/150),從而每局pt期望的估計值就是(25*90+20*45-71*135)/150,約為-43。由于這是一個恰當?shù)模╬roper)貝葉斯估計,因此其必然是可容許的。?

但以上問題的結(jié)論并不一定適用于真實的玩家,比如四個相同的AI,我們知道其戰(zhàn)績一定是服從(1/4,1/4,1/4,1/4)的多項分布,所以無論其戰(zhàn)績是什么,對其每局pt期望的估計應該為0。因此,問題的關鍵在于參數(shù)空間。上面的問題中參數(shù)空間為{p|p1+p2+p3+p4=1},而對于實際的玩家,其一位率到四位率的參數(shù)分布應該為{p|p1+p2+p3+p4=1}的子空間,比如{p|p1+p2+p3+p4=1,0.1<=p1,p2,p3,p4<=0.4},在這樣的參數(shù)空間下,統(tǒng)計問題的估計方法會有什么變化嗎?

我的博士研究成果證明了,在這種情況下,當對戰(zhàn)數(shù)n充分大時,最大似然估計是不容許的。因此我們應當使用恰當?shù)呢惾~斯估計來計算玩家的每局pt期望。具體說明這里就不展開了。


零之審判的統(tǒng)計學麻將——檢驗估計1的評論 (共 條)

分享到微博請遵守國家法律
丰城市| 喀什市| 保靖县| 古交市| 彭泽县| 富宁县| 临泽县| 巫溪县| 内乡县| 凌云县| 比如县| 梁山县| 张家界市| 佛学| 河北区| 和顺县| 福州市| 信丰县| 仪征市| 徐州市| 满洲里市| 长子县| 高尔夫| 调兵山市| 扎鲁特旗| 彩票| 瓮安县| 石楼县| 正宁县| 奉化市| 大连市| 太白县| 鄂托克旗| 通辽市| 云龙县| 阳城县| 宜良县| 伊春市| 会泽县| 福海县| 河西区|