概率統(tǒng)計(jì):平均幾次能抽到塔菲表情包?

首先明確該問題是幾何概型的一種(http://www.zhihu.com/question/26395948),也就是說假設(shè)單次事件發(fā)生的概率為,那么要到第
次才發(fā)生的概率為二項(xiàng)分布
中
的情況:
由于我們已經(jīng)確定了事件發(fā)生一定是最后一次,因此可以反過來統(tǒng)計(jì)所有情況中
的期望,也就是:
將減去
可得:
可知就是等比數(shù)列
之和,且此和為
,因此問題轉(zhuǎn)化為求
的值。
注:也可用隨機(jī)過程馬爾科夫鏈中的first time passage來解釋,此處不表。貼吧有大佬提到此問題其實(shí)類似于多項(xiàng)分布(https://tieba.baidu.com/p/8537490099),由于我水平有限,只能用二項(xiàng)分布進(jìn)行探討,在此對(duì)于給予的指導(dǎo)表示感謝。
然而,由于塔菲表情包要求至少三張不同卡牌,也就是說實(shí)驗(yàn)必須至少從第二次起算(最多可能抽無窮大次也抽不中)。
從第二次開始,一共有兩種情況:前兩張卡牌相同或者不相同。對(duì)于后面的卡牌而言,不受到前兩次抽取的影響,也就是無記憶性的(Memoryless Property)。因此根據(jù)幾何概型,應(yīng)從前兩張卡牌相同和不相同分情況探討。

為簡(jiǎn)化計(jì)算,先考慮前兩張卡牌相同的情況。

①第一種情況,前兩張卡牌相同,根據(jù)古典概型該情況共有24種可能性,經(jīng)計(jì)算得概率為5.281605%(無后續(xù)數(shù)位)。

②第二種可能性,前兩張卡牌不相同,由情況①可知該情況的可能性為94.718395%(實(shí)際上是94.898476%,這是由于四舍五入造成的微小誤差)。此時(shí)面對(duì)第三次抽卡,問題轉(zhuǎn)化為幾何概型的二項(xiàng)分布,且為剩下22張卡牌的概率之和。但是,由于剩下22張卡牌的概率與前兩張卡牌有關(guān),因此必須先通過古典概型分類討論:
使用excel計(jì)算的結(jié)果如下,第②種情況時(shí)平均需要1.060966629次可以抽到三張不同卡牌(基本一次中):


回到第①種情況,前兩張卡牌相同時(shí),此時(shí)由于仍然不知道第三張卡牌是否會(huì)相同,因此必須繼續(xù)分類討論。
(1)假設(shè)第三張卡牌和前兩張不同,問題轉(zhuǎn)化為第③種情況,但前兩次的概率計(jì)算公式不同,需對(duì)第一張卡牌計(jì)算兩次:

得到結(jié)果為0.056次。
(2)假設(shè)第三張卡牌和前兩張仍然相同,該種可能性之和為0.2930921%,由于可能性太低可不作考慮。


綜上,我們根據(jù)前三次抽取的情況做了如下探討:
①AB型,該種可能性的概率為94.898476%,平均需要再抽取次數(shù)為1.060966629次
②AA型,該種可能性的概率為5.281605%,下又分兩種情況:
(1)AAB型,該種可能性的概率為4.9885129%,平均需要再抽取次數(shù)為0.056次。
(2)AAA型,該種可能性的概率為0.2930921%。
總平均抽取次數(shù)為2+1.06+0.056+0.0293*2=3.1746次。

為檢驗(yàn)該數(shù)字的正確性,使用蒙特卡洛方法在python中進(jìn)行一億次抽樣,代碼如下:
得到結(jié)果為3.17381068次。


由于3.17381068與3.1746較為接近,可以認(rèn)為計(jì)算比較符合現(xiàn)實(shí)。然而由于本文過度簡(jiǎn)化了實(shí)際概率情況,導(dǎo)致可能出現(xiàn)三位小數(shù)以后的誤差,造成一定的不足。