【一文了解貝葉斯統(tǒng)計】
????在講貝葉斯統(tǒng)計之前,需要講一下統(tǒng)計學(xué)派。理解這兩個學(xué)派的分析理念對于理解機(jī)器分析等復(fù)雜算法非常重要。
????一個是經(jīng)典統(tǒng)計學(xué)派,一個是貝葉斯統(tǒng)計學(xué)派。
????例如,著名的擲硬幣實(shí)驗(yàn),假設(shè)我們要知道一個硬幣是否均勻。那么怎么做呢,我們不可能直接去理解這個硬幣的本質(zhì),知道它是否均勻。
? ? 現(xiàn)在我們得到了觀測數(shù)據(jù):共進(jìn)行了200次實(shí)驗(yàn),30次正面朝上,170次反面朝上,這個數(shù)據(jù)稱D。假設(shè)硬幣p(正面朝上)=0.5,下面簡稱零假設(shè),那么數(shù)據(jù)D是否推翻了我們的零假設(shè)呢?
????下面我們分別以經(jīng)典統(tǒng)計學(xué)方法和貝葉斯統(tǒng)計方法推理,以理解這兩個學(xué)派的分析理念:
????對于經(jīng)典統(tǒng)計學(xué)方法:
????它的理念是從總體到樣本數(shù)據(jù)的,總體的特征(參數(shù))是固定不變的,樣本數(shù)據(jù)是可以變化的。
????思路為:
????1 假設(shè)零假設(shè)成立
????2 構(gòu)造總體:根據(jù)觀測數(shù)據(jù)構(gòu)造產(chǎn)生數(shù)據(jù)的一個假設(shè)總體和總體期望數(shù)據(jù)
????3 量化差異:用一個統(tǒng)計方法(稱檢驗(yàn)統(tǒng)計量)量化樣本數(shù)據(jù)D和總體期望數(shù)據(jù)的差異(量化方法有),計算觀測檢驗(yàn)值
????4 抽樣構(gòu)造檢驗(yàn)統(tǒng)計量的分布函數(shù)(從大總體(總體總數(shù)放大)中抽樣(蒙特卡洛方法))
????5 衡量觀測檢驗(yàn)值在分布函數(shù)出現(xiàn)的可能性大小(p值法等)
????6 最后做出是否拒絕零假設(shè)的判斷
????此處實(shí)例采樣R檢驗(yàn)函數(shù)(它把上述前5個步驟都做了,檢驗(yàn)函數(shù)的名稱通常提供了假設(shè)總體的分布或檢驗(yàn)統(tǒng)計量的名稱,詳情可以看文末附錄):
? ? 結(jié)果分析:
????p-value接近于零,遠(yuǎn)比0.05小,說明觀測數(shù)據(jù)出現(xiàn)的可能性非常小,故拒絕零假設(shè),硬幣不均勻。??
????對于貝葉斯統(tǒng)計方法:
????它的理念是數(shù)據(jù)更新信念(假設(shè)),是從數(shù)據(jù)到總體的,對于一套數(shù)據(jù)(數(shù)據(jù)還可以更新),在這個分析中它是不變的,需要做的是選出最有解釋力的信念,信念是可變的。
????貝葉斯定理:
????
????前面經(jīng)典統(tǒng)計分析基本上是計算這一塊,并且H是不變的,即零假設(shè)下,觀測數(shù)據(jù)D出現(xiàn)的可能性(概率)來判斷零假設(shè)對于數(shù)據(jù)的解釋能力,結(jié)果是概率很低拒絕零假設(shè)。但在貝葉斯統(tǒng)計里,情況可能不一樣。
????它的目的是找到最能解釋當(dāng)前數(shù)據(jù)的信念,信念是可變的,數(shù)據(jù)也可以再擴(kuò)展。
更新信念的方法:
????比較全概率假設(shè),即當(dāng)p(正面朝上)取哪個值時獲得此數(shù)據(jù)的概率最大。
這里用分布函數(shù)實(shí)現(xiàn)這個功能:
運(yùn)行結(jié)果是:

可以看到p(正面向上)的概率在0.1到0.2,最有可能出現(xiàn)上述觀察數(shù)據(jù):
即對于上述觀測數(shù)據(jù),p(正面朝上)的概率在0.11到0.19之間的概率為90%(0.95-0.05)。
這樣同樣拒絕了零假設(shè),同時給出了更有可能的假設(shè)。
?先驗(yàn)概率
上述計算的是p(D|H),即似然概率,貝葉斯統(tǒng)計的特點(diǎn)是加強(qiáng)了背景知識(先驗(yàn)概率p(H))的作用。
對于上述例子,假如有一個專業(yè)人員告訴你,這個硬幣的制作廠商非常嚴(yán)格,硬幣均勻的概率90%(p(H)=0.9),幾乎不可能出現(xiàn)如此不均勻的硬幣,如此,我們可能會懷疑是否應(yīng)該接受零假設(shè):
此時可以計算后驗(yàn)概率p(H|D):
對于分布,有一個重要的特性:
????
我們可以利用這個特性在不知道p(D)的情況下計算后驗(yàn)概率:
由前面我們可以接受硬幣均勻(p(正面朝上)在0.4到0.6之間)的概率為0.01:
即100個硬幣里,有1個硬幣均勻。
而由先驗(yàn)概率,知道100個硬幣里有10個是均勻的.
那么后驗(yàn)概率中:
運(yùn)行結(jié)果:

此時硬幣均勻的概率為94%,此時我們可以接受零假設(shè):
其他假設(shè)
我們?nèi)匀豢梢宰龀銎渌募僭O(shè),來解釋數(shù)據(jù),比如拋硬幣的人作弊,然后再比較這兩個假設(shè)的解釋能力,后面的過程可以稱作假設(shè)檢驗(yàn)。
附錄:R語言相關(guān)函數(shù)
1 積分函數(shù):
輸出積分值:integrate(函數(shù),積分下限,積分上限)
2 PDF概率密度函數(shù)(以字母d開頭):
輸出分布函數(shù):dbeta(p,k,n-k),p是事件概率,k是事件發(fā)生次數(shù),n是總次數(shù)
輸出正態(tài)分布函數(shù):dnorm(x,mean=0,sd=1),sd是標(biāo)準(zhǔn)差
3 CDF累計分布函數(shù)(以字母p開頭,PDF的原函數(shù)):
輸出概率值:分布的CDF:pbeta(p,k,n-k)
輸出概率值:二項(xiàng)分布的CDF:pbinom(k,n,p)
(eCDF經(jīng)驗(yàn)累計分布函數(shù):ecdf(數(shù)組))
4 分位函數(shù)(以字母q開頭,CDF的逆):
輸出值:qbeta(p,k,n-k)
5 采樣函數(shù):
輸出數(shù)組:從分布中采樣:rbeta(采樣次數(shù),k,n-k)
輸出數(shù)組:從正態(tài)分布中采樣:rnorm(采樣次數(shù),k,n-k)
輸出數(shù)組:sample(總體數(shù)組,抽樣次數(shù))
6 檢驗(yàn)函數(shù)(以test結(jié)尾):
binom.test(k,n,p,?alternative = "two.sided"):計算精確的二項(xiàng)式檢驗(yàn)。樣本量較小時推薦使用
prop.test(k,n,p,?alternative = "two.sided"):當(dāng)樣本量較大(N> 30)時可以使用。它使用二項(xiàng)式的分布在較大樣本中與正態(tài)分布近似的原理
卡方擬合優(yōu)度檢驗(yàn):chisq.test(實(shí)際觀察頻次數(shù)組,假設(shè)的期望分布概率數(shù)組)
卡方獨(dú)立性檢驗(yàn):chisq.test(觀測二維列聯(lián)表)
單樣本t檢驗(yàn):t.test(觀察數(shù)據(jù)數(shù)據(jù),mu=120,alternative="two.sided"),mu為假設(shè)總體的數(shù)學(xué)期望