正態(tài)分布檢驗(yàn)
通常情況下,我們?cè)趯?duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí)或者在對(duì)數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)之前,會(huì)判斷數(shù)據(jù)是否滿足正態(tài)分布。方法如下:
重點(diǎn)內(nèi)容:
語言:MATLAB
hist函數(shù)用法
qqplot函數(shù)用法
kstest函數(shù)
adtest函數(shù)
1.描述性統(tǒng)計(jì)方法:
1.1 Q-Q圖“分位數(shù)-分位數(shù)圖”(quantile-quantile)
Q-Q圖是樣本數(shù)據(jù)直方圖和正態(tài)分布圖之間一種擬合優(yōu)度的直觀度量方式,當(dāng)QQ圖上的點(diǎn)都大致落在一條直線上時(shí),表示高度正相關(guān),即這些數(shù)據(jù)是正態(tài)分布的。
data = randn(10000,1)%定義數(shù)據(jù)
qqplot(data)
title("Q-Q圖")

hist(data) ?%默認(rèn)10個(gè)等間隔區(qū)間

ge = -4:0.1:4;%間隔區(qū)間
hist(data,ge)

n = 100;
hist(data,n)

2.概率統(tǒng)計(jì)方法:
2.1 K-S檢驗(yàn):
主要是計(jì)算出經(jīng)驗(yàn)分布和理論分布之間的距離,并將其中最大的距離(差異)作為檢驗(yàn)統(tǒng)計(jì)量。因此K-S檢驗(yàn)的優(yōu)點(diǎn)是不僅可檢驗(yàn)正態(tài)分布,還可用于檢驗(yàn)其他任何分布。在大樣本情況下K-S檢驗(yàn)還是非常實(shí)用的
通俗理解:就是看自己的數(shù)據(jù)分布和你想要證明的分布之間差別有多大,差別不大就服從,差別大了就不行。
H = kstest(X) %測(cè)試向量X是否服從標(biāo)準(zhǔn)正態(tài)分布,測(cè)試水平為5%。
若h=0表明不能拒絕原假設(shè),即服從正態(tài)分布;若h=1,則可以否定x服從正態(tài)分布。
H = kstest(X,cdf) %指定累積分布函數(shù)為cdf的測(cè)試(cdf=[ ]時(shí)表示標(biāo)準(zhǔn)正態(tài)分布),測(cè)試水平為5%
H = kstest(X,cdf,alpha) % alpha為指定測(cè)試水平
H=kstest(X,cdf,alpha,tail) % tail=0為雙側(cè)檢驗(yàn), tail=1單側(cè)(<)檢驗(yàn), tail=-1單側(cè)(>) 檢驗(yàn)
[H,P,KSSTAT,CV] = kstest(X,cdf,alpha) %P為原假設(shè)成立的概率,KSSTAT為測(cè)試統(tǒng)計(jì)量的值,CV為是否接受假設(shè)的臨界值。
注意:kstest適用于小樣本,當(dāng)數(shù)據(jù)過大時(shí),檢驗(yàn)拒絕的臨界值非常小,結(jié)果往往是拒絕原假設(shè)。
2.2 A-D檢驗(yàn):
主要通過計(jì)算數(shù)據(jù)的累積分布曲線與理想正態(tài)分布的累積分布曲線之間的差異來進(jìn)行檢驗(yàn),與K-S檢驗(yàn)不同,該方法考慮了兩條累積分布曲線之間的所有差異,因此它比K-S檢驗(yàn)效果更好,也是檢驗(yàn)正態(tài)性最好的方法之一。但該方法的缺點(diǎn)是僅適用于小樣本
程序:
h = adtest(data)
若h=0表明不能拒絕原假設(shè),即服從正態(tài)分布;若h=1,則可以否定x服從正態(tài)分布。
引用csdn文章:
文章鏈接:https://blog.csdn.net/qq_33924470/article/details/114668701
文章鏈接:https://blog.csdn.net/weixin_47005624/article/details/105551033