檢驗(yàn)正態(tài)分布方法的匯總
在數(shù)據(jù)分析過(guò)程中,往往需要數(shù)據(jù)服從正態(tài)分布,正態(tài)分布,也稱(chēng)“常態(tài)分布”,又名高斯分布,在求二項(xiàng)分布的漸近公式中得到。很多方法都需要數(shù)據(jù)滿(mǎn)足正態(tài)分布,比如方差分析、獨(dú)立t檢驗(yàn)、線(xiàn)性回歸分析(因變量)等。如果說(shuō)沒(méi)有這個(gè)前提可能會(huì)導(dǎo)致分析不嚴(yán)謹(jǐn)?shù)鹊?。所以進(jìn)行數(shù)據(jù)正態(tài)性檢驗(yàn)很重要。那么如何進(jìn)行正態(tài)性檢驗(yàn)?接下來(lái)進(jìn)行說(shuō)明。
一、檢驗(yàn)方法
SPSSAU共提供三種正態(tài)性檢驗(yàn)的方法,分別是描述法、正態(tài)性檢驗(yàn)以及圖示法,其中圖示法包括直方圖以及P-P/Q-Q圖。
1.1描述法
理論上講,標(biāo)準(zhǔn)正態(tài)分布偏度和峰度均為0,但現(xiàn)實(shí)中數(shù)據(jù)無(wú)法滿(mǎn)足標(biāo)準(zhǔn)正態(tài)分布,因而如果峰度絕對(duì)值小于10并且偏度絕對(duì)值小于3,則說(shuō)明數(shù)據(jù)雖然不是絕對(duì)正態(tài),但基本可接受為正態(tài)分布。從上表可以看出例子中峰度為1.160絕對(duì)值小于10,偏度為-1.084絕對(duì)值小于3。說(shuō)明數(shù)據(jù)基本可以接受為正態(tài)分布。
1.2 正態(tài)性檢驗(yàn)
SPSSAU的正態(tài)性檢驗(yàn)包括三種:正態(tài)性shapro-WiIk檢驗(yàn)、正態(tài)性Kolmogorov-Smirnov檢驗(yàn)和Jarque-Bera檢驗(yàn)。
背景簡(jiǎn)單描述:調(diào)查一個(gè)班級(jí)的53名學(xué)生的身高,判斷搜集的數(shù)據(jù)是否滿(mǎn)足μ=140.79,σ=8.6的正態(tài)分布。
由于n>50,所以檢驗(yàn)方法選擇K-S檢驗(yàn)或者J-B檢驗(yàn)。如果利用K-S檢驗(yàn)進(jìn)行證明,步驟如下:
H0:x服從μ=140.79,σ=8.6的正態(tài)分布
H1:x不服從μ=140.79,σ=8.6的正態(tài)分布
附表如下:
(圖片來(lái)源于:網(wǎng)絡(luò)侵刪)
因?yàn)闃颖境^(guò)35,并且α=0.05,所以D約為1.36/
相應(yīng)指標(biāo)
首先計(jì)算K-S檢驗(yàn)中的D統(tǒng)計(jì)量,計(jì)算公式如下:
【D=max left{D^{+}, D^{-} ight}】
首先將數(shù)據(jù)按從小到大進(jìn)行排序,用x進(jìn)行描述,k代表次序,然后計(jì)算其標(biāo)準(zhǔn)化的數(shù)據(jù),標(biāo)準(zhǔn)化公式為:
【x^{prime}=rac{x-mu}{sigma}】
接著算出每個(gè)數(shù)據(jù)的頻次,并記錄好累積頻次,然后計(jì)算
所以可以算出D為0.218,D大于0.187,所以拒絕原假設(shè),接受備擇假設(shè)所以不滿(mǎn)足。
同時(shí)可以使用SPSSAU進(jìn)行檢驗(yàn)更為方便,數(shù)據(jù)格式如下:
將數(shù)據(jù)上傳到SPSSAU進(jìn)行分析,操作如下:
分析結(jié)果如下:
從上述結(jié)果得到,樣本量大于50,所以選擇K-S檢驗(yàn),發(fā)現(xiàn)統(tǒng)計(jì)量D為0.218(和計(jì)算的一樣),p值小于0.05,所以模型顯著,拒絕原假設(shè),數(shù)據(jù)不服從正態(tài)分布。
同時(shí)SPSSAU還提供了JB檢驗(yàn):
Jarque-Bera檢驗(yàn)中,p值小于0.05,所以模型顯著,拒絕原假設(shè),數(shù)據(jù)不服從正態(tài)分布(針對(duì)SPSSAU提供統(tǒng)計(jì)量為卡方值的原因:有證明顯示在正態(tài)性假定下,JB統(tǒng)計(jì)量漸近地服從自由度為2的卡方分布)。
1.3 圖示法
直方圖
直方圖若呈現(xiàn)‘中間高,兩邊低,左右基本對(duì)稱(chēng)的鐘形圖’則基本服從正態(tài)分析,但是數(shù)據(jù)量過(guò)少等也可能影響結(jié)果導(dǎo)致很難呈現(xiàn)出標(biāo)準(zhǔn)的正態(tài)分布,如果是這種情況如果看見(jiàn)‘鐘形’也可以可以接受的。上圖可以看出,數(shù)據(jù)呈現(xiàn)的分布并不對(duì)稱(chēng),但是也出現(xiàn)近似‘鐘形’曲線(xiàn),所以也可以勉強(qiáng)接受。
P-P圖
P-P圖是將觀(guān)察累積概率作為X軸,將正態(tài)累積概率作為Y軸,作散點(diǎn)圖,反映實(shí)際累積概率與理論累積概率的符合程度。如果散點(diǎn)分布近似‘對(duì)角線(xiàn)’則可以認(rèn)為正態(tài)分布,從圖中可以看出數(shù)據(jù)散點(diǎn)分布不是很滿(mǎn)足要求,但是也近似為‘對(duì)角線(xiàn)’所以勉強(qiáng)接受。
Q-Q圖
Q-Q圖和P-P圖功能一致,分析上大致沒(méi)有區(qū)別。
二、如何進(jìn)行正態(tài)性檢驗(yàn)
SPSSAU分析位置
(1)通用方法板塊
SPSSAU【通用方法】→描述/ SPSSAU【通用方法】→正態(tài)性檢驗(yàn);
(2)可視化板塊
SPSSAU【可視化】→直方圖/ SPSSAU【可視化】→p-p/q-q圖;
三、其它學(xué)習(xí)資料
正態(tài)性檢驗(yàn)視頻學(xué)習(xí)資料:https://www.bilibili.com/video/av69017119/
直方圖分析方法視須解瀆:https://www.bilibili.com/video/av69465913/
P-P/Q-Q圖分析方法視頻解讀:https://www.bilibili.com/video/av69468707/
四、非正態(tài)數(shù)據(jù)怎么辦
針對(duì)上述幾種方法,正態(tài)性檢驗(yàn)最為嚴(yán)謹(jǐn),但是實(shí)際數(shù)據(jù)由于樣本量較少等原因,即使數(shù)據(jù)總體正態(tài)但統(tǒng)計(jì)檢驗(yàn)出來(lái)也顯示非正態(tài),實(shí)用性沒(méi)有圖示法直觀(guān)且接受性沒(méi)有圖示法高,所以在分析中常常圖示法應(yīng)用的比較多,如果在分析中數(shù)據(jù)嚴(yán)重不正態(tài)應(yīng)該怎么辦呢?接下來(lái)進(jìn)行說(shuō)明。
(1)將數(shù)據(jù)取對(duì)數(shù)處理
注意:原數(shù)據(jù)需要數(shù)據(jù)大于0,如果不滿(mǎn)足也可以取lg(x+k)等。
(2)開(kāi)根號(hào)
(3)取倒數(shù)
當(dāng)數(shù)據(jù)波動(dòng)較大時(shí)可以?xún)?yōu)先考慮
(4)Johnson轉(zhuǎn)換
(5)?計(jì)量經(jīng)濟(jì)學(xué)中常用的BOX-COX變換
(6)移除可能異常值
通常情況下,數(shù)據(jù)經(jīng)過(guò)處理會(huì)變得相對(duì)“正態(tài)”一些;此步可使用SPSSAU的“生成變量”功能即可完成。
或者嚴(yán)重不符合正態(tài)分布無(wú)法進(jìn)行分析也可以使用其他分析方法,比如非參數(shù)檢驗(yàn)等。