正態(tài)性檢驗(yàn)全流程
正態(tài)分布說明
正態(tài)分布在統(tǒng)計(jì)學(xué)中是一個(gè)很重要的概率分布類型,哪怕是在實(shí)際生活中也有著重要的指導(dǎo)與應(yīng)用作用,比如:某學(xué)校學(xué)生的成績(jī)分布,男子身高、工廠生產(chǎn)產(chǎn)品的尺寸等等。同時(shí),正態(tài)分布也是許多檢驗(yàn)的基礎(chǔ),在實(shí)際使用統(tǒng)計(jì)分析時(shí),人們總是樂于正態(tài)檢驗(yàn)。比如F檢驗(yàn)以及t檢驗(yàn)等在總體不是正態(tài)分布時(shí)一般沒有意義。所以檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布一直都是統(tǒng)計(jì)學(xué)比較重要的問題。所以本篇文章分別進(jìn)行對(duì)檢驗(yàn)正態(tài)分布的方法進(jìn)行說明。
檢驗(yàn)正態(tài)分布方法
檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布的方法有很多,常用的有正態(tài)性檢驗(yàn)(S-W檢驗(yàn)、K-S檢驗(yàn)),查看峰度與偏度以及圖示化(直方圖、p-p/q-q圖)等。接下來一一說明。
正態(tài)性檢驗(yàn)
正態(tài)性檢驗(yàn)顧名思義判斷總體是否服從正態(tài)分布的檢驗(yàn)。它是統(tǒng)計(jì)判決中重要的一種特殊的擬合優(yōu)度的假設(shè)檢驗(yàn)。SPSSAU提供的正態(tài)性檢驗(yàn)方法有三個(gè)如下:
針對(duì)三種正態(tài)性檢驗(yàn)方法的區(qū)別如下:
S-W檢驗(yàn)檢驗(yàn)一般需要樣本量小于50,如果樣本量大于50建議使用K-S檢驗(yàn),J-B檢驗(yàn)基于數(shù)據(jù)樣本的偏度(統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量)和峰度分析(表征概率密度分布曲線在平均值處峰值高低的特征數(shù)),一般用于大樣本分析。正態(tài)性檢驗(yàn)屬于非參數(shù)檢驗(yàn),原假設(shè)為“樣本來自的總體與正態(tài)分布無顯著差異就符合正態(tài)分布”,即當(dāng)p
‘峰度和偏度’如何進(jìn)行數(shù)據(jù)正態(tài)分布的檢驗(yàn)。
偏度和峰度
偏度也稱偏斜度,描述數(shù)據(jù)分布的偏斜程度和方向,峰度描述數(shù)據(jù)分布曲線陡峭平緩程度的統(tǒng)計(jì)量,理論上講,標(biāo)準(zhǔn)正態(tài)分布偏度和峰度均為0,但現(xiàn)實(shí)中數(shù)據(jù)無法滿足標(biāo)準(zhǔn)正態(tài)分布,因而如果峰度絕對(duì)值小于10并且偏度絕對(duì)值小于3,則說明數(shù)據(jù)雖然不是絕對(duì)正態(tài),但基本可接受為正態(tài)分布?!緟⒖嘉墨I(xiàn):Kline R , Kline R B , Kline R . Principles and Practice of Structural Equation Modelling[J]. Journal of the American Statistical Association, 2011, 101(12).】。除此之外,還有圖示化可以進(jìn)行驗(yàn)證,比如直方圖、p-p/q-q圖。
圖示化
除了用正態(tài)性檢驗(yàn)和偏度和峰度的方法,還可以結(jié)合圖形進(jìn)行分析數(shù)據(jù)是否符合正態(tài)分布。其中包括直方圖和p-p/q-q圖。
直方圖
如果使用直方圖,直方圖若呈現(xiàn)‘中間高,兩邊低,左右基本對(duì)稱的鐘形圖’則基本服從正態(tài)分析,但是數(shù)據(jù)量過少等也可能影響結(jié)果導(dǎo)致很難呈現(xiàn)出標(biāo)準(zhǔn)的正態(tài)分布,如果是這種情況如果看見‘鐘形’也可以接受的。比如:
上圖可以看出,數(shù)據(jù)呈現(xiàn)的分布并不是很對(duì)稱,但是也出現(xiàn)近似‘鐘形’曲線,所以也可以勉強(qiáng)接受。
p-p/q-q圖
p-p圖和q-q圖都是根據(jù)累計(jì)分布函數(shù)理論計(jì)算的,使用它們可以進(jìn)行數(shù)據(jù)是何種分布的檢驗(yàn),但是常用于檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。如果圖形中所有店都聚集在直線上,則說明變量分布服從于所要檢驗(yàn)的分布,直觀說法就是如果散點(diǎn)分布近似‘對(duì)角線’則可以認(rèn)為正態(tài)分布。比如:
從上圖可以看出散點(diǎn)分布近似‘對(duì)角線’則可以認(rèn)為正態(tài)分布。q-q圖也是如此。
幾種方法說明
上述展示幾種正態(tài)檢驗(yàn)的方法,大體可以分為正態(tài)性檢驗(yàn),偏度與峰度以及圖示化三種,其中正態(tài)性檢驗(yàn)要求最為嚴(yán)格,但是從實(shí)用性角度,正態(tài)性檢驗(yàn)遠(yuǎn)不如偏度與峰度以及圖示化這倆種實(shí)用,有時(shí)常常會(huì)出現(xiàn)這樣的結(jié)果,明明數(shù)據(jù)偏度絕對(duì)值小于3峰度絕對(duì)值小于10,或者p-p圖呈現(xiàn)近似“對(duì)角線”的結(jié)果,但是正態(tài)性檢驗(yàn)并不通過。此時(shí)建議不要對(duì)正態(tài)性檢驗(yàn)過于依賴,因?yàn)檎龖B(tài)性檢驗(yàn)要求嚴(yán)格通常無法滿足,所以在分析中可以使用其它兩種方法輔助進(jìn)行判斷。
舉例正態(tài)檢驗(yàn)
前面已經(jīng)提到過方差等需要數(shù)據(jù)服從正態(tài)分布,所以接下來進(jìn)行舉例說明,比如想要研究不同品牌洗發(fā)水的銷量情況。已知需要使用方差分析,現(xiàn)在想要查看數(shù)據(jù)是否服從正態(tài)分布。此例子中使用直方圖進(jìn)行判斷。結(jié)果如下:
從上圖中可以看出,“銷量”數(shù)據(jù)直方圖呈現(xiàn)‘中間高,兩邊低,并且左右基本對(duì)稱的鐘形圖’則基本服從正態(tài)分析。所以可以進(jìn)行后續(xù)分析。
總結(jié)
本篇文章主要對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)是否服從正態(tài)分布,檢驗(yàn)正態(tài)分布的數(shù)據(jù)概括成三個(gè)一個(gè)正態(tài)性檢驗(yàn),一個(gè)是利用偏度和峰度進(jìn)行說明,還有一種是圖示化來表示,其中正態(tài)性檢驗(yàn)條件最為嚴(yán)格,但是從實(shí)用性角度來看,卻不如其它兩種,如果在實(shí)證分析中,可以利用偏度與峰度和圖示化進(jìn)行輔助判斷。