醫(yī)學(xué)數(shù)據(jù)的正態(tài)性的檢驗(yàn)方法之K-S檢驗(yàn)(使用spss統(tǒng)計(jì)軟件)——【杏花開(kāi)醫(yī)學(xué)統(tǒng)

【核心】正態(tài)性檢驗(yàn)之 直方圖(任何樣本量)&K-S檢驗(yàn)(樣本量>2000)
【連續(xù)數(shù)值型資料】正態(tài)性檢驗(yàn):
①圖示法(直方圖法、P-P圖法、Q-Q圖法)
②參數(shù)法(K-S檢驗(yàn)、S-W檢驗(yàn)、峰度和偏度系數(shù)等)。

正態(tài)分布(normal distribution)是一種最常見(jiàn)、最重要的連續(xù)型隨機(jī)變量分布,許多統(tǒng)計(jì)方法如t檢驗(yàn)、方差分析等需要樣本數(shù)據(jù)滿(mǎn)足正態(tài)分布的條件。
一、直方圖
1.正態(tài)性檢驗(yàn)界面:分析—描述統(tǒng)計(jì)—探索

2.單樣本正態(tài)性檢驗(yàn)界面,選入“體重”至“因變量列表”,“圖”模塊進(jìn)行正態(tài)性檢驗(yàn)

①?因變量列表(dependent variable):這一選框選入檢驗(yàn)變量、或者結(jié)局變量(是希望去探討的目標(biāo)變量)
② 圖:見(jiàn)下圖:選“含檢驗(yàn)的正態(tài)圖、莖葉圖、直方圖”

① 莖葉圖和直方圖,兩者都√上。特別是直方圖,可以直觀地看出數(shù)據(jù)的分布形態(tài)。
②?含檢驗(yàn)的正態(tài)圖:這一選項(xiàng)即進(jìn)行正態(tài)性檢驗(yàn)。
3.單樣本正態(tài)性分析結(jié)果及解釋
SPSS提供兩種正態(tài)性檢驗(yàn)結(jié)果,分別是柯?tīng)柲曷宸?斯米諾夫(Kolmogorow-Smironov,KS)檢驗(yàn),另外一個(gè)是夏皮洛-威爾克(Shapiro-wilk,SW)。中文翻譯起來(lái)非常別扭,建議用英文和縮寫(xiě)區(qū)別二者。二者結(jié)果均有統(tǒng)計(jì)量(statistic),df(自由度),顯著性(sig.,?P值)。?

劃重點(diǎn):一般樣本量在2000以下時(shí)選擇SW的方法,因此SW適合樣本量較小的研究(一般小樣本量為30-50以?xún)?nèi)一組),本例亦是如此。事實(shí)上,可能大部分研究正態(tài)性檢驗(yàn)選擇SW檢驗(yàn)方法。正態(tài)性檢驗(yàn)最重要的是看“顯著性”。
>0.05 服從正態(tài)分布
<0.05 不服從正態(tài)分布
因此,本例結(jié)論是,P=1.000>0.05,差異沒(méi)有統(tǒng)計(jì)學(xué)意義,不能說(shuō)明該樣本的總體分布是偏態(tài)分布,可以認(rèn)為該體重正態(tài)性是符合的。
此外,直方圖能夠較直觀判斷數(shù)據(jù)分布特征??梢钥闯?,體重大致屬于中間多兩邊少的正態(tài)分布。

4.多樣本正態(tài)性檢驗(yàn)界面
多樣本正態(tài)性與單樣本正態(tài)性檢驗(yàn)相似,但“探索”界面稍有不同。

①?因子列表(Factor variable):這一選框選入分組變量、或者原因變量。本研究分組變量為group(飼料類(lèi)型),可以分為2組。
② 圖:見(jiàn)單樣本正態(tài)性檢驗(yàn),此處略
5.多樣本正態(tài)性檢驗(yàn)結(jié)果及解釋
經(jīng)SW檢驗(yàn),結(jié)果為:高蛋白組體重P=0.977,低蛋白組體重P=0.974,沒(méi)有統(tǒng)計(jì)學(xué)意義,兩組數(shù)據(jù)正態(tài)性均符合。?

它們各自的直方圖如下:


實(shí)際統(tǒng)計(jì)策略方面,諸位可以將數(shù)據(jù)分布分為三類(lèi):正態(tài)分布、近似正態(tài)分布數(shù)據(jù)和嚴(yán)重偏態(tài)分布數(shù)據(jù)。
第1類(lèi):正態(tài)分布符合,P >0.05;
第2類(lèi):正態(tài)分布不符合,P=<0.05,但直方圖還是呈現(xiàn)大致的中間多兩邊少,無(wú)嚴(yán)重極端值;
第3類(lèi):正態(tài)分布不符合,P=<0.05,數(shù)據(jù)嚴(yán)重偏態(tài),或者存在明顯極端異常值。

第1類(lèi)(左)和第2類(lèi)(右)數(shù)據(jù)的正態(tài)曲線圖

第3類(lèi)數(shù)據(jù)的正態(tài)圖:存在嚴(yán)重極端值(左)、嚴(yán)重偏態(tài)分布(右)
*一般情況下,前兩類(lèi)仍然可以用均數(shù)及標(biāo)準(zhǔn)差描述,用t檢驗(yàn)和F檢驗(yàn)進(jìn)行統(tǒng)計(jì)推斷,后者須用非參數(shù)檢驗(yàn)。
總結(jié)來(lái)說(shuō),判斷數(shù)據(jù)正態(tài)性,需要結(jié)合直方圖和正態(tài)性檢驗(yàn),將數(shù)據(jù)分布分為三大類(lèi),在此基礎(chǔ)上分別選擇不同的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷。
二、K-S
一、基本原理
???(1)什么是正態(tài)分布?
??如果隨機(jī)變量X的分布服從概率密度函數(shù)

則稱(chēng)X服從正態(tài)分布,記作X~ N(μ,σ 2 ),μ為X的總體均數(shù),σ 2為總體方差。
?可以知道,正態(tài)分布有兩個(gè)參數(shù),即位置參數(shù)μ和形態(tài)參數(shù)σ。
??若固定形態(tài)參數(shù)σ,則正態(tài)曲線的位置隨著μ的改變沿X軸左右移動(dòng);若固定位置參數(shù)μ,則正態(tài)曲線的形狀隨著σ的改變沿著Y軸變高變低。

(2)什么是K-S檢驗(yàn)?
??K-S(Kolmogorov-Smirnov)檢驗(yàn),也稱(chēng)D檢驗(yàn),基于累計(jì)分布函數(shù),通過(guò)對(duì)兩個(gè)分布之間的差異的分析,用以檢驗(yàn)樣本是否服從某一指定分布的方法。若累計(jì)頻數(shù)分布與指定分布差異很小,則推論該樣本服從該指定分布。其基本原理如下:
??H0:樣本來(lái)自的總體分布服從某指定分布。
??H1:樣本來(lái)自的總體分布不服從某指定分布。
??檢驗(yàn)統(tǒng)計(jì)量為:

注:該指定分布可以是連續(xù)分布如正態(tài)分布、指數(shù)分布、均勻分布,也可以是離散分布如泊松分布。
(3)適用條件
??K-S檢驗(yàn)適合大樣本的檢驗(yàn),樣本量一般在100以上。
二、案例解讀
??現(xiàn)有一組兒童身高及其身高評(píng)分的樣本數(shù)據(jù),樣本量為164。我們采用K-S檢驗(yàn)兒童身高和身高評(píng)分?jǐn)?shù)據(jù)是否符合正態(tài)分布。

(1)在SPSS中的具體操作
??①依次點(diǎn)擊“分析——非參數(shù)檢驗(yàn)——1個(gè)樣本”。

?②在出現(xiàn)的“單樣本K-S檢驗(yàn)”窗口中,

?③將“兒童身高”和“身高評(píng)分”變量放入“檢驗(yàn)變量列表”;檢驗(yàn)分布選擇“常規(guī)”。

??④點(diǎn)擊“確定”,得到檢驗(yàn)結(jié)果。


兒童身高 身高評(píng)分
Z統(tǒng)計(jì)量: 0.054 0.058
顯著性水平: 0.200 0.200
(2)結(jié)果解讀
??由檢驗(yàn)結(jié)果可知,兒童身高和身高評(píng)分的顯著性P=0.200>0.05,則接受原假設(shè),認(rèn)為樣本與所指定的分布方法一致,即與正態(tài)分布一致,可認(rèn)為兒童身高和身高評(píng)分服從正態(tài)分布。
>0.05 服從正態(tài)分布
<0.05 不服從正態(tài)分布