數(shù)據(jù)不正態(tài)分布如何辦
在實(shí)際研究中,很多時(shí)候都需要數(shù)據(jù)滿(mǎn)足正態(tài)分布才可以。比如說(shuō)回歸分析,其實(shí)做回歸分析有一個(gè)前提條件即因變量需要滿(mǎn)足正態(tài)分布性。也比如說(shuō)方差分析,其有一個(gè)潛在的前提假定即因變量Y需要滿(mǎn)足正態(tài)分布。還有很多種情況,比如T檢驗(yàn),相關(guān)分析等等。
但這種情況往往被分析人員忽略掉,或者是數(shù)學(xué)基本不夠扎實(shí),或者是無(wú)論如何數(shù)據(jù)均不滿(mǎn)足正態(tài)分布等客觀條件,也或者其它情況等。如果說(shuō)沒(méi)有滿(mǎn)足前提條件,分析的結(jié)果會(huì)變得不科學(xué)嚴(yán)謹(jǐn),分析結(jié)論會(huì)受到置疑。
哪些研究方法需要數(shù)據(jù)滿(mǎn)足正態(tài)分布才行呢?以及如果不滿(mǎn)足正態(tài)分布時(shí)應(yīng)該如何處理呢?接下來(lái)會(huì)逐步說(shuō)明。
第一:需要滿(mǎn)足正態(tài)分布的幾類(lèi)常見(jiàn)研究方法:
常見(jiàn)會(huì)涉及五種研究方法,它們對(duì)正態(tài)性要求相對(duì)較高,如果不滿(mǎn)足正態(tài)性則會(huì)有對(duì)應(yīng)的處理。
線(xiàn)性回歸分析
線(xiàn)性回歸分析,很多時(shí)候也稱(chēng)回歸分析。其對(duì)正態(tài)性的要求較為嚴(yán)格,包括因變量Y需要滿(mǎn)足正態(tài)性要求,同時(shí)殘差也需要滿(mǎn)足正態(tài)性。如果說(shuō)因變量Y不滿(mǎn)足正態(tài)分布,通常情況下有以下幾種處理辦法。
第1:對(duì)因變量Y取對(duì)數(shù)處理(包括自然對(duì)數(shù)和10為底的對(duì)數(shù));這可以在SPSSAU的生成變量功能里面找到;
第2:如果數(shù)據(jù)接近于正態(tài)分布,則接受其為正態(tài)分布性。此種情況較多,因?yàn)樵谘芯坑绊戧P(guān)系時(shí),線(xiàn)性回歸最適合,如果不進(jìn)行線(xiàn)性回歸,通常情況下很難有更適合的研究方法。因而很多時(shí)候只要數(shù)據(jù)接受于正態(tài)性即可,而不用強(qiáng)求數(shù)據(jù)完美的正態(tài),事實(shí)上在生活中絕對(duì)的“正態(tài)性”并不存在。使用正態(tài)分布檢驗(yàn)方法進(jìn)行驗(yàn)證正態(tài)性最為嚴(yán)苛,因而可使用正態(tài)分布圖直觀查看數(shù)據(jù)分布情況,接近于“正態(tài)分布”更符合實(shí)際情況;
第3:加大樣本量;有時(shí)候數(shù)據(jù)太少時(shí),即使正態(tài)分布的數(shù)據(jù),也因?yàn)闃颖拘](méi)有辦法覆蓋各種情況,從而變得不正態(tài),因而加大樣本量會(huì)減少這種情況產(chǎn)生。
Pearson相關(guān)分析
Pearson相關(guān)分析(也稱(chēng)皮爾遜相關(guān)分析,很多時(shí)候直接稱(chēng)呼為相關(guān)分析),在實(shí)際研究中使用最多。其實(shí)Pearson相關(guān)分析也有著默認(rèn)的前提條件,即數(shù)據(jù)滿(mǎn)足正態(tài)分布性。但現(xiàn)實(shí)中的數(shù)據(jù)很難滿(mǎn)足正態(tài)分布性,此時(shí)建議使用Spearman(斯皮爾曼)相關(guān)系數(shù)進(jìn)行研究即可。
方差分析
方差分析(這里特指單因素方差分析),其默認(rèn)有個(gè)前提條件是因變量需要符合正態(tài)分布性,可能是由于即使非正態(tài)分布,方差分析的結(jié)果也較為穩(wěn)健,因而很少有人先進(jìn)行正態(tài)分布性檢驗(yàn)。
事實(shí)上方差分析的因變量也需要滿(mǎn)足正態(tài)分布特質(zhì),如果沒(méi)有滿(mǎn)足,則可以使用非參數(shù)檢驗(yàn)進(jìn)行檢驗(yàn)。具體非參數(shù)檢驗(yàn)的類(lèi)型來(lái)看,如果X的組別為兩組,例如研究人員想知道不同性別學(xué)生的購(gòu)買(mǎi)意愿是否有顯著差異,按性別分為男和女共兩組,則應(yīng)該使用MannWhitney統(tǒng)計(jì)量,如果組別超過(guò)兩組,則應(yīng)該使用Kruskal-Wallis統(tǒng)計(jì)量結(jié)果。SPSSAU自動(dòng)為你選擇MannWhitney或者Kruskal-Wallis統(tǒng)計(jì)量。
獨(dú)立T檢驗(yàn)
獨(dú)立T檢驗(yàn)(也稱(chēng)T檢驗(yàn)),其默認(rèn)有個(gè)前提條件是因變量需要符合正態(tài)分布性,如果不滿(mǎn)足,此時(shí)可考慮使用非參數(shù)檢驗(yàn),具體來(lái)講應(yīng)該是MannWhitney檢驗(yàn)進(jìn)行研究。
單樣本T檢驗(yàn)
單樣本T檢驗(yàn),其默認(rèn)前提條件是數(shù)據(jù)需要符合正態(tài)分布性,如果不滿(mǎn)足,此時(shí)可考慮使用非參數(shù)檢驗(yàn),具體來(lái)講應(yīng)該是單樣本W(wǎng)ilcoxon檢驗(yàn)進(jìn)行研究。
配對(duì)樣本T檢驗(yàn)
配對(duì)樣本T檢驗(yàn),其默認(rèn)前提條件是差值數(shù)據(jù)需要符合正態(tài)分布性,如果不滿(mǎn)足,此時(shí)可考慮使用非參數(shù)檢驗(yàn),具體來(lái)講應(yīng)該是單樣本W(wǎng)ilcoxon檢驗(yàn)進(jìn)行研究。其實(shí)配對(duì)樣本T檢驗(yàn)與單樣本T檢驗(yàn)的原理是一模一樣,無(wú)非是進(jìn)行了一次數(shù)據(jù)相減(即差值)處理而已,因而其和單樣本T檢驗(yàn)保持一致。
第二:理論與現(xiàn)實(shí)的“相悖”
從理論上講,很多研究方法需要滿(mǎn)足正態(tài)分布特質(zhì),但現(xiàn)實(shí)情況下,很難滿(mǎn)足正態(tài)分布性。SPSSAU認(rèn)為有兩點(diǎn)原因。
1是抽樣樣本過(guò)少,很難cover所有情況,所以導(dǎo)致總體是正態(tài)分布,但抽樣樣本不滿(mǎn)足正態(tài)分布,比如中國(guó)13億人的身高肯定是正態(tài)分布,但抽樣100個(gè)人可能就不會(huì)正態(tài)分布;
2是認(rèn)知的不一致,事實(shí)上正態(tài)性是一種數(shù)學(xué)理論上的分布,實(shí)際情況下只要數(shù)據(jù)分布基本滿(mǎn)足“鐘形曲線(xiàn)”特征,SPSSAU認(rèn)為也應(yīng)該將數(shù)據(jù)看成是正態(tài)分布。
因而在實(shí)際研究過(guò)程中,很可能會(huì)出現(xiàn)需要滿(mǎn)足正態(tài)性要求,但是并不滿(mǎn)足,此時(shí)應(yīng)該如何處理呢?SPSSAU認(rèn)為有三種處理方式,如下圖:
第一種:使用正態(tài)分布圖直觀判斷正態(tài)分布特質(zhì),而不是使用檢驗(yàn)方法。原因在于檢驗(yàn)方法比較嚴(yán)苛,而現(xiàn)實(shí)數(shù)據(jù)滿(mǎn)足“鐘形曲線(xiàn)”特征即可;
第二種:將數(shù)據(jù)取對(duì)數(shù),或者開(kāi)根號(hào)等處理。如果數(shù)據(jù)值非常大,取對(duì)數(shù)或者開(kāi)根號(hào)等,會(huì)對(duì)數(shù)據(jù)進(jìn)行“壓縮”處理,相對(duì)意義上單位會(huì)減小,但值的相對(duì)意義還是一樣,通常情況下,數(shù)據(jù)會(huì)變得相對(duì)“正態(tài)”一些;此步可使用SPSSAU的“生成變量”功能即可完成。
第三種:使用其它研究方法。如果是使用方差分析,T檢驗(yàn)等,如果不滿(mǎn)足正態(tài)性,則有對(duì)應(yīng)的非參數(shù)檢驗(yàn)方法可以使用。如果是非參數(shù)檢驗(yàn)方法進(jìn)行差異對(duì)比,則應(yīng)該使用中位數(shù)去表述大小差異等,而一般不使用平均值(滿(mǎn)足正態(tài)分布性時(shí)才使用平均值表示整體水平)。當(dāng)然,SPSSAU均會(huì)提供對(duì)應(yīng)的非參數(shù)檢驗(yàn)方法等,可直接使用。
第三:正態(tài)分布的“檢驗(yàn)方法”
上述已經(jīng)講了很多關(guān)于正態(tài)分布的話(huà)題,那如何對(duì)正態(tài)分布性進(jìn)行檢驗(yàn)?zāi)兀縎PSSAU共提供以下幾種檢驗(yàn),如下:
第一種:圖示法(使用SPSSAU的直方圖即可,可得到類(lèi)似如下的圖等)
第二種:檢驗(yàn)方法
SPSSAU共提供兩種正態(tài)性檢驗(yàn)方法,包括S-W檢驗(yàn)和K-S檢驗(yàn)。小樣本(小于50)時(shí)建議使用S-W檢驗(yàn),大樣本(大于50)時(shí)建議使用K-S檢驗(yàn);此兩個(gè)檢驗(yàn)的原假設(shè)為數(shù)據(jù)正態(tài)分布,因而P值>0.05,說(shuō)明該項(xiàng)具有正態(tài)分布特質(zhì);這些均會(huì)在SPSSAU的智能分析中默認(rèn)提供。