【統(tǒng)計(jì)】如何快速判斷數(shù)據(jù)正態(tài)性
【統(tǒng)計(jì)】如何快速判斷數(shù)據(jù)正態(tài)性
當(dāng)我們進(jìn)行具體的定量數(shù)據(jù)的統(tǒng)計(jì)分析前,我們通常需要了解它的分布情況,一般先進(jìn)行正態(tài)性檢驗(yàn)。下面介紹兩種判斷正態(tài)性的方法,便于讀者在實(shí)際數(shù)據(jù)分析中快速判斷正態(tài)性。
經(jīng)驗(yàn)性判斷
我們所得的數(shù)據(jù)都是由其總體中而來(lái),一般來(lái)說(shuō),我們無(wú)法獲知它的總體的具體分布情況。但是這不意味著統(tǒng)計(jì)上無(wú)法進(jìn)行正態(tài)性判斷。從經(jīng)驗(yàn)的角度,我們可以作如下思考:
極大值、極小值占比情況
正態(tài)分布曲線(xiàn)的形狀類(lèi)似鐘,又稱(chēng)為鐘形曲線(xiàn)。直觀地從其概率密度曲線(xiàn)的形狀上來(lái)看,大部分?jǐn)?shù)據(jù)取值處于中間水平,極高值和極低值的個(gè)體所占比例較低,且所有數(shù)據(jù)的取值處在一個(gè)范圍之內(nèi)。對(duì)于臨床資料,若該變量的值恒定處在一個(gè)范圍內(nèi),該變量資料一般是正態(tài)的。比如身高,非常高和非常矮的在人群中是占極少數(shù)的,一般是服從正態(tài)分布的;再比如血糖、血鉀這些生化指標(biāo),這類(lèi)指標(biāo)一般是正態(tài)分布的。
數(shù)據(jù)是否開(kāi)口
臨床上,我們會(huì)遇到?jīng)]有最大值或最小值的指標(biāo)數(shù)據(jù),即該數(shù)據(jù)為開(kāi)口資料,這類(lèi)資料一定非正態(tài)。如某些腫瘤標(biāo)志物的數(shù)據(jù),這類(lèi)數(shù)據(jù)一般呈偏態(tài)分布。
數(shù)據(jù)的量綱為指數(shù)級(jí)
這一點(diǎn)非常好判斷,一般的,抗體滴度這類(lèi)指標(biāo)是不服從正態(tài)的。
【小技巧】這里給出一個(gè)在閱讀文獻(xiàn)時(shí)檢驗(yàn)正態(tài)性的小技巧。我們知道,對(duì)于正態(tài)分布的資料,其離散趨勢(shì)一般不會(huì)太顯著。我們可以借助正態(tài)分布的兩個(gè)衡量指標(biāo)(均數(shù)、標(biāo)準(zhǔn)差)來(lái)進(jìn)行快速判斷:若標(biāo)準(zhǔn)差大于或接近均數(shù),且樣本量足夠大的話(huà)(如上百),那么該數(shù)據(jù)資料一般不服從正態(tài),有興趣的讀者可以在實(shí)踐中加以嘗試。
統(tǒng)計(jì)方法檢驗(yàn)
一般使用Shapiro-Wilk法進(jìn)行正態(tài)性檢驗(yàn)。在R語(yǔ)言中,可以借助shapiro.test函數(shù)。另外,R中也有很多數(shù)據(jù)描述性統(tǒng)計(jì)的函數(shù),可以同時(shí)給出包括偏度、峰度等的數(shù)據(jù)分布信息,讀者可以進(jìn)行嘗試。

