卡方檢驗(yàn)知識一文匯總
一文整理了卡方檢驗(yàn)全部內(nèi)容,包括卡方檢驗(yàn)的定義(基本思想、卡方值計(jì)算、適用條件分析)、卡方檢驗(yàn)分類(2*2四格表卡方、R*C表格卡方、配對卡方、卡方擬合優(yōu)度檢驗(yàn)、分層卡方)、卡方檢驗(yàn)如何分析(數(shù)據(jù)格式、軟件操作、結(jié)果解讀、卡方多重比較)、卡方檢驗(yàn)在其他方面的應(yīng)用(多選題分析、logistic回歸分析篩選變量、定類數(shù)據(jù)關(guān)系的可視化分析、趨勢卡方判斷是否有線性趨勢)、對比分析(參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)、差異性分析的其他方法等)5大部分內(nèi)容。
卡方檢驗(yàn)定義
1基本思想
卡方檢驗(yàn)又稱獨(dú)立性檢驗(yàn),是由數(shù)學(xué)家卡爾·皮爾遜發(fā)明的用于檢驗(yàn)兩變量是否相關(guān)的假設(shè)檢驗(yàn)方法。其基本思想是統(tǒng)計(jì)樣本的實(shí)際頻數(shù)與理論頻數(shù)的吻合程度,主要應(yīng)用于定類數(shù)據(jù)和定類數(shù)據(jù)之間的關(guān)系分析,即我們常說的定類數(shù)據(jù)與定類數(shù)據(jù)之間的差異性研究。比如研究男生女生是否吸煙的差異。
卡方檢驗(yàn)的基本思想也可以通過卡方值的基本公式來理解。
2卡方值計(jì)算
(1)卡方值計(jì)算公式
卡方值基本公式——Pearson
式中O為實(shí)際頻數(shù),E為理論頻數(shù),卡方值表示實(shí)際頻數(shù)與理論頻數(shù)之間的偏離程度??ǚ街翟酱螅瑒t實(shí)際頻數(shù)與理論頻數(shù)的偏離程度越大。
同時(shí),卡方值大小還受自由度的影響,自由度v越大,卡方值也會越大,所以只有考慮了自由度v的影響,卡方值才能正確反映實(shí)際頻數(shù)與理論頻數(shù)的偏離程度。
(2)卡方檢驗(yàn)自由度
卡方檢驗(yàn)的自由度與樣本量n無關(guān),取決于列聯(lián)表中可以自由取值的格子個(gè)數(shù),自由度計(jì)算公式v=(行數(shù)-1)*(列數(shù)-1)。比如四格表中有兩行兩列數(shù)據(jù),自由度=(2-1)*(2-1)=1。
(3)理論頻數(shù)計(jì)算
卡方值計(jì)算公式中涉及到理論頻數(shù)的計(jì)算,卡方檢驗(yàn)理論頻數(shù)的計(jì)算是根據(jù)假設(shè)檢驗(yàn)H0成立的前提下,計(jì)算所得的理論頻數(shù)。
具體計(jì)算方法為:對于每個(gè)單元格,其理論頻數(shù)E=(行合計(jì)×列合計(jì))/總樣本數(shù)n。也就是第R行第C列單元格的理論頻數(shù)E= (第R行合計(jì)×第C列合計(jì))/總樣本量n。
3適用條件判斷
一般情況下,我們所說的卡方檢驗(yàn)均為Pearson卡方,卡方值基本公式也為Pearson卡方值計(jì)算公式。除此之外,還有兩種卡方值——yates連續(xù)性校正卡方和Fisher卡方值。
三種卡方值的選擇,需要結(jié)合變量個(gè)數(shù)、樣本量n、理論頻數(shù)E分布情況等,選擇最終應(yīng)該使用的卡方值。具體選擇標(biāo)準(zhǔn)如下:
針對2*2四格表(R=2,C=2)
n>=40,且 E全部>=5則使用Pearson卡方;
n>=40但其中有1個(gè)格子出現(xiàn)1<=E<5則使用yates連續(xù)性校正卡方;
任何一格子出現(xiàn)E <1或n<40則使用Fisher卡方(僅2*2表格使用)。針對R*C表格(R,C中任意一個(gè)大于2;且R>=2,且C>=2)
E全部>1 且 1<=E<5格子的比例小于20% 則使用Pearson卡方,否則使用yates連續(xù)性校正卡方。
Yates連續(xù)性校正卡方公式:
卡方檢驗(yàn)分類
卡方檢驗(yàn)從使用頻率角度分類來分的話可分為以下5類:獨(dú)立樣本2*2表格卡方檢驗(yàn)(四格表卡方)、多獨(dú)立樣本R*C表格卡方檢驗(yàn)、卡方擬合優(yōu)度檢驗(yàn)、配對設(shè)計(jì)資料卡方檢驗(yàn)、分層卡方檢驗(yàn)。接下來將分別進(jìn)行說明。
1獨(dú)立樣本2*2表格卡方檢驗(yàn)
四格表卡方檢驗(yàn)在日常研究是最常用的一種,用于比較兩樣本構(gòu)成比是否有差異。四格表是一種常用的數(shù)據(jù)表格形式,表格由四個(gè)單元格組成,每個(gè)單元格代表一個(gè)分類變量的不同組合。四格表示例如下,表中的其余數(shù)據(jù)都可以用abcd這四個(gè)數(shù)據(jù)計(jì)算得到,所以也稱為四格表資料。
四格表卡方檢驗(yàn)除上面提到的基本公式外,還有一個(gè)四格表的特有公式:
注意:
n>=40,且
E全部>=5則使用Pearson卡方;
n>=40但其中有1個(gè)格子出現(xiàn)1<=E<5則使用yates連續(xù)性校正卡方;
任何一格子出現(xiàn)E
<1或n<40則使用Fisher卡方(僅2*2表格使用)。
2多獨(dú)立樣本R*C表格卡方檢驗(yàn)
R行,C列(R,C中任意一個(gè)大于2)表格資料卡方檢驗(yàn),用于分析兩定類數(shù)據(jù)之間的差異性,與四格表卡方檢驗(yàn)類似,但無法確定具體哪兩組數(shù)據(jù)之間存在差異,需要進(jìn)行多重比較,常采用Bonferroni法進(jìn)行兩兩組別之間的多重比較。SPSSAU卡方檢驗(yàn)會自動輸出多重比較分析結(jié)果。
資料示例:下圖展示了3*2表格卡方檢驗(yàn)結(jié)果:
利用卡方檢驗(yàn)研究不同療法的治療效果的差異性,從上表可以看出:卡方值為21.038,p值小于0.05,說明不同療法的治療效果呈現(xiàn)出顯著差異性。具體兩兩組別的差異性可查看下方多重比較結(jié)果。
分析上表可知,外用膏藥組、物理療法組、藥物治療組,兩兩組別之間進(jìn)行多重比較,治療效果均呈現(xiàn)出顯著差異性。
3、卡方擬合優(yōu)度
卡方擬合優(yōu)度用于分析數(shù)據(jù)的實(shí)際比例與預(yù)期比例是否一致,它只針對于類別數(shù)據(jù),比如性別、職業(yè)、學(xué)歷等。比如預(yù)期收集的樣本男女比例為6:4,那么預(yù)期比例與實(shí)際收集的樣本男女比例是否一致?就可以使用卡方擬合優(yōu)度檢驗(yàn)分析。
同時(shí),卡方擬合優(yōu)度檢驗(yàn)常用于問卷多選題分析,用于分析多選題選項(xiàng)被選擇比例是否有差異。后面在卡方檢驗(yàn)應(yīng)用部分也會進(jìn)行詳細(xì)說明。
資料示例:下圖展示了卡方擬合優(yōu)度檢驗(yàn)結(jié)果:
針對體型進(jìn)行卡方擬合優(yōu)度檢驗(yàn),研究樣本數(shù)據(jù)分布是否與期望分布保持一致,從上表可以看出:體型全部均沒有呈現(xiàn)顯著性(卡方值為7.018,p>0.05),說明樣本體型分布與預(yù)期比例一致。
4、配對設(shè)計(jì)資料卡方檢驗(yàn)
配對卡方檢驗(yàn)用于分析兩配對定類數(shù)據(jù)的差異,比如使用兩種方法對同一批患者進(jìn)行診斷(診斷結(jié)果為陽性&陰性),判斷兩種方法的診斷結(jié)果是否有差異,可以使用配對卡方檢驗(yàn)進(jìn)行分析。
資料示例:下圖展示了配對卡方檢驗(yàn)結(jié)果:
分析上表可知,使用配對卡方檢驗(yàn)分析甲法、乙法診斷結(jié)果的差異性,從配對卡方分析結(jié)果可以看出,p=0.022<0.05,說明甲、乙兩種方法的檢測結(jié)果有顯著差異。
5、分層卡方檢驗(yàn)
分層卡方是在卡方檢驗(yàn)基礎(chǔ)上進(jìn)一步考慮分層項(xiàng)的干擾(混雜因素)。比如想要調(diào)查某一地區(qū)接種疫苗(X)對感染病毒 (Y)的影響,由此來判斷疫苗的有效性;但考慮到男性、女性體質(zhì)的不同,疫苗可能會造成不一樣的抵抗病毒能力,因此將性別 (Z)作為分層項(xiàng)來進(jìn)行分析。就可以使用分層卡方檢驗(yàn)進(jìn)行分析。
針對分層卡方,涉及到的理論知識比較多,如下表格說明:
通常情況下,首先查看‘比值比齊性檢驗(yàn)’,如果其呈現(xiàn)出顯著性(p值小于0.05),則說明具有混雜因素,即需要考慮分層項(xiàng),即分別查看不同分層項(xiàng)下的數(shù)據(jù)結(jié)果。反之如果沒有通過‘比值比齊性檢驗(yàn)’,即說明沒有混雜因素不需要考慮分層項(xiàng),報(bào)告整體的結(jié)果即可(包括卡方檢驗(yàn),以及OR值)。
對于分層卡方檢驗(yàn)的更多內(nèi)容,建議參考SPSSAU幫助手冊說明,內(nèi)容較多,不在這里進(jìn)行說明。https://spssau.com/helps/medicalmethod/layerchi.html
卡方檢驗(yàn)分析
上面介紹了5類卡方檢驗(yàn)及其簡單的分析過程,接下來通過一個(gè)具體的卡方檢驗(yàn)的示例,詳細(xì)介紹一下卡方檢驗(yàn)的分析過程。包括卡方檢驗(yàn)需要的數(shù)據(jù)格式、軟件的操作、分析結(jié)果的詳細(xì)解讀、具體差異的對比、效應(yīng)量的分析、多重比較如何分析等。
1數(shù)據(jù)格式
使用軟件進(jìn)行卡方檢驗(yàn)分析時(shí),需要注意卡方檢驗(yàn)的數(shù)據(jù)格式。一般來講可分為3種,分別是常規(guī)格式、加權(quán)格式、列聯(lián)表格式。
(1)常規(guī)格式
一行代表一個(gè)樣本,一列代表一個(gè)屬性,將全部的原始數(shù)據(jù)信息列出即可,使用數(shù)字代表定類數(shù)據(jù)的類別,如下圖所示:
(2)加權(quán)格式
在實(shí)際研究中,很多時(shí)候沒有原始數(shù)據(jù),此時(shí)就應(yīng)該使用匯總數(shù)據(jù),即帶加權(quán)項(xiàng)的數(shù)據(jù)。比如下圖中X分為2類,Y分為3類,一種有2*3=6種組合,數(shù)據(jù)信息只有6種組別的匯總項(xiàng)(即加權(quán)項(xiàng)),分別是40,10,20,30,20,50;相當(dāng)于總共有170個(gè)樣本,如果是使用常規(guī)格式(即非加權(quán)格式),此時(shí)應(yīng)該有170行;但加權(quán)格式則只需要6行即可表示,如下圖所示:
(3)列聯(lián)表格式
以上兩種數(shù)據(jù)格式是非常常用的,除此之外,在使用SPSSAU的Fisher卡方進(jìn)行分析時(shí),還會涉及到列聯(lián)表格式數(shù)據(jù)。其本質(zhì)也是加權(quán)數(shù)據(jù)的一種類型,只是以列聯(lián)表的形式直接輸入到軟件中進(jìn)行分析。在編輯數(shù)據(jù)時(shí)需要注意,A1單元格一定要空著,并且放入的數(shù)據(jù)不包括合計(jì)數(shù)據(jù)。如下圖所示:
2、軟件操作
(1)SPSSAU位置
SPSSAU在以下6個(gè)部分提供卡方檢驗(yàn)的不同方法,如下圖:
①SPSSAU【通用方法】->【交叉(卡方)】,此處分析最為簡單,僅提供卡方檢驗(yàn)結(jié)果,以及相應(yīng)的可視化圖形,不會輸出額外的指標(biāo)及計(jì)算過程等。
②SPSSAU【實(shí)驗(yàn)/醫(yī)院研究】模塊,提供【卡方檢驗(yàn)】【配對卡方】【卡方擬合優(yōu)度】【分層卡方】【Fisher卡方】5類卡方檢驗(yàn)。
(2)SPSSAU操作
以R*C表格卡方檢驗(yàn)為例,使用SPSSAU【實(shí)驗(yàn)/醫(yī)學(xué)研究】模塊【卡方檢驗(yàn)】進(jìn)行分析。
案例背景:某年級想要研究重點(diǎn)班與普通班學(xué)習(xí)成績(優(yōu)秀、及格、不及格)之間是否有差異,以及具體的差異在哪部分,收集的數(shù)據(jù)如下:
分析:很顯然,這是一個(gè)2*3表格資料卡方檢驗(yàn),從已知數(shù)據(jù)可知,數(shù)據(jù)格式為加權(quán)格式,故將數(shù)據(jù)整理成如下格式:
上傳數(shù)據(jù)至SPSSAU系統(tǒng),在【實(shí)驗(yàn)/醫(yī)學(xué)研究】模塊,選擇【卡方檢驗(yàn)】,拖拽變量至右側(cè)相應(yīng)分析框,操作如下圖:
【提示】:從實(shí)際意義上來講,卡方檢驗(yàn)是會區(qū)分X與Y的,但是在算法角度是不區(qū)分X與Y的。放置位置不同只會影響表格的輸出格式,不會影響卡方檢驗(yàn)分析結(jié)果。分析時(shí)可選擇“百分比(按列)”或者“百分比(按行)”,二者的差別在于表格內(nèi)數(shù)據(jù)按行加和為100%還是按列加和為100%,試個(gè)人分析角度決定,無固定標(biāo)準(zhǔn),并不會影響卡方檢驗(yàn)的分析結(jié)果。
3、結(jié)果解讀
本案例數(shù)據(jù)卡方檢驗(yàn)分析結(jié)果如下:
(1)先看p值
首先看p值是否呈現(xiàn)出顯著性(p值小于0.05或小于0.01),若呈現(xiàn)出顯著性則說明應(yīng)該拒絕原假設(shè)(卡方檢驗(yàn)原假設(shè)為兩定類數(shù)據(jù)之間無差異)。若p值大于0.05,則無差異,分析停止。本案例卡方值為32.752,對應(yīng)p值小于0.01,說明差異具有顯著性,即普通班與重點(diǎn)班的成績具有顯著差異。
(2)具體差異對比
括號內(nèi)百分比對比
分析具有顯著差異時(shí),具體可對比卡方檢驗(yàn)結(jié)果中括號內(nèi)百分比描述具體差異。本案例數(shù)據(jù)按列加和為100%,具體分析可知:普通班中,成績及格人數(shù)占比最高為50%,優(yōu)秀人數(shù)占比最少為23.684%。重點(diǎn)班中,成績優(yōu)秀的人數(shù)占比最高為64.516%,不及格人數(shù)占比最少為16.129%。同時(shí)也可以結(jié)合SPSSAU可視化圖案進(jìn)行直觀對比,如下圖:
如果想要橫向?qū)Ρ?,也可以在分析時(shí)選擇“百分比(按行)”,在這里不再過多闡述。除使用括號內(nèi)百分比具體對比差異,還可使用效應(yīng)量指標(biāo)描述差異幅度。
效應(yīng)量指標(biāo)
卡方檢驗(yàn)的效應(yīng)量指標(biāo)主要用于分析兩個(gè)或多個(gè)分類變量之間的差異幅度,它的取值范圍在0到1之間,效應(yīng)量值越大說明差異幅度越大,通常情況下效應(yīng)量小、中、大的區(qū)分臨界點(diǎn)分別是: 0.20、0.50和0.80。
SPSSAU卡方檢驗(yàn)?zāi)J(rèn)會提供5類效應(yīng)量指標(biāo),本文對各指標(biāo)具體原理和計(jì)算公式不做深入探討,SPSSAU輸出效應(yīng)量指標(biāo)結(jié)果如下:
效應(yīng)量指標(biāo)的選擇需要結(jié)合交叉表格類型以及數(shù)據(jù)類型進(jìn)行選擇,選擇標(biāo)準(zhǔn)如下:
本案例為2*3表格,應(yīng)該使用Cramer V指標(biāo)。Cramer V值為0.405,表示重點(diǎn)班和普通班的成績存在中等程度的差異。
(3)多重比較
卡方檢驗(yàn)的結(jié)果只能知道整體是否存在差異,無法對比兩兩組合之間的差異情況,如果需要具體對比兩兩組合之間的差異,需要使用多重比較進(jìn)行分析。多重比較的次數(shù)=C(X類別個(gè)數(shù))*C(Y類別個(gè)數(shù)),比如X類別為3,Y類別個(gè)數(shù)為5,則為C(3,2)*C(5,2)=30次。
在多重比較時(shí),通常使用Pearson卡方檢驗(yàn)。然而,隨著多重比較次數(shù)的增加,一類錯(cuò)誤的概率也會增加。因此,建議在顯著性水平為0.05的情況下,使用校正顯著性水平(Bonferroni校正)來進(jìn)行分析。例如,如果兩兩比較次數(shù)為3次,那么Bonferroni校正顯著性水平為0.05/3次=0.0167,即p值需要與0.0167進(jìn)行對比,而不是0.05。
比如本案例中,要分析具體差異在于優(yōu)秀與及格之間,還是優(yōu)秀與不及格之間,或者及格與不及格之間,查看多重比較結(jié)果如下:
從上表可以看出,普通班與重點(diǎn)班成績不及格與優(yōu)秀之間、優(yōu)秀與及格之間的差異均呈現(xiàn)出顯著性(p值小于Bonferroni校正顯著性水平為0.0167)。而成績不及格與及格之間差異并未呈現(xiàn)出顯著性,那么可以認(rèn)為,普通班與重點(diǎn)班的成績差異主要在于優(yōu)秀成績的人數(shù)上。
(4)卡方檢驗(yàn)統(tǒng)計(jì)量過程值
在前面講卡方檢驗(yàn)適用條件時(shí)有提到3類卡方統(tǒng)計(jì)量的選擇問題(非專業(yè)選手可忽略),SPSSAU【實(shí)驗(yàn)/醫(yī)學(xué)研究】模塊的【卡方檢驗(yàn)】結(jié)果會自動輸出卡方檢驗(yàn)統(tǒng)計(jì)量過程值,用于判斷卡方統(tǒng)計(jì)量,如下圖:
分析上表可知,本案例數(shù)據(jù)為2*3表格,理論頻數(shù)E≥5格子占比為100%,因此使用Pearson卡方,即本案例輸出的卡方結(jié)果為Pearson卡方。
四、卡方檢驗(yàn)應(yīng)用
卡方檢驗(yàn)不僅可用于差異性分析,在其他方面均有不同的應(yīng)用。比如用于問卷多選題分析、logistic回歸分析前篩選變量、可視化分析、判斷是否存在線性趨勢等,接下來將分為進(jìn)行介紹。
1、多選題分析
多選題分析:首先在單獨(dú)對多選題進(jìn)行分析時(shí),使用的是卡方擬合優(yōu)度檢驗(yàn),分析多選題的各選項(xiàng)被選擇比例是否一致,如下圖,為SPSSAU多選題分析結(jié)果:
從卡方擬合優(yōu)度檢驗(yàn)結(jié)果可以看出,各選項(xiàng)被選擇比例有顯著差異,百分比選擇分布不均勻(卡方值為225.749,p=<0.05)。
單選-多選分析:在進(jìn)行單選題與多選題的交叉分析時(shí),也會涉及到卡方檢驗(yàn)(具體為Pearson卡方),如下圖,為SPSSAU單選-多選分析結(jié)果:
從卡方檢驗(yàn)結(jié)果可以看出,對于共6項(xiàng)表示的多選題,性別并未表現(xiàn)出顯著的差異性,即男性和女性選擇課程的原因并不存在差異性。
同理,多選-多選交叉分析中,也涉及卡方檢驗(yàn),在此不再進(jìn)行贅述。
2、logistic回歸分析
當(dāng)因變量Y為定類數(shù)據(jù)時(shí),研究X對Y的影響關(guān)系應(yīng)該使用logistic回歸分析。當(dāng)自變量非常多時(shí),首先應(yīng)該進(jìn)行自變量的篩選,篩選出對Y有影響的X放入回歸模型中。當(dāng)自變量為定量數(shù)據(jù)時(shí),使用方差分析或t檢驗(yàn)進(jìn)行變量的篩選;當(dāng)X為定類數(shù)據(jù)時(shí),應(yīng)該使用卡方檢驗(yàn)進(jìn)行變量的篩選。在進(jìn)行篩選時(shí),如果害怕遺漏重要變量,那么可以適當(dāng)將p值放大,如以0.1或0.15為標(biāo)準(zhǔn),將p值大于0.15的變量排除在外。
舉例:對二元logistic回歸分析的因變量Y與定類變量X1-X4進(jìn)行卡方檢驗(yàn),結(jié)果如下:
從上表可知,除X4外,X1、X2、X3與Y之間的差異均為呈現(xiàn)出顯著性,那么在進(jìn)行l(wèi)ogistic回歸分析前,就需要考慮是否有必要將X1、X2、X3放入模型中。
3、可視化分析
(1)交叉匯總圖
卡方檢驗(yàn)的選擇百分比差異性可通過圖形進(jìn)行直觀的展示,SPSSAU進(jìn)行卡方檢驗(yàn)時(shí)也會自動輸出對應(yīng)的交叉圖,比較基礎(chǔ)的如柱形圖、條形圖、堆積柱形圖、堆積條形圖等。
SPSSAU輸出交叉圖如下,可通過右上角按鈕切換圖形展示方式。
(2)對應(yīng)分析
除基礎(chǔ)的柱形圖外,與卡方檢驗(yàn)相關(guān)的可視化圖形還有對應(yīng)分析中得到的對應(yīng)圖。如果希望使用圖形直觀展示關(guān)系情況,也或者想研究多個(gè)分類數(shù)據(jù)間的關(guān)系,并且使用圖形直觀展示,而且還需要看出類別間的具體關(guān)系情況。此時(shí)則可以使用對應(yīng)分析。
對應(yīng)分析是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。其基本思想是將一個(gè)列聯(lián)表的行和列中各元素的比例結(jié)構(gòu)以點(diǎn)的形式在較低維的空間中表示出來。
舉例說明:研究不同收入水平人群收集品牌偏好的差異,使用SPSSAU【問卷研究】模塊的【對應(yīng)分析】進(jìn)行分析,得到分析結(jié)果包括“對應(yīng)表”以及“對應(yīng)圖”分別如下:
可以看到,對應(yīng)表分析結(jié)果即為卡方檢驗(yàn)的分析結(jié)果。
對應(yīng)圖的分析:
①離原點(diǎn)越遠(yuǎn),意味著該點(diǎn)對于‘關(guān)系幅度’的表達(dá)越強(qiáng),即說明該點(diǎn)越能體現(xiàn)出‘關(guān)系’。
②點(diǎn)與點(diǎn)之間挨著越近,意味著它們之間關(guān)聯(lián)關(guān)系越強(qiáng);點(diǎn)與點(diǎn)之間挨著越遠(yuǎn),意味著它們之間關(guān)聯(lián)關(guān)系越弱。
分析上圖可知,低收入群體與手機(jī)B、E品牌之間有著較強(qiáng)關(guān)系;中等收入群體與手機(jī)D品牌之間有著較強(qiáng)關(guān)系;高收入群體與A、C、F這3個(gè)手機(jī)品牌之間有著較強(qiáng)關(guān)系。另外,低收入和B、E品牌,它們離原點(diǎn)的距離較遠(yuǎn),意味著低收入與B、E品牌之間的關(guān)系非常明顯。
4、趨勢卡方檢驗(yàn)線性趨勢
卡方檢驗(yàn)還可用于分析列聯(lián)表數(shù)據(jù)的趨勢差異關(guān)系,具體方法為Cochran-Armitage 趨勢卡方檢驗(yàn)。比如你想要分析患肺癌的比例是否會隨著年齡的增大而出現(xiàn)增加的趨勢(這里年齡為分階段的定類數(shù)據(jù)),就可以使用Cochran-Armitage 趨勢卡方檢驗(yàn)進(jìn)行分析。
Cochran-Armitage 趨勢卡方檢驗(yàn)通常用于k*2(或2*k)的列聯(lián)表結(jié)構(gòu),k為有序定類數(shù)據(jù),2指兩個(gè)類別。如果p值小于0.05則說明k組間呈現(xiàn)出某種趨勢變化;如果p值大于0.05則說明k組間不會呈現(xiàn)出趨勢變化。
在SPSSAU【卡方檢驗(yàn)】進(jìn)行分析時(shí),默認(rèn)會輸出Cochran-Armitage 趨勢卡方檢驗(yàn)結(jié)果,如下圖:
從上表可知,趨勢卡方檢驗(yàn)p值大于0.05,說明不同年齡段患肺癌的比例并沒有呈現(xiàn)出趨勢變化。若呈現(xiàn)出趨勢變化,則可對比卡方檢驗(yàn)結(jié)果中的百分比進(jìn)行具體描述。
五、參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)
很多同學(xué)不明白為什么卡方檢驗(yàn)屬于非參數(shù)檢驗(yàn),下面簡單補(bǔ)充一下參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn)的內(nèi)容。
1、基本說明
參數(shù)檢驗(yàn)是假定樣本總體為某一已知分布的情況下,對總體參數(shù)如均值或者方差進(jìn)行估計(jì)和檢驗(yàn)的方法。與參數(shù)檢驗(yàn)相對的是非參數(shù)檢驗(yàn),非參數(shù)檢驗(yàn)并不對總體的分布形態(tài)做假定,此時(shí)不能進(jìn)行參數(shù)間的比較,而是做分布間的比較。
2、對比
(1)檢驗(yàn)指標(biāo)對比
參數(shù)檢驗(yàn):假設(shè)數(shù)據(jù)服從某種特定的分布,例如正態(tài)分布,并且總體參數(shù)是已知的。因此,參數(shù)檢驗(yàn)通常關(guān)注的是樣本均值與總體均值的差異,以檢驗(yàn)樣本數(shù)據(jù)是否符合預(yù)期的分布。
非參數(shù)檢驗(yàn):不需要數(shù)據(jù)符合特定的分布,而是基于數(shù)據(jù)本身的分布來推斷總體參數(shù)。非參數(shù)檢驗(yàn)通常關(guān)注的是數(shù)據(jù)的次序而不是具體的值,例如中位數(shù)、四分位數(shù)等。
(2)優(yōu)缺點(diǎn)對比
參數(shù)檢驗(yàn):優(yōu)點(diǎn)在于符合條件時(shí),檢驗(yàn)效率高。然而,它對數(shù)據(jù)的要求較為嚴(yán)格,如等級數(shù)據(jù)、非確定數(shù)據(jù)不能使用參數(shù)檢驗(yàn),而且要求數(shù)據(jù)的分布型已知和總體方差相等。此外,參數(shù)檢驗(yàn)不適用于樣本量較小且分布未知的情況。當(dāng)樣本量足夠大時(shí),參數(shù)檢驗(yàn)的方法對非正態(tài)分布的數(shù)據(jù)也能夠很好地進(jìn)行處理,因?yàn)闃颖揪档姆植几鶕?jù)中心極限定理是近似正態(tài)分布。
非參數(shù)檢驗(yàn):優(yōu)點(diǎn)在于不受總體分布的限制,對數(shù)據(jù)的要求不嚴(yán)格,應(yīng)用范圍廣、簡便、易掌握。缺點(diǎn)在于若對符合參數(shù)檢驗(yàn)條件的數(shù)據(jù)用非參數(shù)檢驗(yàn),則檢驗(yàn)效率低于參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn)主要使用等級或者符號秩,而不是使用原始數(shù)據(jù),會損失部分信息,降低統(tǒng)計(jì)檢驗(yàn)效率,導(dǎo)致犯第二類錯(cuò)誤的概率比參數(shù)檢驗(yàn)大。此外,當(dāng)樣本量較小且分布未知時(shí),通常會考慮使用非參數(shù)檢驗(yàn)。
3、常用方法對比
常用方法對比如下:
4、差異性分析的其他方法
卡方檢驗(yàn)用于分析定類數(shù)據(jù)之間的差異性,如果要分析定類與定量數(shù)據(jù)之間的差異性,應(yīng)該使用方差分析或者t檢驗(yàn)進(jìn)行分析。對比說明如下: