一文帶你全方位理解卡方檢驗
一、基本概念:卡方檢驗
(一)定義
卡方檢驗主要用于研究定類與定類數(shù)據(jù)之間的差異關(guān)系。一般使用卡方檢驗進行分析的目的是比較差異性。例如研究人員想知道兩組學生對于手機品牌的偏好差異情況。
(二)卡方值
卡方值表示觀察值與理論值之間的偏離程度。
卡方值的大小與樣本量(自由度)有關(guān)。一般來說,卡方值越大越好,但并不準確。比如5000和5010的差異為10;40和50的差異為10,明顯后者差異更大。
最終查看卡方值對應的 p 值更準確。
二、卡方檢驗分類
(一)方法分類
SPSSAU系統(tǒng)中,卡方檢驗分為【通用方法】中的交叉卡方,以及【醫(yī)學/研究】模塊中的卡方檢驗、配對卡方、卡方擬合優(yōu)度、分層卡方五類。
(二)方法對比
(1) 交叉卡方
適用于大部分場景之中,滿足大部分用戶需求,使用頻率高,僅使用Pearson卡方,不支持加權(quán)數(shù)據(jù)。
交叉卡方僅輸出一個交叉卡方分析結(jié)果如下圖:
可以看到卡方值為16.667,p =0.000<0.01,所以不同地區(qū)的飲食習慣情況呈現(xiàn)出顯著性差異。
(2) 卡方檢驗
適用于實驗醫(yī)學研究方向,專業(yè)性更強,使用頻率高。
從上表可知,利用卡方檢驗(交叉分析)去研究減肥方式對于膽固醇水平共1項的差異關(guān)系【獨立性】,不同減肥方式樣本對于膽固醇水平共1項呈現(xiàn)出顯著性(p <0.05)。
總結(jié)可知:不同減肥方式樣本對于膽固醇水平全部均呈現(xiàn)出顯著性差異。
①Pearson卡方、yates校正卡方、Fisher卡方三類卡方,具體選擇標準如下圖
上表格為卡方檢驗的中間過程值,由于本案例數(shù)據(jù)為3*2格式,且1 <=E<5 格子的比例大于20%(此處為33.33%),因而最終選擇使用yates校正卡方值。
【特別備注: Pearson卡方和yates校正卡方完全相同是正?,F(xiàn)象,多數(shù)情況下二者完全相等】
② 加權(quán)數(shù)據(jù)
數(shù)據(jù)格式如下
③效應量指標(研究差異幅度情況,效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區(qū)分臨界點分別是 0.20,0.50 和 0.80)卡方檢驗時,通常有5個指標均可表示效應量大小,區(qū)別在于使用場合不一樣,選擇標準如下圖:
上表格為效應量指標,由于本案例數(shù)據(jù)為3*2格式,所以使用Cramer V 研究差異幅度情況。Cramer V =0.47,說明各減肥方式下膽固醇水平差異接近中等水平。
④卡方檢驗多重比較(多重比較得到多個卡方值,比較更加全面,通常在醫(yī)學研究中使用,且類別數(shù)量較少時使用)
卡方檢驗多重比較指兩兩類別組合(每個組合共4個數(shù)字)重復進行卡方檢驗; 多重比較的次數(shù)=C(X類別個數(shù))*C(Y類別個數(shù)),比如X類別為3,Y類別個數(shù)為5,則為C(3,2)*C(5,2)=30次;
- SPSSAU僅針對第1個Y進行,可通過更換Y的位置實現(xiàn)其它分析項的多重比較,X或Y的選項個數(shù)大于10時不進行多重比較;
- 多重比較時提供的是Pearson卡方檢驗;
多重比較時,檢驗次數(shù)增多會增加一類錯誤的概率,建議使用校正顯著性水平(Bonferroni校正);如果顯著性水平為0.05,并且兩兩比較次數(shù)為3次,那么Bonferroni校正顯著性水平為0.05/3次=0.0167,即 p 值需要與0.0167進行對比,而不是0.05;
【特別提示:多重比較通常在醫(yī)學研究中使用,且類別數(shù)量較少時使用】
⑤ 趨勢卡方檢驗(Cochran-Armitage 趨勢卡方檢驗(Linear-by-Linear)研究k*2(或2*k)列聯(lián)表數(shù)據(jù)的趨勢差異關(guān)系;通常用于k*2(或2*k)的列聯(lián)表結(jié)構(gòu),k為有序定類數(shù)據(jù),2指兩個類別)
- 如果
p
值小于0.05則說明k組間呈現(xiàn)出某種趨勢變化;
- 如果
p
值大于0.05則說明k組間不會呈現(xiàn)出趨勢變化;
SPSSAU默認均提供趨勢卡方檢驗(Linear-by-Linear)結(jié)果,但需要注意使用此指標的前提條件。
(3)
配對卡方
配對卡方研究配對定類數(shù)據(jù)間的差異關(guān)系,適用于兩配對數(shù)據(jù)的比較,使用頻率低,提供McNemar檢驗與Bowker檢驗,選擇標準如下:
本次配對對比類別數(shù)量為2(即配對四表格),因而使用McNemar檢驗進行研究。配對數(shù)據(jù)之間呈現(xiàn)0.05水平的顯著性(chi=2.000,p=0.022<0.05),意味著配對數(shù)據(jù)間有著明顯的差異性。
總結(jié)可知:使用McNemar檢驗研究A方法共有兩種結(jié)果和B方法共有兩種結(jié)果之間的差異性,分析顯示配對數(shù)據(jù)間呈現(xiàn)出顯著性差異。
(4) 卡方擬合優(yōu)度檢驗
卡方擬合優(yōu)度檢驗研究定類數(shù)據(jù)的頻數(shù)分布是否與期望頻數(shù)保持一致。
針對性別進行卡方擬合優(yōu)度檢驗,研究數(shù)據(jù)分布是否與期望分布保持一致,從上表可以看出:性別全部均沒有呈現(xiàn)顯著性(p >0.05),意味著接受原假設(shè)(原假設(shè):實際分布比例與預期比例一致),即數(shù)據(jù)分布與預期一致。
(5) 分層卡方
分層卡方研究X與Y之間的差異時,進一步研究是否存在擾動因素項Factor項。
針對分層卡方,其涉及的理論知識內(nèi)容,如下表格:
通常情況下,首先查看 "比值比齊性檢驗",如果其呈現(xiàn)出顯著性(p < 0.05),則說明具有混雜因素,即需要考慮分層項,分別查看不同分層項下的數(shù)據(jù)結(jié)果。反之如果沒有通過 "比值比齊性檢驗",即說明沒有混雜因素不需要考慮分層項,報告整體的結(jié)果即可(包括卡方檢驗,以及OR值)。
三、卡方檢驗應用
(一)分析步驟
(1)分析X分別與Y之間是否呈現(xiàn)出顯著性(p 值小于0.05或0.01);
(2)如果呈現(xiàn)出顯著性,具體對比選擇百分比(括號內(nèi)值),描述具體差異所在;未呈現(xiàn)出顯著性則停止分析;
(3)對分析進行總結(jié)。
(二)多選題分析中的應用
(1)卡方擬合優(yōu)度:多選題,檢驗各選項選擇比例是否有顯著性差異
從上表可以看出,各選項選擇沒有顯著差異,百分比選擇分布較均勻(chi=5.947,p=0.203>0.05)。
(2)Pearson卡方:單選-多選,交叉差異檢驗
從上表可以看出,性別對于共五項表示的多選題并不會呈現(xiàn)出顯著差異性(chi=1.208,p=0.877>0.05)。
(3)Pearson卡方:多選-多選,交叉差異檢驗
從上表可以看出,兩個多選題之間并沒有明顯的關(guān)聯(lián)關(guān)系,百分比選擇分布較均勻(chi=0.732,p=1.000>0.05)。
四、數(shù)據(jù)格式
卡方檢驗數(shù)據(jù)格式可分為常規(guī)格式與加權(quán)格式兩類。
上述五類卡方檢驗方法,除交叉卡方外,其余四類卡方檢驗均支持加權(quán)數(shù)據(jù)格式。
(1)常規(guī)格式
一行代表一個樣本,如果有100個樣本即為100行;一列代表一個屬性;這類格式最為常見,而且此類數(shù)據(jù)格式可以做任何的分析。因為其攜帶著所有最原始的數(shù)據(jù)信息。
(2)加權(quán)格式
例如:膽固醇水平有2項,減肥方式有3項,因而為3*2共6種組合,則一定需要有6行,并且一定為3列,最后一列叫‘加權(quán)項’,這樣的數(shù)據(jù)格式上傳到SPSSAU后進行分析即可。
五、差異幅度
- p
值越小,差異幅度越大;
效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區(qū)分臨界點分別是: 0.20,0.50 和 0.80。
六、定量數(shù)據(jù)做卡方檢驗
卡方檢驗主要用來研究定類與定類數(shù)據(jù)間差異關(guān)系的;
那么定量數(shù)據(jù)能否進行卡方檢驗呢?此時可以分為以下三種情況討論:
(1)定量數(shù)據(jù)可以轉(zhuǎn)化為定類數(shù)據(jù)(可以進行卡方檢驗)
① 自動按分位數(shù)分組
例如:想讓樣本數(shù)據(jù)按五分位數(shù)進行分樣本處理; 第一步將數(shù)據(jù)按照指定變量從小到大排列; 第二步分別找到20%分位點、40%分位點、60%分位點、和80%分位點; 第三步將小于20%分位點的全部取值為1,20%-40%取值為2,60%-80%取值為3,80%以上取值為4。
② 按實際意義分組
例如:本科以下、本科以上兩組; 20歲以下、20-30歲、30歲以上。
(2)定量和定類模糊(視研究偏好而定)
例如:量表數(shù)據(jù),比如非常不滿意,不滿意,一般,滿意和非常滿意
(3)定量不可轉(zhuǎn)化為定類數(shù)據(jù)(不可以進行卡方檢驗)
如果研究定類與定量數(shù)據(jù)之間的關(guān)系,此時應該使用方差或者T檢驗。
差異關(guān)系研究方法選擇見下表: