卡方檢驗匯總
一、卡方檢驗基本說明
有時,在研究中某個隨機變量是否服從某種特定的分布是需要進行檢驗的??梢愿鶕?jù)以往的經(jīng)驗或者實際的觀測數(shù)據(jù)分布情況,推測總體可能服從某種分布函數(shù)F(x)。卡方檢驗就是這樣一種用來檢驗給定的概率值下數(shù)據(jù)來自同一總體的無效假設(shè)方法。通常的卡方檢驗可以用來研究分析定類數(shù)據(jù)與定類數(shù)據(jù)之間的關(guān)系情況。
在卡方檢驗中,通常檢驗的統(tǒng)計量chi^{2}如下:
【chi^{2}=sum rac{(A-E)^{2}}{E}=sum_{i=1}^{k} rac{left(A_{i}-E_{i} ight)^{2}}{E_{i}}=sum_{i=1}^{k} rac{left(A_{i}-n p_{i} ight)^{2}}{n p_{i}}(mathrm{i}=1,2,3, ldots, mathrm{k})】
其中A代表某個類別的觀察頻數(shù),E代表基于H0計算出的期望頻數(shù),Ai為i水平的觀察頻數(shù),Ei為i水平的期望頻數(shù),n為總頻數(shù),pi為i水平的期望頻率。當n比較大時,χ2統(tǒng)計量近似服從k-1個自由度的卡方分布。從公式來講一般卡方值相對越大越好。
二、卡方檢驗類別
卡方檢驗?zāi)壳癝PSSAU提供的方法可以分為5類,其中包括卡方檢驗、卡方擬合優(yōu)度、配對卡方、分層卡方以及趨勢卡方。其中pearson卡方使用的相對較多。
1卡方檢驗
卡方檢驗SPSSAU可以通過【通用方法】交叉(卡方)進行,也可以通過【醫(yī)學實驗研究】卡方檢驗進行。二者的區(qū)別是【醫(yī)學實驗研究】卡方檢驗輸出更多指標。【通用方法】交叉(卡方)相對使用更多。
2卡方擬合優(yōu)度檢驗
卡方擬合優(yōu)度檢驗是一種非參數(shù)檢驗方法,其用于研究實際比例情況,是否與預(yù)期比例表現(xiàn)一致,它只針對于類別數(shù)據(jù)。比如總共收集100份數(shù)據(jù),其中男性為48個,女性為52個;在收集數(shù)據(jù)之前預(yù)期男女比例應(yīng)該是4:6 (40%為男性,60%為女性),那么預(yù)期的比例是否與實際的比例有著明顯的差異性。
3配對卡方
如果是配對數(shù)據(jù),并且對比的數(shù)據(jù)為定類數(shù)據(jù),因而需要使用配對卡方檢驗,從數(shù)學角度也能將稱呼分為 McNemar檢驗或者Bowker檢驗,二者的區(qū)別如下:
4分層卡方
在實際研究中,只研究兩個分類變量往往具有局限性,因為混雜因素總是存在,如果不研究混雜因素,結(jié)論可能存在偏差。為了解決此問題我們引出了分層卡方檢驗也稱CMH檢驗。比如是否吸煙(X)與是否生病(Y)的關(guān)系時,將性別納入考慮范疇(即混雜因素,分層項Factor)。
5趨勢卡方
醫(yī)學研究中,有序定類數(shù)據(jù)的關(guān)系研究 Cochran-Armitage,用于k*2(或2*k)的結(jié)構(gòu) k為有序定類數(shù)據(jù),2指兩個類別。
三、SPSSAU卡方檢驗
由于卡方檢驗類別過多,所以這里針對常用的卡方檢驗進行說明。案例簡單背景:研究不同學歷對是否購買某品牌筆記本電腦是否存在差異。
3.1整理數(shù)據(jù)格式
在做數(shù)據(jù)分析前,首先要將數(shù)據(jù)整理成正確的數(shù)據(jù)格式,滿足SPSSAU卡方檢驗的數(shù)據(jù)格式一共有兩種,一種是常規(guī)格式,另一種是加權(quán)格式。
常規(guī)格式:
卡方檢驗,x、y都為定類數(shù)據(jù),上圖為常規(guī)格式,一行代表一個樣本,一列代表一個屬性,將全部的原始數(shù)據(jù)信息列出即可。
加權(quán)格式:
加權(quán)數(shù)據(jù)格式基本只針對全部是定類數(shù)據(jù)的研究時使用,SPSSAU支持常規(guī)格式和加權(quán)格式兩種數(shù)據(jù)。常規(guī)格式提供所有的原始數(shù)據(jù)信息,而加權(quán)格式只提供匯總數(shù)據(jù)信息。
3.2操作
將整理好的數(shù)據(jù)格式,上傳到SPSSAU系統(tǒng)內(nèi),將分析項拖拽到對應(yīng)分析框中即可。操作如下:
3.3 卡方檢驗結(jié)果分析
一般流程如下:
從上表分析可知,p值約為0.029小于0.05,所以研究學歷對于是否購買筆記本電腦有顯著性差異,其中調(diào)查者中共有32個人,本科以下的人最多共有12個,本科以上的人最少共有9個,但是總體差異不大,對于本科以下的人其中有10個人,不買該品牌筆記本電腦占比為83.33%,有2個人購買該品牌筆記本電腦占比為16.67%,差異比較明顯,不買該品牌筆記本的人較多,對于本科和本科以上學歷的人購買該筆記本的人比不買該筆記本人的占比大,由此可見,學歷對于是否購買該品牌筆記本有差異性。
接下來我們利用柱狀圖來分析:
從柱狀圖也可以看出本科以下學歷的人更多不買該品牌電腦,本科和本科以上學歷的人更多買該品牌電腦,所以學歷對于是否購買該品牌筆記本有差異性。同時也發(fā)現(xiàn)本科學歷和本科以上學歷對于是否購買該品牌筆記本差異性不明顯。
(來源于:SPSSAU https://zhuanlan.zhihu.com/p/499008852)
由于本案例數(shù)據(jù)為3*2格式,且1 <=E<5格子的比例大于20%(此處為33.33%),因而最終選擇使用yates校正卡方值。
補充說明:Pearson卡方和yates校正卡方完全相同是正?,F(xiàn)象,多數(shù)情況下二者完全相等。
3.4 事后多重比較
因為原模型中p值小于0.05具有顯著差異性,所以如果有需要可以進一步對分析項進行事后多重比較。
由上表可知,第一次事后多重比較是本科以下學歷和本科學歷進行比較。發(fā)現(xiàn)卡方值為5.316,p值小于0.05具有顯著差異性,其中卡方值計算如下:
第二次事后多重比較是本科以下學歷和本科以上學歷進行比較。發(fā)現(xiàn)p值小于0.05具有顯著差異性,同理,第三次比較是本科與本科以上進行比較,p值大于0.05,不具有顯著性差異。分析結(jié)束。
3.5 其它應(yīng)用
其中單選和多選題分析或者多選題和多選題交叉分析可以使用Pearso卡方,如果想要檢驗各現(xiàn)象百分比是否均勻可以使用卡方擬合優(yōu)度檢驗。
https://zhuanlan.zhihu.com/p/569736493多選題分析匯總
四、疑難解惑
如果數(shù)據(jù)是定量數(shù)據(jù)怎么進行卡方檢驗?
定類數(shù)據(jù)是否能夠轉(zhuǎn)化為定量數(shù)據(jù)一般看兩個方面,一種是自身不能轉(zhuǎn)變?yōu)槎惖?,一種是將定量數(shù)據(jù)轉(zhuǎn)為定類。還有一種是既可以看成定量數(shù)據(jù)又可以看成定類數(shù)據(jù)。具體如下: