基于JMP的分類資料組間比較的卡方檢驗

在前幾期的文章中,我們分別介紹了t檢驗、方差分析等用于組間均值比較的方法。今天的文章,我們來主要介紹一下常用于組間率或比例比較的方法——卡方檢驗。

為了幫助更多的臨床醫(yī)師學(xué)習(xí)如何運用JMP高效地開展數(shù)據(jù)分析,提高日常工作和發(fā)表論文的效率,2020年8月起,JMP資深用戶、JMP特約專欄作者、資深統(tǒng)計學(xué)家馮國雙博士及其團(tuán)隊將在JMP數(shù)據(jù)分析平臺為大家分享一系列統(tǒng)計及數(shù)據(jù)分析、JMP實戰(zhàn)操作、JMP分析報表解讀等干貨內(nèi)容,每期一個經(jīng)典話題,幫助大家掌握一個新技能。值得注意的是,這些話題并非僅針對臨床醫(yī)師,對所有運用JMP軟件開展數(shù)據(jù)分析的小伙伴都適用。本文為此系列文章的第15期。
大家一定要明確:
卡方檢驗盡管可以用于兩組或多組分類資料的比較,但僅用于結(jié)局為二分類或無序多分類的變量;
如果結(jié)局是等級資料,通常不用卡方檢驗,而是用秩和檢驗,這一部分我們將會在下一篇文章中為大家進(jìn)行詳細(xì)講解。
此外還要強調(diào)一點,卡方檢驗雖然可以用于組間的率或比例的比較,但并不是說卡方檢驗只能用于率或比例的比較。卡方檢驗還經(jīng)常用于擬合優(yōu)度檢驗,比較實際值與理論值(或預(yù)測值)的差異,所以常用于檢驗?zāi)骋粯颖臼欠駶M足特定分布、某一模型的預(yù)測效果好不好等等。
本文要介紹的是卡方檢驗用于組間比較的用途。
首先對實際中常見的幾種情形進(jìn)行一下總結(jié):
兩組或多組率的比較,即結(jié)局是二分類變量(如死亡和存活、陰性和陽性等),這種情況下,直接用卡方檢驗即可。
兩組或多組比例的比較,通常結(jié)局是無序多分類變量(如疾病的亞型等),這種情況下,也可以直接用卡方檢驗。
如果樣本數(shù)太少(一般認(rèn)為小于40就算太少),通常組間率或比例的比較不直接用卡方檢驗,而是建議用Fisher確切檢驗。
多組率或比例的比較,如果有統(tǒng)計學(xué)差異,還想進(jìn)一步作兩兩比較的話,常用Bonferroni法校正檢驗水準(zhǔn)。如A、B、C三組進(jìn)行兩兩比較,共需比較3次,則可分別對A和B、A和C、B和C執(zhí)行卡方檢驗,但是檢驗水準(zhǔn)不是0.05,而是0.05/3=0.0167,即三次比較以P<0.0167認(rèn)為有統(tǒng)計學(xué)差異。
多組率的比較,如果分組變量有等級順序,還可以考慮進(jìn)行趨勢卡方檢驗,觀察率是否隨著分組等級的增加而增加。
如果是配對設(shè)計,需要考慮配對卡方檢驗,這時的結(jié)果結(jié)論與普通的卡方檢驗不同。
01??兩組率的比較
我們將使用圖1所示的OSAS數(shù)據(jù)進(jìn)行講解。圖1數(shù)據(jù)中,擬比較肥胖人群和正常人群的OSAS發(fā)生率是否有差異。分組指標(biāo)和結(jié)局指標(biāo)均為分類變量,因此采用卡方檢驗。

選擇JMP菜單“分析→以X擬合Y“(圖2),進(jìn)入組間比較的界面。本例中肥胖為分組,OSAS為結(jié)果,所以在對話框中將“肥胖”放入“X,因子”,“OSAS”放入“Y,響應(yīng)”(圖3)。


JMP軟件自動輸出的結(jié)果包括三部分結(jié)果:馬賽克圖、列聯(lián)表和卡方檢驗結(jié)果。
我們來一一解讀這些結(jié)果。
@Part.1??馬賽克圖
第一部分是馬賽克圖(圖4),通過圖形直觀呈現(xiàn)各組人群的占比,橫縱坐標(biāo)總長度均代表100%。圖4中橫軸代表是否肥胖,縱軸代表是否發(fā)生OSAS,右側(cè)圖例可知紅色代表發(fā)生OSAS,藍(lán)色代表不發(fā)生OSAS(正常)。
從該圖的橫坐標(biāo)可以看出:體重正常組的人數(shù)更多,約為肥胖組的二倍。
從縱坐標(biāo)可以看出:肥胖者發(fā)生OSAS的比例更高(肥胖組比正常組的紅色區(qū)域高),但該差異是否有統(tǒng)計學(xué)意義,還需參考卡方檢驗的結(jié)果進(jìn)行判斷。

@Part.2??列聯(lián)表
第二部分是列聯(lián)表,列聯(lián)表中每個格子有4行數(shù)據(jù),表格左上方的表頭給出了這4行數(shù)據(jù)的含義,它們分別為計數(shù)、合計百分比、列百分比和行百分比。

@Part.3??卡方檢驗統(tǒng)計分析結(jié)果
第三部分為卡方檢驗統(tǒng)計分析結(jié)果,結(jié)果包括似然比卡方、Pearson卡方和Fisher確切檢驗三個部分(圖6)。實際中通常用Pearson卡方檢驗結(jié)果,但如果例數(shù)小于40或有理論頻數(shù)小于5甚至小于1,一般建議選擇Fisher確切檢驗結(jié)果。

本例樣本數(shù)較多,一般選擇Pearson卡方即可。當(dāng)然為了嚴(yán)謹(jǐn)起見,我們?nèi)钥匆幌吕碚擃l數(shù)情況。點擊列聯(lián)表旁邊的紅色三角形按鈕,在下拉菜單中選擇期望值(圖7),即可得到每個格子的理論頻數(shù),即圖8中箭頭所示位置。


可以看出,所有格子的理論頻數(shù)均大于5,因此選擇Pearson卡方結(jié)果即可,結(jié)果表明肥胖與正常人群的OSAS發(fā)生率有統(tǒng)計學(xué)差異(Pearson=5.970,P=0.0146)(圖6)。

02??多組率的比較
我們將繼續(xù)基于圖1所示的OSAS數(shù)據(jù)進(jìn)行講解,在圖1數(shù)據(jù)中,擬比較扁桃體大小不同的患者的OSAS發(fā)生率是否有差異。
本例中結(jié)局指標(biāo)為OSAS,屬于二分類變量;分組指標(biāo)為扁桃體大小,分為<2,=2和>2三類,屬于多分類變量。
首先進(jìn)行卡方檢驗,操作同上,結(jié)果見圖9。

圖9中的列聯(lián)表顯示,研究例數(shù)>40且所有格子的理論頻數(shù)(期望值)均大于5,因此選擇Pearson結(jié)果,扁桃體大小不同的患者OSAS發(fā)生率的差異有統(tǒng)計學(xué)意義(Pearson=6.305,P=0.0428)。
上述結(jié)果只是表明三組之間的OSAS發(fā)生率有統(tǒng)計學(xué)差異,但具體是哪兩組之間存在差異,還需進(jìn)一步進(jìn)行組間兩兩比較。
對于分類資料,JMP程序無法直接給出兩兩比較結(jié)果,需要采用Bonferroni法對檢驗水準(zhǔn)進(jìn)行校正。然后對其中的任意兩組進(jìn)行卡方檢驗,與校正后的檢驗水準(zhǔn)進(jìn)行比較。
本例總計進(jìn)行3次兩兩比較,則校正后的檢驗水準(zhǔn)為:

圖片
也就是說,兩兩比較時,P值小于0.0167才算差異有統(tǒng)計學(xué)意義。兩兩比較比較的結(jié)果如表1所示。結(jié)果表明,小于2 vs 大于2的P值小于0.0167,具有統(tǒng)計學(xué)意義,其余組無統(tǒng)計學(xué)意義。
表1 兩兩比較結(jié)果

綜上,統(tǒng)計分析顯示肥胖人群和正常人群的OSAS發(fā)生率有統(tǒng)計學(xué)差異,扁桃體大小小于2和大于2的人群的OSAS發(fā)生率有統(tǒng)計學(xué)差異,其余組間差異無統(tǒng)計學(xué)意義。
03??兩組或多組比例的比較
兩組/多組比例的比較,其思路和JMP軟件實現(xiàn)過程,完全與兩組/多組率的比較一致。只是解釋不同,組間的比例如果有統(tǒng)計學(xué)差異,說明組間的分布不同。同樣,如果多組間比例的比較有統(tǒng)計學(xué)差異,也可以執(zhí)行兩兩比較,思路與多組率的兩兩比較相同。
以上就是今天的分享。在此系列的下篇文章中,我們將介紹卡方檢驗的延伸—等級資料秩和檢驗、趨勢卡方和配對卡方檢驗。想要在JMP中親自動手試試看的話,可下載最新的JMP 16免費試用:https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibili&utm_medium=social