差異性分析方法匯總整理
在數(shù)據(jù)研究中,常見的數(shù)據(jù)關(guān)系可以分為四類,分析是相關(guān)關(guān)系,因果關(guān)系、差異關(guān)系以及其它。本次所進(jìn)行研究的關(guān)系為差異關(guān)系。對(duì)于差異性分析方法常見可以分為三類:參數(shù)檢驗(yàn)、非參數(shù)檢驗(yàn)以及可視化圖形。
非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)的選擇
對(duì)于非參數(shù)檢驗(yàn)的差異分析方法,大體可以分為兩大類一個(gè)是卡方檢驗(yàn)一個(gè)秩和檢驗(yàn)。對(duì)于卡方檢驗(yàn)和秩和檢驗(yàn)如何選擇,可以參考如圖:
接下來對(duì)于卡方檢驗(yàn)和秩和檢驗(yàn)進(jìn)行一一說明。
2、卡方檢驗(yàn)
01、Pearson卡方檢驗(yàn)
Pearson卡方檢驗(yàn)說明
Pearson卡方檢驗(yàn)進(jìn)行研究兩組數(shù)據(jù)的差異,并且其數(shù)據(jù)分別為定類變量和定類變量,比如想要研究性別和是否吸煙之間的差異,南方和北方飲食習(xí)慣(米和面)的差異等。
Pearson卡方檢驗(yàn)數(shù)據(jù)格式
Pearson卡方檢驗(yàn)的數(shù)據(jù)格式為一個(gè)分析項(xiàng)為一列,比如下表中,性別(1代表男,2代表女)為一列,是否吸煙(1不吸煙,2吸煙)為一列,如下:
Pearson卡方檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究:卡方檢驗(yàn)】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
Pearson卡方檢驗(yàn)結(jié)果一般格式
一般結(jié)果中會(huì)提供均值標(biāo)準(zhǔn)差以及卡方值和p值等。
02、Fisher卡方
fisher卡方檢驗(yàn)說明
fisher卡方與pearson卡方類似,研究定類數(shù)據(jù)和定類數(shù)據(jù)的差異性。其與pearson卡方檢驗(yàn)的區(qū)別是如果分析樣本量較少(比如小于40),也或者期望頻數(shù)出現(xiàn)小于5時(shí),或者R*C結(jié)構(gòu)時(shí),也或者為匯總表格數(shù)據(jù)時(shí)使用此方法比較合適。
fisher卡方檢驗(yàn)數(shù)據(jù)格式
fisher卡方格式一般是匯總格式,比如想要研究A藥和B要對(duì)療效的差異性,其數(shù)據(jù)格式一般如下:(ps:A1表格一定是空的)
fisher卡方檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究:fisher卡方】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
fisher卡方檢驗(yàn)結(jié)果一般格式
會(huì)提供期望頻數(shù)和實(shí)際頻數(shù)的分析結(jié)果:
03、分層卡方
分層卡方檢驗(yàn)說明
分層卡方也叫CMH檢驗(yàn),研究卡方檢驗(yàn),將干擾因素納入模型,其中X和Y均是類別變量(一般為二分類),比如研究是否吸煙和是否肥胖的差異關(guān)系,將性別(男和女)納入模型內(nèi)進(jìn)行分析,此時(shí)可以考慮分層卡方。
分層卡方檢驗(yàn)數(shù)據(jù)格式
分層卡方有兩種數(shù)據(jù)格式,一種是不加權(quán)數(shù)據(jù)格式,一種是加權(quán)數(shù)據(jù)格式:
(1)不加權(quán)
X為一列(分類變量),Y為一列(分類變量),分層項(xiàng)為一列。
(2)加權(quán)
X為一列(分類變量),Y為一列(分類變量),加權(quán)項(xiàng)為一列,分層項(xiàng)為一列。
分層卡方檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究:分層卡方】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
(ps:其中加權(quán)項(xiàng)是可選的)
分層卡方檢驗(yàn)結(jié)果一般格式
一般會(huì)提供CMH基本說明,以及分層卡方結(jié)果匯總等。
表格說明如下:
04、配對(duì)卡方
配對(duì)卡方檢驗(yàn)說明
配對(duì)的定類數(shù)據(jù)研究差異性,兩個(gè)變量都為定類數(shù)據(jù),且需要數(shù)據(jù)配對(duì),才可以考慮使用配對(duì)卡方進(jìn)行分析研究,比如研究A方法和B方法對(duì)于診斷某病是否有差異(診斷結(jié)果分為:陰性和陽性),其中數(shù)據(jù)為配對(duì)數(shù)據(jù),此時(shí)可以考慮使用配對(duì)卡方分析。
配對(duì)卡方檢驗(yàn)數(shù)據(jù)格式
配對(duì)卡方的數(shù)據(jù)類型為定類變量,所以有兩種類型的數(shù)據(jù)格式,一種是加權(quán)的數(shù)據(jù)格式,一種是非加權(quán)的數(shù)據(jù)格式:
(1)加權(quán)
配對(duì)卡方,一般有兩列,一個(gè)分析項(xiàng)為一列,但是如果是加權(quán)格式,加權(quán)項(xiàng)為一列,一共有三列。
(2)非加權(quán)
如果是非加權(quán)的數(shù)據(jù)格式一個(gè)分析項(xiàng)為一列。一共兩列,且數(shù)據(jù)是配對(duì)數(shù)據(jù)。
配對(duì)卡方檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究:配對(duì)卡方】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
配對(duì)卡方檢驗(yàn)結(jié)果一般格式
一般會(huì)提供配對(duì)卡方結(jié)果以及方法對(duì)比,其中如果配對(duì)數(shù)據(jù)的組別為2即配對(duì)四表格(2*2),SPSSAU則使用McNemar檢驗(yàn);n*n則使用Bowker檢驗(yàn)。
05、卡方擬合優(yōu)度
卡方擬合優(yōu)度檢驗(yàn)說明
實(shí)際數(shù)據(jù)與預(yù)期數(shù)據(jù)的差異,希望研究數(shù)據(jù)的實(shí)際比例與預(yù)期比例是否一致。比如收集100份數(shù)據(jù),預(yù)期不同性別的比例是4:6,其中搜集的數(shù)據(jù)為男性為48個(gè)女性為52個(gè),進(jìn)行差異性分析。常用于問卷的選擇題中。
卡方擬合優(yōu)度檢驗(yàn)數(shù)據(jù)格式
卡方擬合優(yōu)度檢驗(yàn)數(shù)據(jù)格式為一列為一個(gè)分析項(xiàng),一般用于定類數(shù)據(jù)各項(xiàng)的占比差異情況,一般格式如下:
卡方擬合優(yōu)度檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究:卡方擬合優(yōu)度檢驗(yàn)】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
卡方擬合優(yōu)度檢驗(yàn)結(jié)果一般格式
卡方擬合優(yōu)度檢驗(yàn)一般會(huì)提供實(shí)際頻數(shù),期望頻數(shù),殘差,實(shí)際比例,期望比例,卡方值等。
3、秩和檢驗(yàn)
01、MannWhitney檢驗(yàn)
MannWhitney檢驗(yàn)說明
MannWhitney非參數(shù)檢驗(yàn)一般研究定類數(shù)據(jù)和定量數(shù)據(jù)之間的差異,定類數(shù)據(jù)一般是兩組為二分類變量,比如研究不同性別的薪資水平之間的差異等。
MannWhitney檢驗(yàn)數(shù)據(jù)格式
MannWhitney非參數(shù)檢驗(yàn)的數(shù)據(jù)格式一般為兩列,一列為組別,一列為分析項(xiàng),數(shù)據(jù)格式與獨(dú)立樣本t檢驗(yàn)類似,與之不同的是二者的應(yīng)用條件不一樣,具體可以參考文章:
MannWhitney檢驗(yàn)操作
【通用方法:非參數(shù)檢驗(yàn)】→【拖拽分析項(xiàng)】→點(diǎn)擊開始分析;
MannWhitney檢驗(yàn)結(jié)果一般格式
一般結(jié)果中會(huì)提供中位數(shù)以及統(tǒng)計(jì)量和p值等。
02、KruskalWallis檢驗(yàn)
KruskalWallis檢驗(yàn)說明
Kruskal-Wallis非參數(shù)檢驗(yàn)一般是研究定類變量和定類變量之間的差異性,并且定類變量為多分類變量,比如研究學(xué)歷和薪資之間是否有顯著性差異,學(xué)歷包括本科以下、本科以及本科以上。其數(shù)據(jù)格式與單因素方差類似。操作與MannWhitney一致(SPSSAU會(huì)自動(dòng)判斷分類變量的分類數(shù)進(jìn)而判斷使用MannWhitney還是Kruskal-Wallis),其一般形式如下:
一般結(jié)果中會(huì)提供中位數(shù)以及統(tǒng)計(jì)量和p值等。
03、配對(duì)樣本wilcoxon
配對(duì)樣本wilcoxon說明
配對(duì)樣本wilcoxon說明檢驗(yàn)一般是研究配對(duì)的定量數(shù)據(jù)之前的差異性,比如研究有無廣告和產(chǎn)品的銷量之間是否有顯著性差異。其數(shù)據(jù)格式與配對(duì)樣本t檢驗(yàn)類似。其操作為:
其一般形式如下:
一般結(jié)果中會(huì)提供中位數(shù)以及統(tǒng)計(jì)量和p值等。
04、單樣本wilcoxon
單樣本wilcoxon說明
單樣本wilcoxon說明檢驗(yàn)一般是研究檢驗(yàn)數(shù)據(jù)是否與某個(gè)數(shù)據(jù)有明顯的差異,比如研究某地區(qū)青少年的身高與140cm是否有差異。其數(shù)據(jù)格式與單樣本t檢驗(yàn)類似。其操作為:
其一般形式如下:
一般結(jié)果中會(huì)提供樣本量、25分位數(shù)、中位數(shù)、75分位數(shù)以及統(tǒng)計(jì)量和p值等。
05、ridit檢驗(yàn)
ridit檢驗(yàn)說明
Ridit是研究X與Y的差異,X是定類數(shù)據(jù),Y是定距數(shù)據(jù),比如研究兩種藥物對(duì)慢性病治療的作用,其中兩種藥物為定類數(shù)據(jù),治療作用為定距數(shù)據(jù)。此時(shí)可以考慮使用ridit檢驗(yàn)。
ridit檢驗(yàn)數(shù)據(jù)格式
一般有兩種數(shù)據(jù)格式,一個(gè)是加權(quán)數(shù)據(jù)格式,一個(gè)是不加權(quán)數(shù)據(jù)格式,如果不加權(quán)數(shù)據(jù)格式,一行代表一個(gè)研究對(duì)象,X為一列,Y為一列,如果是加權(quán)的數(shù)據(jù)格式,比如X有2種情況,Y有4個(gè)情況,一種有2*4=8種組合,數(shù)據(jù)信息只有8種組別的匯總項(xiàng)(即加權(quán)項(xiàng)),數(shù)據(jù)格式如下圖(由于上傳數(shù)據(jù)帶有數(shù)據(jù)標(biāo)簽,所以新建一個(gè)表格):
ridit檢驗(yàn)操作
【實(shí)驗(yàn)/醫(yī)學(xué)研究】→【Ridit實(shí)驗(yàn)】然后進(jìn)行分析;
ridit檢驗(yàn)結(jié)果一般格式
會(huì)提供平均ridit值與95%CI和z值p值等。
06、friedman檢驗(yàn)
friedman檢驗(yàn)說明
Friedman檢驗(yàn)可應(yīng)用于多組配對(duì)或相關(guān)數(shù)據(jù)的秩和校驗(yàn)。比如想要分析8名試驗(yàn)對(duì)象在4種不同頻率聲音刺激的反應(yīng)率是否存在差別。
friedman檢驗(yàn)數(shù)據(jù)格式
一個(gè)分析項(xiàng)為一列,比如上述背景“8名試驗(yàn)對(duì)象在4種不同頻率聲音刺激的反應(yīng)率是否存在差別?!币粋€(gè)聲音頻率為一列,如下:
friedman檢驗(yàn)檢驗(yàn)操作
分析路徑為點(diǎn)擊【實(shí)驗(yàn)/醫(yī)學(xué)研究】→【多樣本Friedman】然后進(jìn)行分析:
friedman檢驗(yàn)檢驗(yàn)結(jié)果一般格式
會(huì)提供樣本量、25分位數(shù)、中位數(shù)、75分位數(shù)以及統(tǒng)計(jì)量和p值等。
三、可視化圖形
1、可視化圖形的選擇
數(shù)據(jù)類型不同其可視化圖形選擇不同,比如定類數(shù)據(jù)和定量數(shù)據(jù)一般可以使用折線圖或者柱形圖、條形圖等,如果是定類和定類數(shù)據(jù)一般可以使用堆積柱形圖或者條形圖。
2、折線圖
折線圖一般分析定類數(shù)據(jù)格定量數(shù)據(jù)的差異,比如分析7月和8月30天每天溫度變化(一般多分類數(shù)據(jù)使用較多)。其可以在SPSSAU可視化中進(jìn)行操作,一般格式如下:
3、柱形圖
一般用長方形的進(jìn)行表示,也叫長條圖,可以用來表示定類數(shù)據(jù)和定量數(shù)據(jù)之間的差異,定類變量可以為二分類也可以為多分類,其可以在SPSSAU可視化中進(jìn)行操作,一般格式如下:
4、堆積柱形圖(堆積條形圖)
用于分析定類數(shù)據(jù)和定類數(shù)據(jù)之前的差異,比如兩個(gè)分類變量對(duì)比差異,想要在一個(gè)柱形圖或者條形圖中進(jìn)行展示占比。其可以在SPSSAU可視化中進(jìn)行操作,一般格式如下:
四、案例分析
研究者想要觀察兩種藥物對(duì)慢性病治療的作用,共搜集了3000例數(shù)據(jù),試分析兩種藥物在治療慢性病方面是否有顯著差異。部分?jǐn)?shù)據(jù)如下,其中藥物中1代表A藥物,2代表B藥物,療效中1代表無效,2代表好轉(zhuǎn),3代表明顯好轉(zhuǎn),4代表控制。研究定類數(shù)據(jù)和定類數(shù)據(jù)的差異并且是有序定距的數(shù)據(jù),考慮使用ridit檢驗(yàn)。
1、分析流程
Step1:數(shù)據(jù)格式
X有2種情況,Y有4個(gè)情況,一種有2*4=8種組合,數(shù)據(jù)信息只有8種組別的匯總項(xiàng)(即加權(quán)項(xiàng)),數(shù)據(jù)格式如下圖(由于上傳數(shù)據(jù)帶有數(shù)據(jù)標(biāo)簽,所以新建一個(gè)表格):
Step2:上傳數(shù)據(jù)與操作
上傳結(jié)果如下:
【實(shí)驗(yàn)/醫(yī)學(xué)研究】→【Ridit實(shí)驗(yàn)】然后進(jìn)行分析
Step3與step4以下分別進(jìn)行說明。
2、解讀分析結(jié)果
從分析結(jié)果來看z值為-7.07,p值小于0.05,說明不同藥物對(duì)慢性病的治療有顯著差異性,并且從平均Ridit值中可以看出B藥物的平均Ridit值(0.666)會(huì)明顯高于A藥物的平均Ridit值(0.500)。中間過程值是如何計(jì)算的呢?
3、指標(biāo)計(jì)算
- 平均Ridit值
選擇A藥物進(jìn)行分析,B藥物同理:
由于以最大值作為參照項(xiàng),所以A藥物組別為標(biāo)準(zhǔn)組,ar{R}理論上波動(dòng)于0-1之間,標(biāo)準(zhǔn)組的ar{R}等于0.5,其它組別都需要參照標(biāo)準(zhǔn)組的R值進(jìn)行計(jì)算。比如B組別:
95%CI
以A藥物組為例:
z值
n為該組樣本量。
s_{R}^{2}可由兩組合并數(shù)據(jù)進(jìn)行計(jì)算,或者近似法以1/12,進(jìn)行估計(jì),這里不進(jìn)行計(jì)算,感興趣的可以自行計(jì)算。
除此之外,還可以進(jìn)一步進(jìn)行圖形查看:
從圖形也可以直觀看出,B藥物的平均Ridit值會(huì)明顯高于A藥物。