醫(yī)學(xué)案例 | 相關(guān)分析
?
一、案例介紹
某醫(yī)師測量了15名正常成年人的體重(kg)與CT雙腎總體積(ml)大小,數(shù)據(jù)如下表所示。據(jù)此試分析兩變量是否有關(guān)系?其方向與密切程度如何?
二、問題分析
要分析兩個定量數(shù)據(jù)之間是否有關(guān)系以及關(guān)系的方向和緊密程度,可以使用Pearson相關(guān)分析。使用Pearson相關(guān)分析,需要滿足4個條件。
條件1:兩變量均為定量數(shù)據(jù)。
條件2:兩變量之間存在線性關(guān)系,通常使用散點(diǎn)圖進(jìn)行檢驗(yàn)。
條件3:兩變量均沒有異常值。
條件4:兩變量均符合正態(tài)分布。
在本案例中,體重和雙腎總體積均為定量數(shù)據(jù),滿足條件1;條件2-4需要分別進(jìn)行檢驗(yàn)。
三、軟件操作及結(jié)果解讀
(1)線性關(guān)系檢驗(yàn)
變量之間的線性關(guān)系通常使用散點(diǎn)圖進(jìn)行檢驗(yàn)。散點(diǎn)圖是通過使用兩組數(shù)據(jù)構(gòu)成的多個坐標(biāo)點(diǎn),判斷兩變量之間是否存在線性關(guān)系。將數(shù)據(jù)上傳至SPSSAU系統(tǒng),在【可視化】模塊選擇【散點(diǎn)圖】,將“雙腎總體積”拖拽到右側(cè)“Y定量”分析框中,將“體重”拖拽到右側(cè)“X定量”分析框中,然后點(diǎn)擊開始分析,操作如下圖:
SPSSAU輸出散點(diǎn)圖如下:
從散點(diǎn)圖可以看出,體重和雙腎總體積之間呈現(xiàn)出明顯的線性關(guān)系,隨著體重的增大,雙腎總體積也不斷增大。所以兩變量滿足條件2 存在線性關(guān)系。
散點(diǎn)圖除了查看是否存在線性關(guān)系,還可以查看是否存在異常值;不過通過散點(diǎn)圖判斷異常值具有很強(qiáng)的主觀性,比如上圖圈出來的點(diǎn),無法做到準(zhǔn)確判斷,而Pearson相關(guān)系數(shù)易受異常值的影響,所以可以選擇通過其他方式檢驗(yàn)異常值,比如箱線圖。
(2)異常值檢驗(yàn)
使用箱線圖可以直觀識別數(shù)據(jù)的異常值,箱線圖由5個點(diǎn)構(gòu)成,分別是最大觀察值、25%分位數(shù)(Q1)、中位數(shù)、75%分位數(shù)(Q3)、最大觀察值,最大觀察值和最小觀察值的定義如下:
最大觀察值=Q3+1.5IQR,IQR=Q3-Q1
最小觀察值= Q1-1.5IQR,IQR=Q3-Q1
如果數(shù)據(jù)存在異常值——大于最大觀察值或小于最小觀察值,SPSSAU將該點(diǎn)以“原點(diǎn)”形式進(jìn)行展示。
在SPSSAU【可視化】模塊,選擇【箱線圖】,將兩變量均拖拽到右側(cè)“分析項(xiàng)(定量)”中,點(diǎn)擊開始分析,操作如下圖:
SPSSAU輸出體重和雙腎總體積的箱線圖如下:
從箱線圖可以看出,體重和雙腎總體積兩變量均不存在異常值,滿足條件3。
若存在異常值,可以通過異常值匯總表格如下圖,查看具體異常值個數(shù)以及異常值數(shù)字,對異常值進(jìn)行刪除等操作。
(3)正態(tài)性檢驗(yàn)
兩變量均需要滿足正態(tài)性,正態(tài)性可以使用多種方式進(jìn)行檢驗(yàn),比如直方圖、P-P如/Q-Q圖、峰度/偏度、正態(tài)性檢驗(yàn)等。本案例選擇正態(tài)性檢驗(yàn)。在SPSSAU【通用方法】模塊,選擇【正態(tài)性檢驗(yàn)】,將兩變量拖拽到右側(cè)“分析項(xiàng)(定量)”分析框中,然后點(diǎn)擊開始分析。操作如下圖:
SPSSAU輸出正態(tài)性檢驗(yàn)結(jié)果如下:
從上表可知,針對體重、雙腎總體積進(jìn)行正態(tài)性檢驗(yàn),樣本量為15<50,所以使用Shapiro-Wlik正態(tài)性檢驗(yàn)結(jié)果,具體來看,體重、雙腎總體積正態(tài)性檢驗(yàn)對應(yīng)p值均大于0.05,未呈現(xiàn)出顯著性,說明接受原假設(shè)(原假設(shè)為數(shù)據(jù)服從正態(tài)分布),即兩變量均服從正態(tài)分布,滿足條件4。
綜上所述,本案例數(shù)據(jù)滿足使用Pearson相關(guān)分析的條件,可以進(jìn)行Pearson相關(guān)分析。
(4)Pearson相關(guān)分析
①相關(guān)系數(shù)計算
Pearson相關(guān)分析使用相關(guān)系數(shù)描述變量之間的相關(guān)關(guān)系,Pearson相關(guān)系數(shù)取值范圍為[-1,1],相關(guān)系數(shù)的絕對值越接近1,說明變量之間相關(guān)性越強(qiáng);絕對值越接近0,相關(guān)性越弱。相關(guān)系數(shù)大于0,代表變量之間存在正相關(guān);相關(guān)系數(shù)小于0,代表負(fù)相關(guān)。
Pearson相關(guān)系數(shù)的計算公式如下:
r=rac{sum(X-overline{X})(Y-overline{Y})}{sqrt{sum(X-overline{X})^2}sqrt{sum(Y-overline{Y})^2}}
overline{X}=(43+74+51+…+54)/15=59.53
overline{Y}=(217.22+316.18+…+266.104)/15=266.104
sum(X-overline{X})(Y-overline{Y})=(43-59.53)*(217.22-266.104)+(74-59.53)*(316.18-266.104)+…+(54-59.53)*(252.08-266.104)=6301.038
sqrt{sum(X-overline{X})^2}=2555.733
sqrt{sum(Y-overline{Y})^2}=20270.495
r=rac{6301.038}{sqrt{2555.733}sqrt{20270.495}}=0.8754
所以,手工計算得到體重和雙腎總體積的Pearson相關(guān)系數(shù)為0.8754,說明兩變量之間存在高度正相關(guān)關(guān)系。
接下來,介紹如何使用軟件快速計算相關(guān)系數(shù)。
②軟件計算
在SPSSAU【通用方法】模塊,選擇【相關(guān)分析】,將“體重”拖拽到右側(cè)“分析項(xiàng)X”分析框中,將“雙腎總體積”拖拽到右側(cè)“分析項(xiàng)Y”分析框中,選擇“Pearson相關(guān)系數(shù)”,然后點(diǎn)擊開始分析,操作如下圖:
SPSSAU輸出Pearson相關(guān)分析結(jié)果如下:
從上表可以看出,體重和雙腎總體積之間相關(guān)系數(shù)為0.8754,p<0.0,5,說明兩變量存在顯著正相關(guān)關(guān)系,即體重與雙腎總體積之間存在高度正相關(guān)關(guān)系。
四、結(jié)論
本案例研究體重與雙腎總體積之間的關(guān)系情況,經(jīng)檢驗(yàn),兩變量均滿足Pearson相關(guān)分析需要滿足的4個條件。使用Pearson相關(guān)分析得到,體重與雙腎總體積之間的相關(guān)系數(shù)為0.8754,p<0.05,說明兩變量之間存在顯著正相關(guān)關(guān)系,即體重越大,雙腎總體積越大。
五、知識小貼士
數(shù)據(jù)不滿足正態(tài)性怎么辦?
經(jīng)過正態(tài)性檢驗(yàn),如果兩個變量不符合正態(tài)分布,有以下三種選擇:
①使用Spearman相關(guān)系數(shù)進(jìn)行分析。
②對不服從正態(tài)分布的變量進(jìn)行數(shù)據(jù)變換,如取對數(shù)等操作,對變換后的數(shù)據(jù)再進(jìn)行檢驗(yàn)。
③繼續(xù)使用Pearson相關(guān)分析,如果對數(shù)據(jù)要求不是太嚴(yán)格,Pearson相關(guān)系數(shù)對不服從正態(tài)分布的數(shù)據(jù)具有一定抗性,可繼續(xù)使用。