如何在JMP中進行相關分析(Correlation Analysis) ?

相關分析,是常見的統(tǒng)計分析方法,它旨在研究兩個或多個變量之間是否存在某種依存變化關系。你知道如何判斷變量之間的相關性?如何在JMP中實現(xiàn)相關分析?今天的文章我們就來一起探索相關分析。

為了幫助更多的臨床醫(yī)師學習如何運用JMP高效地開展數(shù)據(jù)分析,提高日常工作和發(fā)表論文的效率,2020年8月起,JMP資深用戶、JMP特約專欄作者、資深統(tǒng)計學家馮國雙博士及其團隊將在JMP數(shù)據(jù)分析平臺為大家分享一系列統(tǒng)計及數(shù)據(jù)分析、JMP實戰(zhàn)操作、JMP分析報表解讀等干貨內(nèi)容,每期一個經(jīng)典話題,幫助大家掌握一個新技能。值得注意的是,這些話題并非僅針對臨床醫(yī)師,對所有運用JMP軟件開展數(shù)據(jù)分析的小伙伴都適用。本文為此系列文章的第17期。點擊上方“專輯”或文末可回顧其他幾期。
相關分析通常關注兩個維度:相關大小和相關方向。
相關大小用相關系數(shù)r的大小表示,r越大說明相關性越強。
相關方向通過r的正負值來反映,正值表示正相關,負值表示負相關。
關于相關系數(shù)的強弱并無統(tǒng)一的劃分界限,但也有一些約定俗成的看法是,|r|大于0.7認為相關性強;0.5-0.7為中等強度相關;0.3-0.5為弱相關。也有其它劃分方式,如大于0.8認為相關性強,等等不一而足。盡管有這些所謂標準,但不同領域的各有側重,例如社會學現(xiàn)象能達到0.7的非常少,而醫(yī)學實驗室指標達到0.9以上的比比皆是。所以這些所謂的劃分標準,大家稍微了解一下即可,不能太死板教條。
通常意義上說的相關系數(shù)是指Pearson相關系數(shù)(有時也包括Spearman相關系數(shù)),它是用來描述線性相關的。但實際中除了線性相關外,還存在大量的非線性相關關系,例如對數(shù)相關、拋物線相關等。
因此,在進行相關分析前,最好先繪制散點圖,粗略探索數(shù)據(jù)的相關性,只有數(shù)據(jù)呈現(xiàn)線性關聯(lián)的時候,才考慮用Pearson相關系數(shù)。如果散點圖顯示兩個變量之間可能是非線性關系,可以考慮對其中某一變量進行變量變換,然后再計算相關系數(shù)。
另外需要注意,相關不代表因果關系,一定要結合專業(yè)知識有合理解釋。比如游泳死亡人數(shù)與冰糕銷售量呈現(xiàn)正相關,我們不能推斷吃冰糕會增加游泳死亡風險。變量A和B具有相關性,除了A和B具有因果關系外,另一個原因可能是有另一變量C同時對A和B產(chǎn)生影響,導致A和B呈現(xiàn)出表面上的虛假相關。比如冰糕銷售量與游泳死亡風險的例子中,天氣炎熱就是變量C,同時導致了游泳死亡人數(shù)和冰糕銷售量的上升。
本文主要介紹Pearson相關、Spearman相關以及偏相關。
當兩個變量服從正態(tài)分布時,通常用Pearson相關系數(shù)度量相關性。
如果有變量不服從正態(tài)分布,通常用Spearman相關系數(shù)度量相關性。
如果想了解在控制了其它變量后,兩個變量之間的相關系數(shù)大小,可以計算偏相關系數(shù),例如控制年齡的影響后體重與血壓之間的相關關系。
本文將基于圖1所示數(shù)據(jù),探索BMI與軀體健康評分的相關性,以及校正年齡后BMI與軀體健康評分之間的偏相關系數(shù)。

01??Pearson相關與Spearman相關
Pearson相關和Spearman相關均可通過JMP菜單“分析”→“多元方法”→“多元”來實現(xiàn)(圖2)。

在“多元與相關性”界面中,將BMI與軀體健康評分放到“Y,列“(圖3)。

默認結果輸出Pearson相關系數(shù)矩陣(圖4)和散點圖矩陣(圖5),可以看出兩個變量的Pearson相關系數(shù)為0.1479。


由于BMI與軀體健康評分均不符合正態(tài)分布,因此需要輸出Spearman相關系數(shù),可點擊“非參數(shù)相關性→Spearman ρ”(圖6)。

結果如圖7所示,Spearman 相關系數(shù)為0.1739。

想顯示其它結果均可通過點擊“多元”左側的紅色三角形按鈕來輸出(圖6),如想輸出相應的P值,可點擊相關性概率;想輸出相關系數(shù)的置信區(qū)間,可點擊相關性置信區(qū)間。
02??多變量的偏相關
在了解了BMI與軀體健康評分的相關性后,我們還想探索在校正年齡后BMI與軀體健康評分之間的偏相關系數(shù)。
偏相關也是通過JMP 菜單“分析”→“多元方法”→“多元”來實現(xiàn)。
同時將年齡、BMI與軀體健康評分三個變量拖入圖2中的“Y,列”。
在結果界面中,點擊“多元”左側的紅色三角形按鈕,在下拉菜單中點擊“偏相關性”和“偏相關性概率”(圖8),即可輸出偏相關系數(shù)及其P值。

輸出結果見圖9,校正年齡的影響后,BMI和軀體健康評分之間的相關性略有提高,從0.1479提升到0.1940,說明年齡對這兩個變量之間的關系具有一定影響,但影響有限。

以上就是本期為大家?guī)淼母韶浄窒?,希望對你有所幫助。此系列其他精彩?nèi)容持續(xù)更新中,敬請期待!最后,如果想要在JMP中親自動手實踐的話,可下載最新的JMP 16免費試用:
https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002DxWTQA0&utm_source=bilibilit&utm_medium=social