散文網 » 生活 »日常 » R語言分析糖尿病數(shù)據(jù)：多元線性模型、MANOVA、決策樹、典型判別分析、HE圖、Box's M檢

R語言分析糖尿病數(shù)據(jù)：多元線性模型、MANOVA、決策樹、典型判別分析、HE圖、Box's M檢

2023-09-08 22:18 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：https://tecdat.cn/?p=33609

原文出處：拓端數(shù)據(jù)部落公眾號

背景

Reaven和Miller（1979）研究了145名非肥胖成年人的葡萄糖耐量和胰島素血液化學指標之間的關系。他們使用斯坦福線性加速器中心的PRIM9系統(tǒng)將數(shù)據(jù)可視化為3D，并發(fā)現(xiàn)了一個奇特的圖案，看起來像是一個有兩個翼的大斑點。

本文幫助客戶使用這些數(shù)據(jù)來說明多元線性模型的各種圖形方法。正如我們將看到的那樣，這些數(shù)據(jù)在幾個方面都是奇特的，并且標準的MANOVA存在問題，因為某些假設被違反了。

設置

讀取數(shù)據(jù)

str(Diabetes)

這些變量是：

relwt：相對體重，表示實際體重與人的身高相比的期望體重的比率
glufast：空腹血漿葡萄糖水平
glutest：測試血漿葡萄糖水平，測量葡萄糖不耐受的程度，
instest：測試中的血漿胰島素，測量口服葡萄糖的胰島素反應，
sspg：穩(wěn)態(tài)血漿葡萄糖，測量胰島素抵抗性
group：診斷組

數(shù)據(jù)的橢圓和方差齊性

我們首先繪制數(shù)據(jù)集中三個變量的協(xié)方差橢圓。

從這個結果中可以清楚地看出，這里存在方差-協(xié)方差矩陣的異質性問題。正常組顯示了最小的方差，而明顯糖尿病組則顯示了最大的方差。

covEllipses(Diabetes

在圖表中的（a）和（b）面板中，從正常到化學再到明顯似乎存在直接的進展。然而，在其他面板中并非如此，在那里化學糖尿病群體與正常人在一個方向上不同，而明顯糖尿病群體在另一個方向上有所不同，并且其內部群體相關性與其他群體呈相反的符號。這在單獨的散點圖中更容易看到，例如以下示例。

這個發(fā)現(xiàn)是Reaven和Miller得出化學糖尿病和明顯糖尿病反映不同疾病狀態(tài)而不是逐漸加重的結論的部分原因。

另外，我們注意到可以使用scatter3d``car包中的三維散點圖更容易地看到組之間的差異。

scatter3d

帶有50％數(shù)據(jù)橢圓體的糖尿病數(shù)據(jù)的三維散點圖

Box's M檢驗

Box's M檢驗確認協(xié)方差矩陣存在顯著的異質性。

diab.boxm <- box

對數(shù)行列式按照我們在協(xié)方差橢圓圖中看到的數(shù)據(jù)橢圓體的大小進行排序。

擬合MLM模型

對組間均值差異擬合MANOVA模型。

MANOVA顯示group對響應變量集合有高度顯著影響。

Anova(diab.mlm)

在 QQ 圖中檢查殘差

MANOVA 的另一個假設是殘差服從多元正態(tài)分布?？梢酝ㄟ^卡方 QQ 圖進行視覺評估。從下圖可以看出，數(shù)據(jù)點與紅色的等值線明顯不同。有太多具有較大 D2 值的數(shù)據(jù)點。

qplot(da.ml)

HE 圖

HE 圖顯示了各均值之間的 H 橢圓以及誤差的 E 橢圓。

默認情況下，將繪制前兩個響應變量。結果顯示出在 Normal 和 Chemical 變量上的均值排序較為明顯。

hplot(diab.

對于 MLM 的方法會給出一個散點圖矩陣，其中包含所有響應變量之間的 HE 圖。從結果中可以看出，Diabetes 變量的模式與其他變量不同。

pairs(diblm, fill=TRUE, fill.alpha=0.1)

典型判別分析

典型判別分析將數(shù)據(jù)有效地投影到響應的線性組合空間，這個空間解釋了組間方差相對于組內方差的最大比例。

diab.an

典型判別圖

plot(dib.an, fill=TRUE, fill.alpha=0.1)

通過一個對象的方法，將典型維度上的分數(shù)繪制出來，并在每個組上疊加 60% 的數(shù)據(jù)橢圓。組均值的位置顯示了它們在典型維度上的表現(xiàn)。

響應變量與典型維度的關系通過矢量（類似于雙標圖）顯示出來。每個矢量由其與典型維度的相關系數(shù)（結構系數(shù)）定義。1

plot(diab.can, ellipse=TRUE, var.lwd=2)

?在這個圖中可以看到：

第一維與glufast、glutest高度相關，而且組別按照Normal < Chemical < Overt的順序排列。
第二維將Diabetic組與其他兩個組區(qū)分開來。這個維度與檢測過程中的血漿胰島素水平密切相關。這驗證了我們在HE矩陣圖中對所有響應變量的觀察結果。
規(guī)范化的得分數(shù)據(jù)橢圓的相對大小是方差異質性缺乏的另一個視覺指標。

規(guī)范化的HE圖

使用規(guī)范判別分析的HE圖可以概括展示出規(guī)范判別分析的結果。變量向量與規(guī)范結構圖中的變量向量相同。heplot(dabcn, fill=c(TRUE, FALSE), fil.apha=0.1, var.lwd=2)

## 矢量比例因子設置為12.06

線性判別分析和二次判別分析

線性判別分析（LDA）在精神上與多元方差分析（MANOVA）類似，但重點是分類而不是測試均值之間的差異。此外，LDA允許指定組成員身份的先驗概率，以使分類錯誤率與所關注人群中獲得的結果可比較。二次判別分析允許組之間的協(xié)方差矩陣存在差異，并給出二次而不是線性的分類邊界。

從LDA的角度來看，可視化結果的一個目標是通過LD1和LD2的得分來查看分類的邊界。

遞歸分區(qū)決策樹

遞歸分區(qū)是一種創(chuàng)建決策樹的方法，旨在對人群的成員進行分類。它使用預測因子的二分間隔將數(shù)據(jù)遞歸地分割成子群體。對于糖尿病數(shù)據(jù)，結果非常簡單：當glutest < 420時，將正常組與兩個臨床組區(qū)分開來。對于后者，glufast < 117將個體分類為化學性糖尿病而不是明顯性糖尿病。

diabart <- rpart(

使用rpart.plot包可以繪制分區(qū)樹的漂亮圖形。節(jié)點中的數(shù)字給出了每個組中分類的比例。

rpart.plot(, box.pal

這樣做效果如何？我們可以查看預測的組成員資格與實際結果之間的表格，并計算錯誤率。效果還不錯！

(class.pred <- table(predicted# 錯誤率1 - sum(diag(class.pred))/sum(class.pred)## [1] 0.013

參考資料

Friendly, M. & Sigal, M. (2017) Visualizing Tests of Equality of Covariance Matrices. Submitted for publication.

Reaven, G. M. & Miller, R. G. (1979). An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional Analysis?Diabetologia,?16, 17-24.

最受歡迎的見解

1.R語言多元Logistic邏輯回歸應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現(xiàn)

3.matlab中的偏最小二乘回歸（PLSR）和主成分回歸（PCR）

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗

6.r語言中對LASSO回歸，Ridge嶺回歸和Elastic Net模型實現(xiàn)

7.在R語言中實現(xiàn)Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI，NRI指標

標簽：