R語言分析糖尿病數(shù)據(jù):多元線性模型、MANOVA、決策樹、典型判別分析、HE圖、Box's M檢
全文鏈接:https://tecdat.cn/?p=33609
原文出處:拓端數(shù)據(jù)部落公眾號
背景
Reaven和Miller(1979)研究了145名非肥胖成年人的葡萄糖耐量和胰島素血液化學指標之間的關系。他們使用斯坦福線性加速器中心的PRIM9系統(tǒng)將數(shù)據(jù)可視化為3D,并發(fā)現(xiàn)了一個奇特的圖案,看起來像是一個有兩個翼的大斑點。
本文幫助客戶使用這些數(shù)據(jù)來說明多元線性模型的各種圖形方法。正如我們將看到的那樣,這些數(shù)據(jù)在幾個方面都是奇特的,并且標準的MANOVA存在問題,因為某些假設被違反了。
設置
讀取數(shù)據(jù)
str(Diabetes)

這些變量是:
relwt
:相對體重,表示實際體重與人的身高相比的期望體重的比率glufast
:空腹血漿葡萄糖水平glutest
:測試血漿葡萄糖水平,測量葡萄糖不耐受的程度,instest
:測試中的血漿胰島素,測量口服葡萄糖的胰島素反應,sspg
:穩(wěn)態(tài)血漿葡萄糖,測量胰島素抵抗性group
:診斷組
數(shù)據(jù)的橢圓和方差齊性
我們首先繪制數(shù)據(jù)集中三個變量的協(xié)方差橢圓。
從這個結果中可以清楚地看出,這里存在方差-協(xié)方差矩陣的異質性問題。正常組顯示了最小的方差,而明顯糖尿病組則顯示了最大的方差。
covEllipses(Diabetes

在圖表中的(a)和(b)面板中,從正常到化學再到明顯似乎存在直接的進展。然而,在其他面板中并非如此,在那里化學糖尿病群體與正常人在一個方向上不同,而明顯糖尿病群體在另一個方向上有所不同,并且其內部群體相關性與其他群體呈相反的符號。這在單獨的散點圖中更容易看到,例如以下示例。

這個發(fā)現(xiàn)是Reaven和Miller得出化學糖尿病和明顯糖尿病反映不同疾病狀態(tài)而不是逐漸加重的結論的部分原因。
另外,我們注意到可以使用scatter3d``car
包中的三維散點圖更容易地看到組之間的差異。
scatter3d

帶有50%數(shù)據(jù)橢圓體的糖尿病數(shù)據(jù)的三維散點圖
Box's M檢驗
Box's M檢驗確認協(xié)方差矩陣存在顯著的異質性。
diab.boxm <- box


對數(shù)行列式按照我們在協(xié)方差橢圓圖中看到的數(shù)據(jù)橢圓體的大小進行排序。
擬合MLM模型
對組間均值差異擬合MANOVA模型。
MANOVA顯示group
對響應變量集合有高度顯著影響。
Anova(diab.mlm)

在 QQ 圖中檢查殘差
MANOVA 的另一個假設是殘差服從多元正態(tài)分布??梢酝ㄟ^卡方 QQ 圖進行視覺評估。 從下圖可以看出,數(shù)據(jù)點與紅色的等值線明顯不同。有太多具有較大 D2 值的數(shù)據(jù)點。
qplot(da.ml)

HE 圖
HE 圖顯示了各均值之間的 H 橢圓以及誤差的 E 橢圓。
默認情況下,將繪制前兩個響應變量。結果顯示出在 Normal 和 Chemical 變量上的均值排序較為明顯。
hplot(diab.

對于 MLM 的方法會給出一個散點圖矩陣,其中包含所有響應變量之間的 HE 圖。從結果中可以看出,Diabetes 變量的模式與其他變量不同。
pairs(diblm, fill=TRUE, fill.alpha=0.1)

典型判別分析
典型判別分析將數(shù)據(jù)有效地投影到響應的線性組合空間,這個空間解釋了組間方差相對于組內方差的最大比例。
diab.an

典型判別圖
plot(dib.an, fill=TRUE, fill.alpha=0.1)
通過一個對象的方法,將典型維度上的分數(shù)繪制出來,并在每個組上疊加 60% 的數(shù)據(jù)橢圓。組均值的位置顯示了它們在典型維度上的表現(xiàn)。
響應變量與典型維度的關系通過矢量(類似于雙標圖)顯示出來。每個矢量由其與典型維度的相關系數(shù)(結構系數(shù))定義。1
plot(diab.can, ellipse=TRUE, var.lwd=2)

?在這個圖中可以看到:
第一維與
glufast
、glutest
高度相關,而且組別按照Normal < Chemical < Overt
的順序排列。第二維將
Diabetic
組與其他兩個組區(qū)分開來。這個維度與檢測過程中的血漿胰島素水平密切相關。這驗證了我們在HE矩陣圖中對所有響應變量的觀察結果。規(guī)范化的得分數(shù)據(jù)橢圓的相對大小是方差異質性缺乏的另一個視覺指標。
規(guī)范化的HE圖
使用規(guī)范判別分析的HE圖可以概括展示出規(guī)范判別分析的結果。變量向量與規(guī)范結構圖中的變量向量相同。heplot(dabcn, fill=c(TRUE, FALSE), fil.apha=0.1, var.lwd=2)

## 矢量比例因子設置為12.06
線性判別分析和二次判別分析
線性判別分析(LDA)在精神上與多元方差分析(MANOVA)類似,但重點是分類而不是測試均值之間的差異。此外,LDA允許指定組成員身份的先驗概率,以使分類錯誤率與所關注人群中獲得的結果可比較。二次判別分析允許組之間的協(xié)方差矩陣存在差異,并給出二次而不是線性的分類邊界。
從LDA的角度來看,可視化結果的一個目標是通過LD1和LD2的得分來查看分類的邊界。

遞歸分區(qū)決策樹
遞歸分區(qū)是一種創(chuàng)建決策樹的方法,旨在對人群的成員進行分類。它使用預測因子的二分間隔將數(shù)據(jù)遞歸地分割成子群體。 對于糖尿病數(shù)據(jù),結果非常簡單:當glutest < 420
時,將正常組與兩個臨床組區(qū)分開來。對于后者,glufast < 117
將個體分類為化學性糖尿病而不是明顯性糖尿病。
diabart <- rpart(

使用rpart.plot包可以繪制分區(qū)樹的漂亮圖形。節(jié)點中的數(shù)字給出了每個組中分類的比例。
rpart.plot(, box.pal

這樣做效果如何?我們可以查看預測的組成員資格與實際結果之間的表格,并計算錯誤率。效果還不錯!
(class.pred <- table(predicted# 錯誤率1 - sum(diag(class.pred))/sum(class.pred)## [1] 0.013

參考資料
Friendly, M. & Sigal, M. (2017) Visualizing Tests of Equality of Covariance Matrices. Submitted for publication.
Reaven, G. M. & Miller, R. G. (1979). An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional Analysis?Diabetologia,?16, 17-24.

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應用案例
2.面板平滑轉移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.在R語言中實現(xiàn)Logistic邏輯回歸
8.python用線性回歸預測股票價格
9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標