最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

R語言分析糖尿病數(shù)據(jù):多元線性模型、MANOVA、決策樹、典型判別分析、HE圖、Box's M檢

2023-09-08 22:18 作者:拓端tecdat  | 我要投稿

全文鏈接:https://tecdat.cn/?p=33609

原文出處:拓端數(shù)據(jù)部落公眾號

背景

Reaven和Miller(1979)研究了145名非肥胖成年人的葡萄糖耐量和胰島素血液化學指標之間的關系。他們使用斯坦福線性加速器中心的PRIM9系統(tǒng)將數(shù)據(jù)可視化為3D,并發(fā)現(xiàn)了一個奇特的圖案,看起來像是一個有兩個翼的大斑點。

本文幫助客戶使用這些數(shù)據(jù)來說明多元線性模型的各種圖形方法。正如我們將看到的那樣,這些數(shù)據(jù)在幾個方面都是奇特的,并且標準的MANOVA存在問題,因為某些假設被違反了。

設置

讀取數(shù)據(jù)

str(Diabetes)

這些變量是:

  • relwt:相對體重,表示實際體重與人的身高相比的期望體重的比率

  • glufast:空腹血漿葡萄糖水平

  • glutest:測試血漿葡萄糖水平,測量葡萄糖不耐受的程度,

  • instest:測試中的血漿胰島素,測量口服葡萄糖的胰島素反應,

  • sspg:穩(wěn)態(tài)血漿葡萄糖,測量胰島素抵抗性

  • group:診斷組

數(shù)據(jù)的橢圓和方差齊性

我們首先繪制數(shù)據(jù)集中三個變量的協(xié)方差橢圓。

從這個結果中可以清楚地看出,這里存在方差-協(xié)方差矩陣的異質性問題。正常組顯示了最小的方差,而明顯糖尿病組則顯示了最大的方差。

covEllipses(Diabetes

在圖表中的(a)和(b)面板中,從正常到化學再到明顯似乎存在直接的進展。然而,在其他面板中并非如此,在那里化學糖尿病群體與正常人在一個方向上不同,而明顯糖尿病群體在另一個方向上有所不同,并且其內部群體相關性與其他群體呈相反的符號。這在單獨的散點圖中更容易看到,例如以下示例。

這個發(fā)現(xiàn)是Reaven和Miller得出化學糖尿病和明顯糖尿病反映不同疾病狀態(tài)而不是逐漸加重的結論的部分原因。

另外,我們注意到可以使用scatter3d``car包中的三維散點圖更容易地看到組之間的差異。

scatter3d

帶有50%數(shù)據(jù)橢圓體的糖尿病數(shù)據(jù)的三維散點圖

Box's M檢驗

Box's M檢驗確認協(xié)方差矩陣存在顯著的異質性。

diab.boxm <- box

對數(shù)行列式按照我們在協(xié)方差橢圓圖中看到的數(shù)據(jù)橢圓體的大小進行排序。

擬合MLM模型

對組間均值差異擬合MANOVA模型。

MANOVA顯示group對響應變量集合有高度顯著影響。

Anova(diab.mlm)

在 QQ 圖中檢查殘差

MANOVA 的另一個假設是殘差服從多元正態(tài)分布??梢酝ㄟ^卡方 QQ 圖進行視覺評估。 從下圖可以看出,數(shù)據(jù)點與紅色的等值線明顯不同。有太多具有較大 D2 值的數(shù)據(jù)點。

qplot(da.ml)

HE 圖

HE 圖顯示了各均值之間的 H 橢圓以及誤差的 E 橢圓。

默認情況下,將繪制前兩個響應變量。結果顯示出在 Normal 和 Chemical 變量上的均值排序較為明顯。

hplot(diab.

對于 MLM 的方法會給出一個散點圖矩陣,其中包含所有響應變量之間的 HE 圖。從結果中可以看出,Diabetes 變量的模式與其他變量不同。

pairs(diblm, fill=TRUE, fill.alpha=0.1)

典型判別分析

典型判別分析將數(shù)據(jù)有效地投影到響應的線性組合空間,這個空間解釋了組間方差相對于組內方差的最大比例。

diab.an

典型判別圖

plot(dib.an, fill=TRUE, fill.alpha=0.1)

通過一個對象的方法,將典型維度上的分數(shù)繪制出來,并在每個組上疊加 60% 的數(shù)據(jù)橢圓。組均值的位置顯示了它們在典型維度上的表現(xiàn)。

響應變量與典型維度的關系通過矢量(類似于雙標圖)顯示出來。每個矢量由其與典型維度的相關系數(shù)(結構系數(shù))定義。1

plot(diab.can, ellipse=TRUE, var.lwd=2)

?在這個圖中可以看到:

  • 第一維與glufast、glutest高度相關,而且組別按照Normal < Chemical < Overt的順序排列。

  • 第二維將Diabetic組與其他兩個組區(qū)分開來。這個維度與檢測過程中的血漿胰島素水平密切相關。這驗證了我們在HE矩陣圖中對所有響應變量的觀察結果。

  • 規(guī)范化的得分數(shù)據(jù)橢圓的相對大小是方差異質性缺乏的另一個視覺指標。

規(guī)范化的HE圖

使用規(guī)范判別分析的HE圖可以概括展示出規(guī)范判別分析的結果。變量向量與規(guī)范結構圖中的變量向量相同。heplot(dabcn, fill=c(TRUE, FALSE), fil.apha=0.1, var.lwd=2)

## 矢量比例因子設置為12.06

線性判別分析和二次判別分析

線性判別分析(LDA)在精神上與多元方差分析(MANOVA)類似,但重點是分類而不是測試均值之間的差異。此外,LDA允許指定組成員身份的先驗概率,以使分類錯誤率與所關注人群中獲得的結果可比較。二次判別分析允許組之間的協(xié)方差矩陣存在差異,并給出二次而不是線性的分類邊界。

從LDA的角度來看,可視化結果的一個目標是通過LD1和LD2的得分來查看分類的邊界。

遞歸分區(qū)決策樹

遞歸分區(qū)是一種創(chuàng)建決策樹的方法,旨在對人群的成員進行分類。它使用預測因子的二分間隔將數(shù)據(jù)遞歸地分割成子群體。 對于糖尿病數(shù)據(jù),結果非常簡單:當glutest < 420時,將正常組與兩個臨床組區(qū)分開來。對于后者,glufast < 117將個體分類為化學性糖尿病而不是明顯性糖尿病。

diabart <- rpart(

使用rpart.plot包可以繪制分區(qū)樹的漂亮圖形。節(jié)點中的數(shù)字給出了每個組中分類的比例。

rpart.plot(, box.pal

這樣做效果如何?我們可以查看預測的組成員資格與實際結果之間的表格,并計算錯誤率。效果還不錯!

(class.pred <- table(predicted# 錯誤率1 - sum(diag(class.pred))/sum(class.pred)## [1] 0.013

參考資料

Friendly, M. & Sigal, M. (2017) Visualizing Tests of Equality of Covariance Matrices. Submitted for publication.

Reaven, G. M. & Miller, R. G. (1979). An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional Analysis?Diabetologia,?16, 17-24.

最受歡迎的見解

1.R語言多元Logistic邏輯回歸 應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現(xiàn)

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗

6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)

7.在R語言中實現(xiàn)Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標


R語言分析糖尿病數(shù)據(jù):多元線性模型、MANOVA、決策樹、典型判別分析、HE圖、Box's M檢的評論 (共 條)

分享到微博請遵守國家法律
都昌县| 盈江县| 伊川县| 时尚| 上虞市| 始兴县| 德江县| 巴东县| 南平市| 林甸县| 孟州市| 澄城县| 凉山| 郁南县| 禹州市| 大埔县| 宁强县| 正宁县| SHOW| 松溪县| 玉屏| 资中县| 常德市| 长泰县| 灵武市| 洛川县| 扎囊县| 榆社县| 庄河市| 台州市| 宁阳县| 布尔津县| 龙泉市| 特克斯县| 灵山县| 苗栗市| 澄城县| 玉门市| 黔东| 隆化县| 孝感市|