最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

數(shù)據(jù)分享|邏輯回歸、隨機森林、SVM支持向量機預測心臟病風險數(shù)據(jù)和模型診斷可視化|附

2023-04-26 18:48 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=24973

最近我們被客戶要求撰寫關于心臟病的研究報告,包括一些圖形和統(tǒng)計輸出。

世界衛(wèi)生組織估計全世界每年有 1200 萬人死于心臟病。在美國和其他發(fā)達國家,一半的死亡是由于心血管疾病

簡介

心血管疾病的早期預后可以幫助決定改變高?;颊叩纳罘绞?,從而減少并發(fā)癥。本研究旨在查明心臟病最相關/風險因素,并使用機器學習預測總體風險。

數(shù)據(jù)準備?

來源

該數(shù)據(jù)集?(?查看文末了解數(shù)據(jù)獲取方式?)?來自對居民正在進行的心血管研究。分類目標是預測患者未來是否有 10 年患冠心病 (CHD) 的風險。數(shù)據(jù)集提供了患者的信息。它包括超過 4,000 條記錄和 15 個屬性。

變量

每個屬性都是一個潛在的風險因素。有人口、行為和醫(yī)療風險因素。

人口統(tǒng)計:
? 性別:男性或女性(標量)
? 年齡:患者年齡;(連續(xù) - 盡管記錄的年齡已被截斷為整數(shù),但年齡的概念是連續(xù)的)
行為
? 當前吸煙者:患者是否是當前吸煙者(標量)
? 每天吸煙數(shù):此人一天內(nèi)平均吸煙的香煙數(shù)量。(可以認為是連續(xù)的,因為一個人可以擁有任意數(shù)量的香煙,甚至半支香煙。)
? BP Meds:患者是否服用降壓藥(標量)
?中風:患者之前是否有中風(標量)
?? Hyp:患者是否患有高血壓(標量)
? 糖尿?。夯颊呤欠窕加刑悄虿。肆浚?br>? Tot Chol:總膽固醇水平(連續(xù))
? Sys BP:收縮壓(連續(xù))
? Dia BP:舒張壓(連續(xù))
? BMI:體重指數(shù)(連續(xù))
? 心率:心率(連續(xù) - 在醫(yī)學研究中,心率等變量雖然實際上是離散的,但由于存在大量可能值而被認為是連續(xù)的。)
? 葡萄糖:葡萄糖水平(連續(xù))
預測變量(目標)
? 10 年患冠心病 CHD 的風險(二元:“1”表示“是”,“0”表示“否”)

心臟病預測

#?獲取數(shù)據(jù)rdaa?<-?read.csv(路徑)#?這邊可以考慮增加變量收縮壓與舒張壓之差、描述收縮壓、舒張壓與高血壓等級的變量#?看數(shù)據(jù)結構str(ata)

#?考慮增加變量bplevelraw_data?<-?sqldf#?對變量類別進行區(qū)分ra_da?<-?mapstr(ra_da?)

數(shù)據(jù)預處理

查看和處理缺失值

#?這里我們使用mice包進行缺失值處理aggr

matplot

點擊標題查閱往期內(nèi)容

R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病

左右滑動查看更多

01

02

03

04

由上圖可以看出,除了glucose變量,其它變量的缺失比例都低于5%,而glucose變量缺失率超過了10%。對此的處理策略是保留glucose變量的缺失值,直接刪除其它變量的缺失值?,F(xiàn)在處理glucose的缺失值,

#?處理glucose列lee_a?<-?subset?&?!is.na?&?!is.na?&?!is.na?&?!is.na?&?!is.na#?查看glce與其它變量的線性相關性確定mice的填充策略gcog?=?glm(lcse?~?.)smry(glseg)

填充,排除不重要的變量。至于為什么不選diaBP,主要是后面的相關性分析中,這兩個變量會造成多重共線性。

mice%in%??m=5,??"pmm",?mai?=?50,?sd=2333,?pint=?FALSE)#查看填充結果smr(mc_od)

#?查看原始數(shù)據(jù)和插補后的數(shù)據(jù)分布情況epot(mi_md)

sipt(mcod,?pch=12)

#?填充數(shù)據(jù)mi_t?<-?complete fir_aa$loe?<-?miout$guosesum(is.na(flda))

刪除重復行

#?查看有無重復行并刪除重復行sum(duplicated

comd_ata?<-?comdta[!duplicated(),?]

查看離群點

#查看異常值gplot(coedta)+geom_boxplot(ae(ftr(1),age))

ggplot(copd_dta)+geom_boxplot(aes(factor(1cigDy))

ggplot(coea)+geom_boxplot(aes(factor(1),ttl))

ggplot(colt_ta)+geom_boxplot(aes(factor(1),syBP))

ggplot(comeaa)+geom_boxplot(aes(factor(1),daP))

ggplot()+gem_boxplot(aes(factor(1),BMI))

#?查看cigsPerDaycigs_sub?<-?comled_dta#?查看totChol,刪除異常點#?查看sysBP,?刪除異常點#?查看BMI

totChol: 總膽固醇水平大于240mg/dl已屬于非常高,故刪去水平值為600mg/dl的記錄。sysBP: 去掉收縮壓為295mg/dl的記錄

#?刪除各變量離群點competedata#?分類型變量列聯(lián)分析ggplot+geom_boxplot

ggplot+geom_boxplot(aes,totChol,fill=TenYerCHD))

cometddata?%>%?fitr?%>%?ggplot

由圖像知,glucose和hearRate變量有不顯著的風險

table1=table chisq.test

table1

table2=table chisq.test

table3=table chisq.test

chisq.test

ggpairs

diaBP和sysBP有多重共線性的問題。?

currentSmoker變量可能不顯著,下面進入模型部分。

模型

#?劃分數(shù)據(jù)集split?=?sample.splittrain?=?subset

邏輯回歸

#?邏輯回歸模型?-?使用所有變量fultaog?=?glm summary(fulog)

fldaog?=?glm summary(fuatLg)

prdts?=?predict glm_le?<-?tableACCU

隨機森林

rfoel?<-?randomForest#?獲得重要性imprace

相關視頻:Boosting原理與R語言提升回歸樹BRT預測短鰭鰻分布

**

拓端數(shù)據(jù)部落

,贊6

#?選擇重要的因素rfmdel?<-?randomForest#?誤差plot

#?獲取重要性ggplot?+ ???geom_bar ???geom_text

這里有患病風險的誤差不降反升,需要探究其中原因

#?繪制分類圖像pred<-predict pdou_1<-predict??#輸出概率table?<-?tablesum(diag/sum?#預測準確率

plot(margin

SVM支持向量機

#?先進行模型調優(yōu)tud?<-?tune.svm summary(tud?)


#?使用turning函數(shù)得到最佳參數(shù)設置支持向量機mel.nd?<-?svmcost=tuned$ summary(modted)

#?調用predict函數(shù)基于剛配置好的SVM模型進行類標號的預測:sm.ne.ed?<-?predict sv.tuedtble?<-?table sm.ue.tbe

acy.s.vm?<-?sum(diag)/sum

模型診斷

根據(jù)上面三個模型的結果,可以看出預測結果的類別數(shù)量分布非常不均衡

sum

sum(TeYaHD?==?0)

針對這一現(xiàn)象,需要采取方法平衡數(shù)據(jù)集。

數(shù)據(jù)獲取

在下面公眾號后臺回復“心臟病風險數(shù)據(jù)”,可獲取完整數(shù)據(jù)。

本文摘選?《R語言邏輯回歸、隨機森林、SVM支持向量機預測FRAMINGHAM心臟病風險和模型診斷可視化》?,點擊“閱讀原文”獲取全文完整資料。

點擊標題查閱往期內(nèi)容

高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡elastic net分析基因數(shù)據(jù)分類回歸決策樹交互式修剪和更美觀地可視化分析細胞圖像分割數(shù)據(jù)集
實現(xiàn)廣義相加模型GAM和普通最小二乘(OLS)回歸
貝葉斯線性回歸和多元線性回歸構建工資預測模型
Python支持向量回歸SVR擬合、預測回歸數(shù)據(jù)和可視化準確性檢查實例
邏輯回歸(對數(shù)幾率回歸,Logistic)分析研究生錄取數(shù)據(jù)實例
廣義線性模型glm泊松回歸的lasso、彈性網(wǎng)絡分類預測學生考試成績數(shù)據(jù)和交叉驗證
非線性回歸nls探索分析河流階段性流量數(shù)據(jù)和評級曲線、流量預測可視化
特征選擇方法——最佳子集回歸、逐步回歸
線性回歸和時間序列分析北京房價影響因素可視化案例
貝葉斯分位數(shù)回歸、lasso和自適應lasso貝葉斯分位數(shù)回歸分析免疫球蛋白、前列腺癌數(shù)據(jù)
用加性多元線性回歸、隨機森林、彈性網(wǎng)絡模型預測鮑魚年齡和可視化
PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯和KMEANS聚類用戶畫像
PYTHON集成機器學習:用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化
R語言集成模型:提升樹boosting、隨機森林、約束最小二乘法加權平均模型融合分析時間序列數(shù)據(jù)
Python對商店數(shù)據(jù)進行l(wèi)stm和xgboost銷售量時間序列建模預測分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數(shù)據(jù)并高維可視化
R語言基于樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進行分類預測
spss modeler用決策樹神經(jīng)網(wǎng)絡預測ST的股票
R語言中使用線性模型、回歸決策樹自動組合特征因子水平
R語言中自編基尼系數(shù)的CART回歸決策樹的實現(xiàn)
R語言用rle,svm和rpart決策樹進行時間序列預測
python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者
python中使用scikit-learn和pandas決策樹進行iris鳶尾花數(shù)據(jù)分類建模和交叉驗證
R語言里的非線性模型:多項式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析
R語言用標準最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進行邏輯回歸LOGISTIC分類
R語言ISLR工資數(shù)據(jù)進行多項式回歸和樣條回歸分析
R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型
R語言用泊松Poisson回歸、GAM樣條曲線模型預測騎自行車者的數(shù)量
R語言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對電力負荷時間序列預測R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態(tài)可視化
如何用R語言在機器學習中建立集成模型?
R語言ARMA-EGARCH模型、集成預測算法對SPX實際波動率進行預測在python 深度學習Keras中計算神經(jīng)網(wǎng)絡集成模型R語言ARIMA集成模型預測時間序列分析R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言基于樹的方法:決策樹,隨機森林,Bagging,增強樹
R語言基于Bootstrap的線性回歸預測置信區(qū)間估計方法
R語言使用bootstrap和增量法計算廣義線性模型(GLM)預測置信區(qū)間
R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態(tài)可視化
Python對商店數(shù)據(jù)進行l(wèi)stm和xgboost銷售量時間序列建模預測分析
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數(shù)據(jù)和可視化分析
R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數(shù)據(jù)并高維可視化
Matlab建立SVM,KNN和樸素貝葉斯模型分類繪制ROC曲線
matlab使用分位數(shù)隨機森林(QRF)回歸樹檢測異常值


數(shù)據(jù)分享|邏輯回歸、隨機森林、SVM支持向量機預測心臟病風險數(shù)據(jù)和模型診斷可視化|附的評論 (共 條)

分享到微博請遵守國家法律
海盐县| 山阴县| 东乌| 德江县| 沧州市| 临西县| 肇源县| 屏南县| 且末县| 高雄县| 石景山区| 隆化县| 迭部县| 峨边| 阿城市| 沛县| 四子王旗| 淳化县| 姚安县| 班戈县| 彭山县| 广东省| 霸州市| 揭西县| 永清县| 壶关县| 陆丰市| 岳西县| 扎兰屯市| 马山县| 新宾| 崇信县| 阳西县| 石河子市| 凤山县| 敦煌市| 大方县| 东安县| 永德县| 扬中市| 加查县|