拓端tecdat|R語言邏輯回歸、隨機(jī)森林、SVM支持向量機(jī)預(yù)測(cè)Framingham心臟病風(fēng)險(xiǎn)和模型
原文鏈接:http://tecdat.cn/?p=24973?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
簡介
世界衛(wèi)生組織估計(jì)全世界每年有 1200 萬人死于心臟病。在美國和其他發(fā)達(dá)國家,一半的死亡是由于心血管疾病。心血管疾病的早期預(yù)后可以幫助決定改變高?;颊叩纳罘绞?,從而減少并發(fā)癥。本研究旨在查明心臟病最相關(guān)/風(fēng)險(xiǎn)因素,并使用機(jī)器學(xué)習(xí)預(yù)測(cè)總體風(fēng)險(xiǎn)。
?
數(shù)據(jù)準(zhǔn)備?
來源
該數(shù)據(jù)集來自對(duì)居民正在進(jìn)行的心血管研究。分類目標(biāo)是預(yù)測(cè)患者未來是否有 10 年患冠心病 (CHD) 的風(fēng)險(xiǎn)。數(shù)據(jù)集提供了患者的信息。它包括超過 4,000 條記錄和 15 個(gè)屬性。
變量
每個(gè)屬性都是一個(gè)潛在的風(fēng)險(xiǎn)因素。有人口、行為和醫(yī)療風(fēng)險(xiǎn)因素。
?人口統(tǒng)計(jì):
? 性別:男性或女性(標(biāo)量)
? 年齡:患者年齡;(連續(xù) - 盡管記錄的年齡已被截?cái)酁檎麛?shù),但年齡的概念是連續(xù)的)
行為
? 當(dāng)前吸煙者:患者是否是當(dāng)前吸煙者(標(biāo)量)
? 每天吸煙數(shù):此人一天內(nèi)平均吸煙的香煙數(shù)量。(可以認(rèn)為是連續(xù)的,因?yàn)橐粋€(gè)人可以擁有任意數(shù)量的香煙,甚至半支香煙。)
? BP Meds:患者是否服用降壓藥(標(biāo)量)
?中風(fēng):患者之前是否有中風(fēng)(標(biāo)量)
?? Hyp:患者是否患有高血壓(標(biāo)量)
? 糖尿?。夯颊呤欠窕加刑悄虿。?biāo)量)
? Tot Chol:總膽固醇水平(連續(xù))
? Sys BP:收縮壓(連續(xù))
? Dia BP:舒張壓(連續(xù))
? BMI:體重指數(shù)(連續(xù))
? 心率:心率(連續(xù) - 在醫(yī)學(xué)研究中,心率等變量雖然實(shí)際上是離散的,但由于存在大量可能值而被認(rèn)為是連續(xù)的。)
? 葡萄糖:葡萄糖水平(連續(xù))
預(yù)測(cè)變量(預(yù)期目標(biāo))
? 10 年患冠心病 CHD 的風(fēng)險(xiǎn)(二進(jìn)制:“1”表示“是”,“0”表示“否”)
心臟病預(yù)測(cè)
數(shù)據(jù)預(yù)處理
查看和處理缺失值
由上圖可以看出,除了glucose變量,其它變量的缺失比例都低于5%,而glucose變量缺失率超過了10%。對(duì)此的處理策略是保留glucose變量的缺失值,直接刪除其它變量的缺失值。 現(xiàn)在處理glucose的缺失值,
?
填充,排除不重要的變量。至于為什么不選diaBP,主要是后面的相關(guān)性分析中,這兩個(gè)變量會(huì)造成多重共線性。
?
刪除重復(fù)行
查看離群點(diǎn)
totChol: 總膽固醇水平大于240mg/dl已屬于非常高,故刪去水平值為600mg/dl的記錄。 sysBP: 去掉收縮壓為295mg/dl的記錄
由圖像知,glucose和hearRate變量有不顯著的風(fēng)險(xiǎn)
diaBP和sysBP有多重共線性的問題。?
currentsmoker變量可能不顯著,下面進(jìn)入模型部分。
模型
邏輯回歸
?
隨機(jī)森林
這里有患病風(fēng)險(xiǎn)的誤差不降反升,需要探究其中原因
SVM支持向量機(jī)
模型診斷
根據(jù)上面三個(gè)模型的結(jié)果,可以看出預(yù)測(cè)結(jié)果的類別數(shù)量分布非常不均衡
針對(duì)這一現(xiàn)象,需要采取方法平衡數(shù)據(jù)集。
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測(cè)心臟病
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語言用邏輯回歸、決策樹和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)