拓端tecdat|R語言邏輯回歸(Logistic回歸)模型分類預(yù)測病人冠心病風(fēng)險(xiǎn)
原文鏈接:http://tecdat.cn/?p=22410?
原文出處:拓端數(shù)據(jù)部落公眾號
本文的目的是完成一個(gè)邏輯回歸分析。使你對分析步驟和思維過程有一個(gè)基本概念。
這些數(shù)據(jù)來自一項(xiàng)正在進(jìn)行的對鎮(zhèn)居民的心血管研究。其目的是預(yù)測一個(gè)病人是否有未來10年的冠心病風(fēng)險(xiǎn)。該數(shù)據(jù)集包括以下內(nèi)容。
男性:0=女性;1=男性
年齡。
教育。1 = 高中以下;2 = 高中;3 = 大學(xué)或職業(yè)學(xué)校;4 = 大學(xué)以上
當(dāng)前是否吸煙。0=不吸煙;1=吸煙者
cigsPerDay: 每天抽的煙數(shù)量(估計(jì)平均)。
BPMeds: 0 = 不服用降壓藥;1 = 正在服用降壓藥
中風(fēng)。0 = 家族史中不存在中風(fēng);1 = 家族史中存在中風(fēng)
高血壓。0 =高血壓在家族史上不流行;1 =高血壓在家族史上流行
糖尿?。? = 沒有;1 = 有
totChol: 總膽固醇(mgdL)
sysBP: 收縮壓(mmHg)
diaBP: 舒張壓(mmHg)
BMI: 體重指數(shù)
心率?
葡萄糖:總葡萄糖mgdL
TenYearCHD: 0 = 患者沒有未來10年冠心病的風(fēng)險(xiǎn); 1 = 患者有未來10年冠心病的風(fēng)險(xiǎn)
加載并準(zhǔn)備數(shù)據(jù)
擬合邏輯回歸模型

預(yù)測
對于新病人

預(yù)測對數(shù)幾率
?

預(yù)測概率

根據(jù)這個(gè)概率,你是否認(rèn)為這個(gè)病人在未來10年內(nèi)有患冠心病的高風(fēng)險(xiǎn)?為什么?

混淆矩陣


有多大比例的觀察結(jié)果被錯(cuò)誤分類?
依靠混淆矩陣來評估模型的準(zhǔn)確性有什么缺點(diǎn)?
roc曲線

?

一位醫(yī)生計(jì)劃使用你的模型的結(jié)果來幫助選擇病人參加一個(gè)新的心臟病預(yù)防計(jì)劃。她問你哪個(gè)閾值最適合為這個(gè)項(xiàng)目選擇病人。根據(jù)roc曲線,你會(huì)向醫(yī)生推薦哪個(gè)閾值?為什么?
假設(shè)
為什么我們不繪制原始?xì)埐睿?/h1>

分級的殘差圖



檢查假設(shè):
- 線性?- 隨機(jī)性?- 獨(dú)立性?
系數(shù)的推斷
currentSmoker1的測試統(tǒng)計(jì)量是如何計(jì)算的?
在統(tǒng)計(jì)學(xué)上,totalCholCent是否是預(yù)測一個(gè)人患冠心病高風(fēng)險(xiǎn)的重要因素?
用檢驗(yàn)統(tǒng)計(jì)量和P值來證明你的答案。
用置信區(qū)間說明你的答案。
偏離偏差檢驗(yàn)


AIC

根據(jù)偏離偏差檢驗(yàn),你會(huì)選擇哪個(gè)模型?
基于AIC,你會(huì)選擇哪個(gè)模型?
使用
選擇模型
?




最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.在R語言中實(shí)現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測股票價(jià)格
9.R語言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)
拓端tecdat|R語言邏輯回歸(Logistic回歸)模型分類預(yù)測病人冠心病風(fēng)險(xiǎn)的評論 (共 條)
