最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析|附代碼數(shù)據(jù)

2023-02-02 23:15 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=22596

最近我們被客戶要求撰寫關(guān)于預(yù)測(cè)心臟病的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。

本報(bào)告是對(duì)心臟研究的機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)調(diào)查分析。更具體地說(shuō),我們的目標(biāo)是在心臟研究的數(shù)據(jù)集上建立一些預(yù)測(cè)模型,并建立探索性和建模方法。但什么是心臟研究?

研究大綱

  • 介紹數(shù)據(jù)集和研究的目標(biāo)

  • 探索數(shù)據(jù)集

  • 可視化

  • 使用Chi-Square獨(dú)立檢驗(yàn)、Cramer's V檢驗(yàn)和GoodmanKruskal tau值對(duì)數(shù)據(jù)集進(jìn)行探索

  • 預(yù)測(cè)模型,Logisitic回歸和RandomForest

  • step()

  • bestglm()

  • 兩個(gè)邏輯回歸的實(shí)例

  • 使用5折交叉驗(yàn)證對(duì)模型實(shí)例進(jìn)行評(píng)估

  • 變量選擇改進(jìn)

  • 隨機(jī)森林模型

  • 用RandomForest和Logisitc回歸進(jìn)行預(yù)測(cè)

  • 使用可視化進(jìn)行最終的模型探索

  • 結(jié)論和下一步改進(jìn)

1.簡(jiǎn)介

我們閱讀了關(guān)于FHS的資料:

心臟研究是對(duì)社區(qū)自由生活的人群中心血管疾病病因的長(zhǎng)期前瞻性研究。心臟研究是流行病學(xué)的一個(gè)里程碑式的研究,因?yàn)樗堑谝粋€(gè)關(guān)于心血管疾病的前瞻性研究,并確定了風(fēng)險(xiǎn)因素的概念。

該數(shù)據(jù)集是FHS數(shù)據(jù)集的一個(gè)相當(dāng)小的子集,有4240個(gè)觀測(cè)值和16個(gè)變量。這些變量如下:

  1. 觀測(cè)值的性別。該變量在數(shù)據(jù)集中是一個(gè)名為 "男性 "的二值。

  2. 年齡:體檢時(shí)的年齡,單位為歲。

  3. 教育 : 參與者教育程度的分類變量,有不同的級(jí)別。一些高中(1),高中/GED(2),一些大學(xué)/職業(yè)學(xué)校(3),大學(xué)(4)

  4. 目前吸煙者。

  5. 每天抽的煙的數(shù)量

  6. 檢查時(shí)使用抗高血壓藥物的情況

  7. 流行性中風(fēng)。流行性中風(fēng)(0 = 無(wú)?。?。

  8. 流行性高血壓(prevalentHyp)。流行性高血壓。如果接受治療,受試者被定義為高血壓

  9. 糖尿病。根據(jù)第一次檢查的標(biāo)準(zhǔn)治療的糖尿病患者

  10. 總膽固醇(mg/dL)

  11. 收縮壓(mmHg)

  12. 舒張壓(mmHg)

  13. BMI: 身體質(zhì)量指數(shù),體重(公斤)/身高(米)^2

  14. 心率(次/分鐘)

  15. 葡萄糖。血糖水平(mg/dL)

最后是因變量:冠心?。–HD)的10年風(fēng)險(xiǎn)。

這4240條記錄中有3658條是完整的病例,其余的有一些缺失值。

2.了解數(shù)據(jù)的意義

在每一步之前,要加載所需的庫(kù)。

require(knitr)require(dplyr)require(ggplot2)require(readr)require(gridExtra)?#呈現(xiàn)多幅圖

然后,加載心臟研究的數(shù)據(jù)集。

2.1 變量和數(shù)據(jù)集結(jié)構(gòu)的檢查

我們對(duì)數(shù)據(jù)集進(jìn)行一次檢查。

dim(dataset)

kable(head(dataset))

str(dataset)

##檢查變量的摘要summary(dataset)

2.2 數(shù)據(jù)集的單變量圖

生成一個(gè)數(shù)據(jù)集的所有單變量圖。

#?需要?jiǎng)h除字符、時(shí)間和日期等變量?????????????????????????????????????????????????????geom_bar(data?=?dataset, ?????????????????????????????????????????????????????theme_linedraw()+#colnames(dataset)????????marrangeGrob(grobs=all_plots,?nrow=2,?ncol=2)

這是為了獲得對(duì)變量,對(duì)整個(gè)問(wèn)題和數(shù)據(jù)集的理解,將通過(guò)多變量或至少雙變量的可視化來(lái)實(shí)現(xiàn)。

2.3 數(shù)據(jù)集的雙變量圖:因變量和預(yù)測(cè)因素之間的關(guān)系

現(xiàn)在我們可以進(jìn)行一些雙變量的可視化,特別是為了看到因變量(TenYearCHD)和預(yù)測(cè)因素之間的關(guān)系。由于圖的數(shù)量太多,不是所有的一對(duì)變量都能被調(diào)查到!我們可以在后面的步驟中繼續(xù)調(diào)查。我們可以稍后再回到這一步,深入了解。

下面的代碼可以生成因變量的所有雙變量圖。由于因變量是一個(gè)二元變量,所以當(dāng)預(yù)測(cè)變量是定量的時(shí)候,我們會(huì)有boxplots,或者當(dāng)預(yù)測(cè)變量是定性的時(shí)候,我們會(huì)有分段的bar圖。

for?(var?in?colnames(dataset)?){ ????????if?(class(dataset[,var])?%in%?c("factor","logical")?)?{ ggplot(data?=?dataset)??+? ????????????????????????geom_bar(?aes_string(x?=?var, ???????????????????????? ??????????????????????????????????????????????????? ????????}?else?if?(class(dataset[,var])?%in%?c("numeric","double","integer")?)?{ ?ggplot(data?=?dataset)?+? ????????????????????????geom_boxplot()

根據(jù)我們掌握的情況,男性與TenYearCHD直接相關(guān),因此男性這個(gè)變量似乎是一個(gè)相對(duì)較好的預(yù)測(cè)因素。同樣,年齡似乎也是一個(gè)很好的預(yù)測(cè)因素,因?yàn)門enYearCHD == TRUE的病人有較高的年齡中位數(shù),其分布幾乎相似。相反,不同類別的教育和因變量之間似乎沒(méi)有關(guān)系。目前的吸煙者變量與因變量有輕微的關(guān)系,因?yàn)槟壳暗奈鼰熣呋糡enYearCHD的風(fēng)險(xiǎn)略高。

2.4 使用Goodman&Kruskal tau檢驗(yàn)定性變量之間的關(guān)系

然而,除了這些本質(zhì)上是定性方法的圖表外,人們可能希望對(duì)這種關(guān)聯(lián)有一個(gè)數(shù)字值。為了有這樣的數(shù)字測(cè)量,我想使用Goodman&Kruskal的tau測(cè)量,這是兩個(gè)無(wú)序因子,即兩個(gè)分類/名義變量之間的關(guān)聯(lián)測(cè)量。在我們這個(gè)數(shù)據(jù)集中的因子變量中,只有教育是_序數(shù)變量_,即它的類別有意義。這種測(cè)量方法比Cramer's V或chi-square測(cè)量方法更具信息量。

GKtauData(cat_variables)plot(dataset)

可以看出,關(guān)于因變量的變異性,預(yù)測(cè)因素的解釋力非常小。換句話說(shuō),根據(jù)Goodman和Kruskal's tau度量,我們的預(yù)測(cè)因素和因變量之間幾乎沒(méi)有關(guān)聯(lián)。這可以從TenYearCHD一欄的數(shù)值中看出。

假設(shè)我的G&Ktau檢驗(yàn)正確的話,這對(duì)模型來(lái)說(shuō)并不是一個(gè)好消息。

為了檢驗(yàn)這些發(fā)現(xiàn),我們可以用Chi-square檢驗(yàn)來(lái)檢驗(yàn)分類變量與因變量的關(guān)聯(lián)的顯著性,然后用Phi相關(guān)系數(shù)來(lái)評(píng)估可能的關(guān)聯(lián)的強(qiáng)度。Phi用于2x2等值表。對(duì)于更大的表格,即有更多層次的變量,可以利用Cramer's V。

chisq.test(table(dataset_cat$p.value?))

????????phi(matrix(table(dataset_cat_variables[,7],

奇怪的是,當(dāng)Chi-square的P值如此之低時(shí),可能的關(guān)聯(lián)的顯著性為零。這兩個(gè)測(cè)試(Chi-square和Phi相關(guān))在大量的觀察中基本上得出相同的結(jié)果,因?yàn)橐粋€(gè)是基于正態(tài)分布的,另一個(gè)是基于t分布的。

2.5 多重共線性的雙變量分析

該模型的真正問(wèn)題在于共線性現(xiàn)象。共線性關(guān)系發(fā)生在兩個(gè)預(yù)測(cè)因子高度相關(guān)的情況下。我們需要檢查這種特性,然后繼續(xù)建立對(duì)數(shù)回歸模型。

根據(jù)Goodman和Kruskal's tau圖,我們不應(yīng)該擔(dān)心共線性。但是,有序變量的教育變量呢?Cramer's V檢驗(yàn)顯示,其強(qiáng)度不大。

#??教育與其他分類變量的Chi?square獨(dú)立性測(cè)試?? chisq.test(table(education,variables[,x]))$p.value?)

#將教育變量重新定位到數(shù)據(jù)集的第一個(gè)變量上?????????assocstats(x?=?table(dataset_cat_variables[,1],?dataset_$cramer?)?)

沒(méi)有一個(gè)變量顯示與教育有很強(qiáng)的關(guān)聯(lián)。Cramer's V的最高值是0.145,這在教育和性別之間是相當(dāng)弱的。

但是諸如currentSmoker和cigsPerDay這樣的變量呢?很明顯,其中一個(gè)是可以預(yù)測(cè)的。有一個(gè)數(shù)字變量和一個(gè)分類變量,我們可以把數(shù)字變量分成幾個(gè)類別,然后使用Goodman和Kruskal's tau。GroupNumeric()函數(shù)可以幫助將定量變量轉(zhuǎn)換成定性變量,然而,基于對(duì)數(shù)據(jù)的主觀理解,以及之前看到的cigsPerDay的多模態(tài)分布,在這里使用cut()函數(shù)很容易。
現(xiàn)在讓我們檢查一下GKtau的數(shù)值

class_list?<-?lapply(X?=?1:ncol(dataset_2),?function(x)?class(dataset_2[,x])) t?<-?sapply(X?=?names(class_list)?,?FUN?=?function(x)?TRUE?%in%?(?class_list[x]?%in%?c("factor","logical"))?) dataset_cat_variables_2?<-?subset(x?=?dataset_2,?select?=?t?)plot(dataset_2)

從矩陣圖上的tau值及其背景形狀,我們可以看到cigsPerDay可以完全解釋currentSmoker的變異性。這并不奇怪,因?yàn)槿绻覀冎酪粋€(gè)人每天抽多少支煙就可以斷言我們知道一個(gè)人是否是吸煙者!

第二個(gè)關(guān)聯(lián)是cigsPerDay與男性的關(guān)系,但它并不強(qiáng)烈。因此,前者可以解釋后者的較小的變化性。

在下一個(gè)數(shù)據(jù)集中,我把所有定量變量轉(zhuǎn)換成定性/分類變量?,F(xiàn)在我們可以有一個(gè)全面的矩陣,盡管由于轉(zhuǎn)換,一些信息會(huì)丟失。

dataset_3$totChol?<-?GroupNumeric(x?=?dataset$totChol?,?n?=?5?)

我們可以看到,sysBP和diaBP可以預(yù)測(cè)prevalentHyp,但不是很強(qiáng)。(0.5左右)。因此我們可以在模型中保留prevalentHyp。第二點(diǎn)是關(guān)于GK tau的輸出。

3.預(yù)測(cè)模型:Logistic回歸和RandomForest

現(xiàn)在是評(píng)估模型實(shí)例的時(shí)候了。在這里,我們把邏輯回歸稱為模型。

我們有兩個(gè)實(shí)例。

  1. 一個(gè)包括所有原始變量的模型實(shí)例,特別是cigsPerday和currentSmoker變量

  2. 一個(gè)包括所有原始變量的模型實(shí)例,除了currentSmoker,cigsPerday被轉(zhuǎn)換為一個(gè)因子變量
    為了評(píng)估模型實(shí)例,我們可以使用數(shù)學(xué)調(diào)整訓(xùn)練誤差率的方法,如AIC。另一種方法是使用驗(yàn)證數(shù)據(jù)集,根據(jù)模型在這個(gè)數(shù)據(jù)集上的表現(xiàn)來(lái)評(píng)估模型。在后一種方法中,我選擇使用K-fold Cross-Validation(CV)技術(shù),更具體地說(shuō)是5-fold CV。在這里,還有其他一些技術(shù),如留一法交叉驗(yàn)證。

3.1 兩個(gè)Logistic回歸模型實(shí)例

#?因?yàn)橄乱徊降腸v.glm()不能處理缺失值。#?我只保留模型中的完整案例。dataset_1?<-?dataset[complete.cases(dataset),]? glm(TenYearCHD?~?.?,?family?=?"binomial")

這個(gè)模型是基于原始數(shù)據(jù)集的。有缺失值的記錄被從數(shù)據(jù)集中省略,模型顯示變量男性、年齡、cigsPerDay、totChol、sysBP和葡萄糖是顯著的,而prevalentHyp在某種程度上是顯著的。

?glm(formula?=?TenYearCHD?~?.?,?family?=?"binomial")

?

在第二個(gè)模型實(shí)例中,重要變量與前一個(gè)模型實(shí)例相同。

一個(gè)非常重要的問(wèn)題是,如何衡量這兩個(gè)模型實(shí)例的性能以及如何比較它們?有各種方法來(lái)衡量性能,但我在這里選擇了5折交叉驗(yàn)證法。

為了進(jìn)行交叉驗(yàn)證和評(píng)估模型實(shí)例,我們需要一個(gè)成本函數(shù)。boot軟件包推薦的一個(gè)函數(shù),是一個(gè)簡(jiǎn)單的函數(shù),它可以根據(jù)一個(gè)閾值返回錯(cuò)誤分類的平均數(shù)。閾值默認(rèn)設(shè)置為0.5,這意味著任何觀察到的超過(guò)50%的CHD機(jī)會(huì)都被標(biāo)記為有持續(xù)疾病的TRUE病例。從醫(yī)學(xué)的角度來(lái)看,我把閾值降低到0.4,這樣即使是有40%機(jī)會(huì)得心臟病的病例,也會(huì)被標(biāo)記為接受進(jìn)一步的醫(yī)療關(guān)注。降低閾值,增加了假陽(yáng)性率,從而增加了醫(yī)療費(fèi)用,但減少了假陰性率,挽救了生命。我們可以使用敏感度或特異性作為成本函數(shù)。此外,也可以使用cvAUC軟件包將曲線下面積(AUC)與CV結(jié)合起來(lái)。

3.2 模型實(shí)例的交叉驗(yàn)證評(píng)估

model1_cv_delta?<-?cv.glm(??model1,?cost?=?cost,?K?=?5)$delta[1] kable(data.frame("model1"?=?model1_cv_delta?,

kable( ????????????????caption?=?"CV-Accuracy",?digits?=?4)

我們可以看到,兩個(gè)模型非常相似,然而,模型2顯示出輕微的優(yōu)勢(shì)。準(zhǔn)確率確實(shí)相當(dāng)高。但是,讓我們看看我們是否可以通過(guò)刪除一些變量來(lái)改進(jìn)model1。

3.3 通過(guò)變量選擇改進(jìn)模型

我們看一下model1的總結(jié)。

summary(model1)

到現(xiàn)在為止,我們一直假設(shè)所有的變量都必須包含在模型中,除非是共線性的情況。現(xiàn)在,我們被允許通過(guò)刪除不重要的變量。這里有幾種方法,如前向選擇和后向選擇。

例如,后向選擇法是基于不顯著變量的P值。淘汰繼續(xù)進(jìn)行,直到AIC顯示沒(méi)有進(jìn)一步改善。還有stats::step()和bestglm::bestglm()函數(shù)來(lái)自動(dòng)進(jìn)行變量選擇過(guò)程。后者的軟件包及其主要函數(shù)有許多選擇信息標(biāo)準(zhǔn)的選項(xiàng),如AIC、BIC、LOOCV和CV,而前者的逐步算法是基于AIC的。

bestglm(Xy?=?dataset_1?,?family?=?binomial?,?IC?=?"BIC") step(object?=?model1?)

現(xiàn)在讓我們來(lái)看看這兩個(gè)模型和它們的交叉驗(yàn)證誤差。

bestglm_bic_model

基于BIC的bestglm::bestglm()將模型變量減少到5個(gè):男性、年齡、cigsPerDay、sysBP和葡萄糖。所有的變量都是非常顯著的,正如預(yù)期的那樣。

summary(step_aic_model)

基于AIC的step()函數(shù)將模型變量減少到8個(gè):男性、年齡、cigsPerDay,prevalentStroke、prevalentHyp、totChol、sysBP和glucose。值得注意的是,通過(guò)step()找到的最佳模型實(shí)例具有不顯著的變量。

glm_cv_error?<-?cv.glm( ?????????????????????????????????glmfit?=?glm(formula? ??????????????????????????????????????????????family?=?binomial,?data?=?dataset_1), step_cv_error?<-?cv.glm(glmfit?=?step_aic_model,?cost?=?cost,?K?=?5)$delta[1] kable(bestglm_model_cv_error?, ????????????????step_model_cv_error?) ????????)

交叉驗(yàn)證誤分類誤差

kable(data.frame("bestglm()?bic?model"? ?????????????????"step()?aic?model"

交叉驗(yàn)證-準(zhǔn)確度

AIC方法和BIC方法都能產(chǎn)生相同的準(zhǔn)確性。該選擇哪種方法呢?我寧愿選擇AIC,因?yàn)樵撃P蛯?shí)例有更多的預(yù)測(cè)因素,因此更有洞察力。然而,選擇BIC模型實(shí)例也是合理的,因?yàn)樗?jiǎn)明。與model1的準(zhǔn)確度相比,我們通過(guò)變量選擇在準(zhǔn)確度上有0.8475-0.842=0.00550.8475-0.842=0.0055的提高。然而,我們失去了關(guān)于其他預(yù)測(cè)因子和因變量關(guān)系的信息。

3.4 RandomForest模型

到目前為止,我只做了邏輯回歸模型。有更多的模型可以用來(lái)為當(dāng)前的問(wèn)題建模,而RandomForest是一個(gè)受歡迎的模型。讓我們?cè)囈辉?,并將結(jié)果與之前的模型進(jìn)行比較。

#----?差是每個(gè)RF模型實(shí)例的CV輸出的錯(cuò)誤分類率#----?每個(gè)選定的樹的CV錯(cuò)誤分類率的最終結(jié)果被繪制出來(lái)?#?對(duì)于不同數(shù)量的樹,我們計(jì)算CV誤差。for?(n?in?seq(50,1000,50))????? ????????for?(k?in?1:5)? ?????????????????????rf_dataset_train?<-?dataset_1[fold_seq?!=?k?,] ?????????????????????rf_dataset_test?<-?dataset_1[fold_seq?==?k?,?] ?????????????????????rf_model?<-?randomForest(?formula, kable(rf_df[sort(x?=?rf_df[,2])

#-----?誤差基于RandomForest?OOB,即RandomForest輸出的混淆矩陣for?(n?in?seq(50,1000,50))?{ ????????counter?<-?counter?+?1? ????????????????rf_model?<-?randomForest(?formula?ntree?=?n,?x?= ???????? } ggplot()?+? ????????geom_point(data?=?rf_df?,?aes(x?=?ntree?,?y?=?accuracy)

在這里,我同時(shí)使用了CV和out-of-bag(OOB)來(lái)評(píng)估隨機(jī)森林性能。

我們可以看到,在50到1000棵樹的范圍內(nèi),RandomForest模型的最高精度可以通過(guò)設(shè)置CV方法的樹數(shù)等于400來(lái)獲得。圖中的紅線顯示了我們從邏輯回歸模型實(shí)例中得到的最佳CV精度。由于OOB的最高準(zhǔn)確率高于CV的最高準(zhǔn)確率,所以我選擇了CV的準(zhǔn)確率,使其更加謹(jǐn)慎。ntree=400的CVaccuracy=0.8486CVaccuracy=0.8486,比最好的邏輯回歸模型差0.00020.0002! 然而,如果我們考慮OOB的準(zhǔn)確性,那么RandomForest模型比最佳邏輯回歸模型好0.00120.0012。

在RF中,模型的準(zhǔn)確性有所提高,但代價(jià)是失去了可解釋性。RF是一個(gè)黑箱,我們無(wú)法解釋預(yù)測(cè)因子和因變量之間的關(guān)系。

3.5 模型對(duì)個(gè)人數(shù)據(jù)如何預(yù)測(cè)?

這里為了完成這個(gè)報(bào)告,我想在一個(gè)新的數(shù)據(jù)集上增加一個(gè)預(yù)測(cè)部分。該數(shù)據(jù)集只有一條記錄,其中包括我自己的個(gè)人數(shù)據(jù)。換句話說(shuō),我已經(jīng)創(chuàng)建了一個(gè)模型,我想知道它是否預(yù)測(cè)了我的CHD。

>?pred_data$年齡?<-?31>?pred_data$教育?<-?factor(4,?levels?=?c(1,2,3,4))?>?pred_data$當(dāng)前吸煙者?<-?FALSE?>?pred_data$每日吸煙量?<-?0?>?pred_data$抗高血壓藥物?<-?FALSE>?pred_data$流行性中風(fēng)?<-?FALSE?>?pred_data$流行性高血壓?<-?FALSE

邏輯回歸模型的預(yù)測(cè)輸出。

glm_BIC_opt?<-?glm(data?=?dataset_1?,?formula?,family?=?binomial?) predict(glm_BIC_opt,?newdata?=?pred_data)

隨機(jī)森林預(yù)測(cè)。

rf_model?<-?randomForest(?formula?=?.?, predict(rf_model,?pred_data)

因此,現(xiàn)在看來(lái),我沒(méi)有風(fēng)險(xiǎn)! 然而,正如我之前提到的,這些模型是為了教育和機(jī)器學(xué)習(xí)的實(shí)踐,而不是為了醫(yī)學(xué)預(yù)測(cè)!所以,我認(rèn)為這些模型是有價(jià)值的。

4.最終模型探索

讓我們最后看一下這個(gè)模型

dataset_3?<-?dataset_2[complete.cases(dataset_2),]dataset_3_GK?<-?plot(dataset_3_GK)

ggpplot(data?=?dataset?,?text.angle?=?0,label.size?=2?,?order?=?0??)?+ ????????scale_colour_manual(values?=?color)+ ????????scale_fill_manual(values?=?color)

左右滑動(dòng)查看更多

01

02

03

04

結(jié)果大多符合預(yù)期。根據(jù)GKtau值,預(yù)測(cè)因子之間的關(guān)聯(lián)最小。這正是我們想要的,以避免共線性現(xiàn)象。
然而,平行坐標(biāo)仍然顯示了一些有趣的點(diǎn)。例如,年齡組與 "十年健康發(fā)展 "結(jié)果之間的關(guān)聯(lián)很有意思。較低的年齡組在TenYearCHD==TRUE中的參與度很低,這意味著年齡與該疾病有正相關(guān)。另一方面,與男性相比,女性(男性==FALSE)在0支煙和[1,20]支煙組的貢獻(xiàn)更大。換句話說(shuō),男性傾向于抽更多的煙,而且是重度吸煙者。

桑吉圖可以產(chǎn)生更好的洞察力,因?yàn)槲覀兛梢匝刂鴺?biāo)軸觀察樣本。

5.結(jié)論

在這項(xiàng)研究中,為了建立預(yù)測(cè)模型,使用了包括4240個(gè)觀測(cè)值和16個(gè)變量的心臟研究的數(shù)據(jù)集。這些模型旨在預(yù)測(cè)十年后的冠心?。–HD)。
在對(duì)數(shù)據(jù)集進(jìn)行探索后,利用邏輯回歸和隨機(jī)森林模型來(lái)建立模型。使用K-Fold Cross-Validation對(duì)模型進(jìn)行了評(píng)估。

為了擴(kuò)展這項(xiàng)研究,可以使用進(jìn)一步的分類方法,如支持向量機(jī)(SVM)、梯度提升(GB)、神經(jīng)網(wǎng)絡(luò)模型、K-近鄰算法,甚至決策樹。

點(diǎn)擊文末?“閱讀原文”

獲取全文完整代碼資料。

本文選自《R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|R語(yǔ)言邏輯回歸、線性判別分析LDA、GAM、MARS、KNN、QDA、決策樹、隨機(jī)森林、SVM分類葡萄酒交叉驗(yàn)證ROC
MATLAB隨機(jī)森林優(yōu)化貝葉斯預(yù)測(cè)分析汽車燃油經(jīng)濟(jì)性
R語(yǔ)言用Rcpp加速M(fèi)etropolis-Hastings抽樣估計(jì)貝葉斯邏輯回歸模型的參數(shù)
R語(yǔ)言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測(cè)心臟病
R語(yǔ)言中貝葉斯網(wǎng)絡(luò)(BN)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)、線性模型分析錯(cuò)頜畸形數(shù)據(jù)
R語(yǔ)言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
Python貝葉斯回歸分析住房負(fù)擔(dān)能力數(shù)據(jù)集
R語(yǔ)言實(shí)現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
Python用PyMC3實(shí)現(xiàn)貝葉斯線性回歸模型
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
R語(yǔ)言Gibbs抽樣的貝葉斯簡(jiǎn)單線性回歸仿真分析
R語(yǔ)言和STAN,JAGS:用RSTAN,RJAG建立貝葉斯多元線性回歸預(yù)測(cè)選舉數(shù)據(jù)
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言貝葉斯線性回歸和多元線性回歸構(gòu)建工資預(yù)測(cè)模型
R語(yǔ)言貝葉斯推斷與MCMC:實(shí)現(xiàn)Metropolis-Hastings 采樣算法示例
R語(yǔ)言stan進(jìn)行基于貝葉斯推斷的回歸模型
R語(yǔ)言中RStan貝葉斯層次模型分析示例
R語(yǔ)言使用Metropolis-Hastings采樣算法自適應(yīng)貝葉斯估計(jì)與可視化
R語(yǔ)言隨機(jī)搜索變量選擇SSVS估計(jì)貝葉斯向量自回歸(BVAR)模型
WinBUGS對(duì)多元隨機(jī)波動(dòng)率模型:貝葉斯估計(jì)與模型比較
R語(yǔ)言實(shí)現(xiàn)MCMC中的Metropolis–Hastings算法與吉布斯采樣
R語(yǔ)言貝葉斯推斷與MCMC:實(shí)現(xiàn)Metropolis-Hastings 采樣算法示例
R語(yǔ)言使用Metropolis-Hastings采樣算法自適應(yīng)貝葉斯估計(jì)與可視化
視頻:R語(yǔ)言中的Stan概率編程MCMC采樣的貝葉斯模型
R語(yǔ)言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計(jì)R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化


R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析|附代碼數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
改则县| 育儿| 饶平县| 华容县| 绩溪县| 手机| 大连市| 仙游县| 莱阳市| 百色市| 晋江市| 金寨县| 原阳县| 班玛县| 兴业县| 淳化县| 新乡市| 平江县| 工布江达县| 连江县| 光山县| 历史| 志丹县| 怀远县| 辽宁省| 凤台县| 蒙城县| 嘉兴市| 张家川| 全南县| 石家庄市| 富川| 抚顺县| 三原县| 田东县| 延安市| 涿州市| 岑溪市| 江口县| 澎湖县| 无锡市|