最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)

2021-06-14 23:45 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=17950?

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

?

在本文中,我們使用了邏輯回歸、決策樹(shù)和隨機(jī)森林模型來(lái)對(duì)信用數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)并比較了它們的性能。數(shù)據(jù)集是

credit=read.csv("german_credit.csv", header = TRUE, sep = ",")

看起來(lái)所有變量都是數(shù)字變量,但實(shí)際上,大多數(shù)都是因子變量,

  1. > str(credit)

  2. 'data.frame': 1000 obs. of ?21 variables:

  3. $ Creditability ? : int ?1 1 1 1 1 1 1 1 1 1 ...

  4. $ Account.Balance : int ?1 1 2 1 1 1 1 1 4 2 ...

  5. $ Duration ? ? ? ?: int ?18 9 12 12 12 10 8 ?...

  6. $ Purpose ? ? ? ? : int ?2 0 9 0 0 0 0 0 3 3 ...

讓我們將分類(lèi)變量轉(zhuǎn)換為因子變量,

  1. > F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20)

  2. > for(i in F) credit[,i]=as.factor(credit[,i])

現(xiàn)在讓我們創(chuàng)建比例為1:2 的訓(xùn)練和測(cè)試數(shù)據(jù)集

  1. > i_test=sample(1:nrow(credit),size=333)

  2. > i_calibration=(1:nrow(credit))[-i_test]

我們可以擬合的第一個(gè)模型是對(duì)選定協(xié)變量的邏輯回歸

  1. > LogisticModel <- glm(Creditability ~ Account.Balance + Payment.Status.of.Previous.Credit + Purpose +

  2. Length.of.current.employment +

  3. Sex...Marital.Status, family=binomia

基于該模型,可以繪制ROC曲線并計(jì)算AUC(在新的驗(yàn)證數(shù)據(jù)集上)


  1. > AUCLog1=performance(pred, measure = "auc")@y.values[[1]]

  2. > cat("AUC: ",AUCLog1,"\n")

  3. AUC: ?0.7340997

一種替代方法是考慮所有解釋變量的邏輯回歸

  1. glm(Creditability ~ .,

  2. + ?family=binomial,

  3. + ?data = credit[i_calibrat

我們可能在這里過(guò)擬合,可以在ROC曲線上觀察到


  1. > perf <- performance(pred, "tpr", "fpr

  2. > AUCLog2=performance(pred, measure = "auc")@y.values[[1]]

  3. > cat("AUC: ",AUCLog2,"\n")

  4. AUC: ?0.7609792

?

與以前的模型相比,此處略有改善,后者僅考慮了五個(gè)解釋變量。

現(xiàn)在考慮回歸樹(shù)模型(在所有協(xié)變量上)

我們可以使用

> prp(ArbreModel,type=2,extra=1)

?

模型的ROC曲線為

  1. (pred, "tpr", "fpr")

  2. > plot(perf)


  3. > cat("AUC: ",AUCArbre,"\n")

  4. AUC: ?0.7100323

?

不出所料,與邏輯回歸相比,模型性能較低。一個(gè)自然的想法是使用隨機(jī)森林優(yōu)化。

  1. > library(randomForest)

  2. > RF <- randomForest(Creditability ~ .,

  3. + data = credit[i_calibration,])

  4. > fitForet <- predict(RF,

  5. > cat("AUC: ",AUCRF,"\n")

  6. AUC: ?0.7682367

?

在這里,該模型(略)優(yōu)于邏輯回歸。實(shí)際上,如果我們創(chuàng)建很多訓(xùn)練/驗(yàn)證樣本并比較AUC,平均而言,隨機(jī)森林的表現(xiàn)要比邏輯回歸好,

  1. > AUCfun=function(i){

  2. + ? set.seed(i)

  3. + ? i_test=sample(1:nrow(credit),size=333)

  4. + ? i_calibration=(1:nrow(credit))[-i_test]



  5. + ? summary(LogisticModel)

  6. + ? fitLog <- predict(LogisticModel,type="response",

  7. + ? ? ? ? ? ? ? ? ? ? newdata=credit[i_test,])

  8. + ? library(ROCR)

  9. + ? pred = prediction( fitLog, credit$Creditability[i_test])

  10. + ? RF <- randomForest(Creditability ~ .,

  11. + ? data = credit[i_calibration,])

  12. + ? pred = prediction( fitForet, credit$Creditability[i_test])

  13. + ? return(c(AUCLog2,AUCRF))

  14. + }

  15. > plot(t(A))

?

最受歡迎的見(jiàn)解

1.從決策樹(shù)模型看員工為什么離職

2.R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林

3.python中使用scikit-learn和pandas決策樹(shù)

4.機(jī)器學(xué)習(xí):在SAS中運(yùn)行隨機(jī)森林?jǐn)?shù)據(jù)分析報(bào)告

5.R語(yǔ)言用隨機(jī)森林和文本挖掘提高航空公司客戶滿意度

6.機(jī)器學(xué)習(xí)助推快時(shí)尚精準(zhǔn)銷(xiāo)售時(shí)間序列

7.用機(jī)器學(xué)習(xí)識(shí)別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用

8.python機(jī)器學(xué)習(xí):推薦系統(tǒng)實(shí)現(xiàn)(以矩陣分解來(lái)協(xié)同過(guò)濾)

9.python中用pytorch機(jī)器學(xué)習(xí)分類(lèi)預(yù)測(cè)銀行客戶流失

?


R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
北安市| 乃东县| 枣阳市| 崇信县| 舟曲县| 吉安县| 齐齐哈尔市| 镇坪县| 廉江市| 泰兴市| 玉屏| 武汉市| 常熟市| 门源| 白玉县| 缙云县| 天峻县| 湖北省| 乐山市| 阳春市| 平泉县| 民和| 迁安市| 巴楚县| 开封市| 西贡区| 顺昌县| 丹凤县| 江源县| 和硕县| 磐安县| 罗江县| 孟连| 礼泉县| 扎兰屯市| 博野县| 宜宾县| 玛多县| 石家庄市| 重庆市| 临夏市|