最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

拓端tecdat|SAS分類決策樹預(yù)測(cè)貸款申請(qǐng)?jiān)u分剪枝和結(jié)果可視化

2022-02-04 13:34 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=25111?

原文出處:拓端數(shù)據(jù)部落公眾號(hào)

分類樹的一個(gè)常見用途是預(yù)測(cè)抵押貸款申請(qǐng)人是否會(huì)拖欠貸款。數(shù)據(jù)包含對(duì) 5,960 名抵押貸款申請(qǐng)人的觀察結(jié)果。一個(gè)名為的變量?Bad?表示申請(qǐng)人在獲得貸款批準(zhǔn)后是還清貸款還是拖欠貸款。

此示例構(gòu)建一個(gè)樹模型,該模型用于對(duì)數(shù)據(jù)進(jìn)行評(píng)分,并可用于對(duì)有關(guān)新申請(qǐng)人的數(shù)據(jù)進(jìn)行評(píng)分。

數(shù)據(jù)變量

表 :數(shù)據(jù)表中的變量

變量類型等級(jí)描述Bad因變量二進(jìn)制1 = 申請(qǐng)人拖欠貸款或嚴(yán)重拖欠貸款0 = 申請(qǐng)人還清貸款CLAge預(yù)測(cè)變量區(qū)間最長(zhǎng)信用額度的月齡CLNo預(yù)測(cè)變量區(qū)間信用額度數(shù)量DebtInc預(yù)測(cè)變量區(qū)間債務(wù)收入比Delinq預(yù)測(cè)變量區(qū)間拖欠信用額度的數(shù)量Derog預(yù)測(cè)變量區(qū)間重大貶損報(bào)道數(shù)量Job預(yù)測(cè)變量標(biāo)稱職業(yè)類別Loan預(yù)測(cè)變量區(qū)間申請(qǐng)貸款金額MortDue預(yù)測(cè)變量區(qū)間抵押貸款到期金額nInq預(yù)測(cè)變量區(qū)間近期信用查詢次數(shù)Reason預(yù)測(cè)變量二進(jìn)制DebtCon?= 債務(wù)合并HomeImp?= 家庭改善Value預(yù)測(cè)變量區(qū)間財(cái)產(chǎn)價(jià)值YoJ預(yù)測(cè)變量區(qū)間目前工作年限

加載數(shù)據(jù)

樹模型的因變量是?Bad,一個(gè)有兩個(gè)值的分類變量(0 代表貸款支付,1 代表違約)。其他變量是模型的預(yù)測(cè)變量。以下語(yǔ)句將數(shù)據(jù)加載到會(huì)話中并顯示數(shù)據(jù)表的前 10 個(gè)觀察值。

  1. /* 將變量名稱轉(zhuǎn)換為混合大小寫 */

  2. data my.hm;

  3. length Bd oan Motue Value 8 Reason Job $7



顯示 的前 10 個(gè)觀測(cè)值。

輸出數(shù)據(jù)的部分列表?

創(chuàng)建分類決策樹

以下語(yǔ)句創(chuàng)建分類樹:


  1. proc ?maxdepth=5;

  2. model Bad = Dei o JbIq as LAeL

  3. DtInLa Mrue ae J;

  4. prune costcomplexity;

指定要生長(zhǎng)的樹的最大深度為 5。

Bad?在等號(hào)左側(cè)表明它是因變量。

因?yàn)闆]有包含 GROW 語(yǔ)句,所以 PROC TREEPLIT 默認(rèn)使用熵度量,它計(jì)算增長(zhǎng)樹的增益。語(yǔ)句要求進(jìn)行成本復(fù)雜性修剪。

聲明要求將觀察結(jié)果?Hmeq?劃分為不相交的子集以進(jìn)行模型訓(xùn)練和驗(yàn)證。隨機(jī)選擇觀測(cè)值作為驗(yàn)證子集,概率為 0.3;為訓(xùn)練子集選擇剩余的觀察值。

FILE= 選項(xiàng)語(yǔ)句請(qǐng)求將 SAS DATA 步得分代碼保存到名為?trc.sas.

樹形圖

最終樹的概覽圖

如繪圖圖例中的顏色所示,為終端節(jié)點(diǎn)中的觀察分配了?Bad=0 或?=1 的預(yù)測(cè)。葉節(jié)點(diǎn)中的第一個(gè)條形顯示與訓(xùn)練分區(qū)中=0 或?=1Bad的預(yù)測(cè)相匹配的因變量的比例,?葉節(jié)點(diǎn)中的第二個(gè)條形顯示與驗(yàn)證分區(qū)中匹配的因變量的比例。線的粗細(xì)表示哪些節(jié)點(diǎn)具有更多的總觀測(cè)值。

樹形圖在是樹頂部的詳細(xì)視圖。

詳細(xì)樹形圖

默認(rèn)情況下,此視圖提供有關(guān)樹的前三個(gè)級(jí)別的詳細(xì)拆分信息,包括根級(jí)別。每個(gè)節(jié)點(diǎn)上方的拆分規(guī)則顯示拆分變量和拆分值;該規(guī)則確定來(lái)自父節(jié)點(diǎn)的哪些觀察值包含在節(jié)點(diǎn)中。節(jié)點(diǎn)內(nèi)表的第一行提供節(jié)點(diǎn)標(biāo)識(shí)符。第二行提供訓(xùn)練觀察的數(shù)量,后跟反斜杠,然后是驗(yàn)證觀察的數(shù)量。如果在該點(diǎn)發(fā)生分類,第三行顯示該節(jié)點(diǎn)中觀察的預(yù)測(cè)因變量,以及訓(xùn)練觀察與觀察到的因變量的比例。這通過反斜杠與驗(yàn)證觀察的比例分開。

顯示最終樹的擬合統(tǒng)計(jì)量

輸出 :樹性能

樹分裂程序


顯示修剪圖

修剪圖

此圖顯示修剪樹時(shí)訓(xùn)練和驗(yàn)證數(shù)據(jù)的錯(cuò)誤分類率。垂直線顯示選定的最終樹,它對(duì)驗(yàn)證數(shù)據(jù)具有最低的誤分類率。

創(chuàng)建評(píng)分代碼并對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)評(píng)分

除了查看有關(guān)樹模型的信息之外,您可能有興趣應(yīng)用該模型來(lái)預(yù)測(cè)因變量未知的其他數(shù)據(jù)表中的因變量。您可以運(yùn)行 SAS DATA 步代碼對(duì)新數(shù)據(jù)進(jìn)行評(píng)分。以下是示例:

  1. data scd;

  2. set smo.hq;

  3. %include 'tc.sas';

  4. run;

顯示 的部分列表?。

輸出 :評(píng)分?數(shù)據(jù)的部分列表


數(shù)據(jù)表包含由分?jǐn)?shù)代碼創(chuàng)建的 13 個(gè)原始變量和 4 個(gè)新變量。變量?PA1?是這片葉子中訓(xùn)練觀察的比例?BAD=1;這個(gè)變量可以解釋為違約概率。該變量?IAD?表示觀測(cè)值的 BAD 預(yù)測(cè)值。

您可以使用前面的語(yǔ)句對(duì)新數(shù)據(jù)進(jìn)行評(píng)分,方法是在 SET 語(yǔ)句中包含新數(shù)據(jù)表?。新數(shù)據(jù)表必須包含與用于構(gòu)建樹模型的數(shù)據(jù)相同的變量,但不能包含您現(xiàn)在要預(yù)測(cè)的未知因變量。

最受歡迎的見解

1.從決策樹模型看員工為什么離職

2.R語(yǔ)言基于樹的方法:決策樹,隨機(jī)森林

3.python中使用scikit-learn和pandas決策樹

4.機(jī)器學(xué)習(xí):在SAS中運(yùn)行隨機(jī)森林?jǐn)?shù)據(jù)分析報(bào)告

5.R語(yǔ)言用隨機(jī)森林和文本挖掘提高航空公司客戶滿意度

6.機(jī)器學(xué)習(xí)助推快時(shí)尚精準(zhǔn)銷售時(shí)間序列

7.用機(jī)器學(xué)習(xí)識(shí)別不斷變化的股市狀況——隱馬爾可夫模型的應(yīng)用

8.python機(jī)器學(xué)習(xí):推薦系統(tǒng)實(shí)現(xiàn)(以矩陣分解來(lái)協(xié)同過濾)

9.python中用pytorch機(jī)器學(xué)習(xí)分類預(yù)測(cè)銀行客戶流失


拓端tecdat|SAS分類決策樹預(yù)測(cè)貸款申請(qǐng)?jiān)u分剪枝和結(jié)果可視化的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
达拉特旗| 宁城县| 宽甸| 万宁市| 平果县| 汤阴县| 六枝特区| 凉城县| 汉川市| 镇康县| 乌兰察布市| 达尔| 星子县| 闸北区| 奉贤区| 天津市| 永平县| 嵊泗县| 永兴县| 华池县| 苏州市| 海兴县| 香河县| 平邑县| 青海省| 甘南县| 游戏| 新宁县| 云霄县| 罗山县| 寿宁县| 双牌县| 宕昌县| 广昌县| 新干县| 县级市| 长岛县| 鹤山市| 图片| 屏东县| 平舆县|