最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

SAS數(shù)據(jù)挖掘EM貸款違約預(yù)測分析:逐步Logistic邏輯回歸、決策樹、隨機(jī)森林|附代碼數(shù)據(jù)

2023-09-08 22:23 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=31745

原文出處:拓端數(shù)據(jù)部落公眾號

最近我們被客戶要求撰寫關(guān)于貸款違約預(yù)測的研究報告,包括一些圖形和統(tǒng)計輸出。

近幾年來,各家商業(yè)銀行陸續(xù)推出多種貸款業(yè)務(wù),如何識別貸款違約因素已經(jīng)成為各家商業(yè)銀行健康有序發(fā)展貸款業(yè)務(wù)的關(guān)鍵。在貸款違約預(yù)測的數(shù)據(jù)的基礎(chǔ)上,探索是否能通過借貸者的數(shù)據(jù)判斷其違約風(fēng)險,從而幫助商業(yè)銀行提前做好應(yīng)對。

解決方案

任務(wù)/目標(biāo)

根據(jù)借款者的個人信息和貸款的屬性,運(yùn)用SAS EM軟件,使用多種模型進(jìn)行分析。

數(shù)據(jù)源準(zhǔn)備

因獲取數(shù)據(jù)的能力有限,并為了保證數(shù)據(jù)量足夠巨大且數(shù)據(jù)質(zhì)量較高,我們選擇了貸款違約預(yù)測的數(shù)據(jù)。整個數(shù)據(jù)集為有800,000條數(shù)據(jù),每條數(shù)據(jù)除了ID、是否違約isDefault該目標(biāo)值,還包括loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29個變量,變量的具體情況在數(shù)據(jù)探索中進(jìn)行描述。

特征轉(zhuǎn)換

為了進(jìn)一步探究issueDate和earliesCreditLine這兩個時間ID的時間久遠(yuǎn)性是否會對我們的預(yù)測產(chǎn)生影響,另外增加了兩個變量,分別是interval_issueDate和Interval_earliesCreditLine,都是用2020減去issueDate和earliesCreditLine的年份得到的。對缺失數(shù)據(jù)進(jìn)行補(bǔ)缺,修改年份變量為區(qū)間型變量并對其進(jìn)行分箱處理,對偏正態(tài)分布的變量進(jìn)行對數(shù)處理,拒絕單值型變量。

劃分訓(xùn)練集和測試集

劃分?jǐn)?shù)據(jù)集的50%為訓(xùn)練集,50%為驗證集。

建模

使用逐步Logistic回歸

回歸結(jié)果顯示,貸款違約風(fēng)險與年收入負(fù)相關(guān),與債務(wù)收入比正相關(guān),與利率正相關(guān),與貸款金額正相關(guān);對于分類變量,貸款年限3年的貸款違約風(fēng)險顯著小于貸款5年,2013-2015年的貸款違約風(fēng)險顯著大于2015-2017年等等。

決策樹

使用二分支和三分支決策樹進(jìn)行分析,結(jié)果顯示影響貸款違約的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。

隨機(jī)森林

調(diào)參后設(shè)置最大樹個數(shù)為100,最大深度為50,顯著性水平為0.05,結(jié)果顯示訓(xùn)練誤分類率為0.1964,驗證誤分類率為0.1974,根據(jù)Gini縮減,對分類準(zhǔn)確度影響較大的變量為grade、interestRate、term、dti、ficoRangeHigh等。

模型比較

通過比較發(fā)現(xiàn),Logistic回歸具有最小的驗證誤分類率,為0.1965,其次是三分支決策樹和隨機(jī)森林,最差的為二分支決策樹。

在累積提升度和ROC曲線上,Logistic回歸和隨機(jī)森林表現(xiàn)相近,二分支決策樹和三分支決策樹表現(xiàn)相近,但是Logistic回歸和隨機(jī)森林模型表現(xiàn)明顯優(yōu)于兩個決策樹模型。


逐步回歸模型的驗證誤分類率低于決策樹1、決策樹2和隨機(jī)森林模型,這表明在這四個模型中,逐步回歸模型相比其他模型對于新樣本具有更強(qiáng)的泛化能力,在對新樣本違約概率的預(yù)測上更加準(zhǔn)確。

根據(jù)結(jié)果,就數(shù)值型變量而言,違約風(fēng)險與借款人的債務(wù)收入比dti、循環(huán)額度利用率revolUtil、貸款利率interestRate、貸款金額loanAmnt、借款人信用檔案中未結(jié)信用額度的數(shù)量openAcc顯著正相關(guān);與就業(yè)職稱employmentTitle、年收入annualIncome、借款人在貸款發(fā)放時的FICO所屬的下限范圍ficoRangeLow、分期付款金額installment、信貸周轉(zhuǎn)余額合計revolBal、借款人信用檔案中當(dāng)前的信用額度總數(shù)totalAcc顯著負(fù)相關(guān)。

對于貸款發(fā)放年份issueDate,相較于2017年6月之后發(fā)放的貸款,2013年6月之前發(fā)放的貸款違約風(fēng)險顯著更大,貸款發(fā)放年份在2013.6-2015.6年的違約風(fēng)險稍低,在2015.6-2017.6年的貸款則顯著更小。

申請類型applicationType為0時,其違約風(fēng)險顯著小于其值為1時。

相對于貸款等級G,貸款等級為A、B、C時,其違約風(fēng)險顯著更大,貸款等級為D、E、F時,違約風(fēng)險則顯著更小。

相對于房屋所有權(quán)狀況homeOwnership為5時,homeOwnership為1時,違約風(fēng)險顯著更小,homeOwnership為0,2,3時,違約風(fēng)險減小,但其結(jié)果在統(tǒng)計學(xué)上不顯著;homeOwnership為4時,違約風(fēng)險升高,但在統(tǒng)計學(xué)上仍然不顯著。

貸款用途purpose為0,4,5,8,12時,違約風(fēng)險顯著大于用途為13,用途為1,7,9時,違約風(fēng)險顯著更小,用途為2,3,6,10,11時,其違約風(fēng)險相對于13沒有統(tǒng)計學(xué)意義。

貸款期限term為3年時,其違約風(fēng)險顯著小于貸款期限為5年。

驗證狀態(tài)verificationStatus為0時,相對于其值為2時違約風(fēng)險顯著更大。其值為1時則相對于2違約風(fēng)險顯著更小。

因此,建議貸款發(fā)放機(jī)構(gòu)在評估借款人的違約風(fēng)險時,重點關(guān)注借款人的負(fù)債收入比、就業(yè)職稱、年收入、房屋所有權(quán)狀況等個人信息,并分析借款人的借款行為,包括其申請貸款的金額、利率、分期付款金額、用途、申請類型、貸款等級、貸款期限、驗證狀態(tài),調(diào)查借款人的歷史借款記錄,包括循環(huán)額度利用率、借款人信用檔案中未結(jié)信用額度的數(shù)量、貸款發(fā)放時的FICO所屬的下限范圍、信貸周轉(zhuǎn)余額合計、信用檔案中當(dāng)前的信用額度總數(shù)。

對于已經(jīng)發(fā)放的貸款,如果貸款行為發(fā)生于2013年6月之前,貸款發(fā)放機(jī)構(gòu)應(yīng)該盡快追回并做好壞賬準(zhǔn)備。

關(guān)于分析師

在此對Jiasong Xue對本文所作的貢獻(xiàn)表示誠摯感謝,他在中山大學(xué)完成了管理科學(xué)專業(yè)的學(xué)位,專注商業(yè)數(shù)據(jù)分析領(lǐng)域。擅長SPSS、R語言、Python。


SAS數(shù)據(jù)挖掘EM貸款違約預(yù)測分析:逐步Logistic邏輯回歸、決策樹、隨機(jī)森林|附代碼數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
安新县| 太谷县| 大冶市| 丰台区| 珲春市| 光山县| 高平市| 乐清市| 林西县| 晴隆县| 于都县| 内江市| 女性| 灵石县| 洛川县| 晋中市| 右玉县| 都兰县| 栾城县| 凤阳县| 林口县| 岳阳县| 全南县| 茂名市| 封开县| 资溪县| 湾仔区| 习水县| 揭东县| 昌江| 松潘县| 长葛市| 共和县| 宿松县| 高邑县| 淮阳县| 西平县| 姜堰市| 同仁县| 隆回县| 马关县|