SAS數(shù)據(jù)挖掘EM貸款違約預(yù)測(cè)分析:逐步Logistic邏輯回歸、決策樹(shù)、隨機(jī)森林
全文鏈接:http://tecdat.cn/?p=31745
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
近幾年來(lái),各家商業(yè)銀行陸續(xù)推出多種貸款業(yè)務(wù),如何識(shí)別貸款違約因素已經(jīng)成為各家商業(yè)銀行健康有序發(fā)展貸款業(yè)務(wù)的關(guān)鍵。在貸款違約預(yù)測(cè)的數(shù)據(jù)的基礎(chǔ)上,探索是否能通過(guò)借貸者的數(shù)據(jù)判斷其違約風(fēng)險(xiǎn),從而幫助商業(yè)銀行提前做好應(yīng)對(duì)。
解決方案
任務(wù)/目標(biāo)
根據(jù)借款者的個(gè)人信息和貸款的屬性,運(yùn)用SAS EM軟件,使用多種模型進(jìn)行分析。
數(shù)據(jù)源準(zhǔn)備
因獲取數(shù)據(jù)的能力有限,并為了保證數(shù)據(jù)量足夠巨大且數(shù)據(jù)質(zhì)量較高,我們選擇了貸款違約預(yù)測(cè)的數(shù)據(jù)。整個(gè)數(shù)據(jù)集為有800,000條數(shù)據(jù),每條數(shù)據(jù)除了ID、是否違約isDefault該目標(biāo)值,還包括loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29個(gè)變量,變量的具體情況在數(shù)據(jù)探索中進(jìn)行描述。
特征轉(zhuǎn)換
為了進(jìn)一步探究issueDate和earliesCreditLine這兩個(gè)時(shí)間ID的時(shí)間久遠(yuǎn)性是否會(huì)對(duì)我們的預(yù)測(cè)產(chǎn)生影響,另外增加了兩個(gè)變量,分別是interval_issueDate和Interval_earliesCreditLine,都是用2020減去issueDate和earliesCreditLine的年份得到的。對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)缺,修改年份變量為區(qū)間型變量并對(duì)其進(jìn)行分箱處理,對(duì)偏正態(tài)分布的變量進(jìn)行對(duì)數(shù)處理,拒絕單值型變量。
劃分訓(xùn)練集和測(cè)試集
劃分?jǐn)?shù)據(jù)集的50%為訓(xùn)練集,50%為驗(yàn)證集。
建模
使用逐步Logistic回歸
回歸結(jié)果顯示,貸款違約風(fēng)險(xiǎn)與年收入負(fù)相關(guān),與債務(wù)收入比正相關(guān),與利率正相關(guān),與貸款金額正相關(guān);對(duì)于分類變量,貸款年限3年的貸款違約風(fēng)險(xiǎn)顯著小于貸款5年,2013-2015年的貸款違約風(fēng)險(xiǎn)顯著大于2015-2017年等等。
決策樹(shù)
使用二分支和三分支決策樹(shù)進(jìn)行分析,結(jié)果顯示影響貸款違約的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。
隨機(jī)森林
調(diào)參后設(shè)置最大樹(shù)個(gè)數(shù)為100,最大深度為50,顯著性水平為0.05,結(jié)果顯示訓(xùn)練誤分類率為0.1964,驗(yàn)證誤分類率為0.1974,根據(jù)Gini縮減,對(duì)分類準(zhǔn)確度影響較大的變量為grade、interestRate、term、dti、ficoRangeHigh等。
模型比較
通過(guò)比較發(fā)現(xiàn),Logistic回歸具有最小的驗(yàn)證誤分類率,為0.1965,其次是三分支決策樹(shù)和隨機(jī)森林,最差的為二分支決策樹(shù)。
在累積提升度和ROC曲線上,Logistic回歸和隨機(jī)森林表現(xiàn)相近,二分支決策樹(shù)和三分支決策樹(shù)表現(xiàn)相近,但是Logistic回歸和隨機(jī)森林模型表現(xiàn)明顯優(yōu)于兩個(gè)決策樹(shù)模型。
逐步回歸模型的驗(yàn)證誤分類率低于決策樹(shù)1、決策樹(shù)2和隨機(jī)森林模型,這表明在這四個(gè)模型中,逐步回歸模型相比其他模型對(duì)于新樣本具有更強(qiáng)的泛化能力,在對(duì)新樣本違約概率的預(yù)測(cè)上更加準(zhǔn)確。
根據(jù)結(jié)果,就數(shù)值型變量而言,違約風(fēng)險(xiǎn)與借款人的債務(wù)收入比dti、循環(huán)額度利用率revolUtil、貸款利率interestRate、貸款金額loanAmnt、借款人信用檔案中未結(jié)信用額度的數(shù)量openAcc顯著正相關(guān);與就業(yè)職稱employmentTitle、年收入annualIncome、借款人在貸款發(fā)放時(shí)的FICO所屬的下限范圍ficoRangeLow、分期付款金額installment、信貸周轉(zhuǎn)余額合計(jì)revolBal、借款人信用檔案中當(dāng)前的信用額度總數(shù)totalAcc顯著負(fù)相關(guān)。
對(duì)于貸款發(fā)放年份issueDate,相較于2017年6月之后發(fā)放的貸款,2013年6月之前發(fā)放的貸款違約風(fēng)險(xiǎn)顯著更大,貸款發(fā)放年份在2013.6-2015.6年的違約風(fēng)險(xiǎn)稍低,在2015.6-2017.6年的貸款則顯著更小。
申請(qǐng)類型applicationType為0時(shí),其違約風(fēng)險(xiǎn)顯著小于其值為1時(shí)。
相對(duì)于貸款等級(jí)G,貸款等級(jí)為A、B、C時(shí),其違約風(fēng)險(xiǎn)顯著更大,貸款等級(jí)為D、E、F時(shí),違約風(fēng)險(xiǎn)則顯著更小。
相對(duì)于房屋所有權(quán)狀況homeOwnership為5時(shí),homeOwnership為1時(shí),違約風(fēng)險(xiǎn)顯著更小,homeOwnership為0,2,3時(shí),違約風(fēng)險(xiǎn)減小,但其結(jié)果在統(tǒng)計(jì)學(xué)上不顯著;homeOwnership為4時(shí),違約風(fēng)險(xiǎn)升高,但在統(tǒng)計(jì)學(xué)上仍然不顯著。
貸款用途purpose為0,4,5,8,12時(shí),違約風(fēng)險(xiǎn)顯著大于用途為13,用途為1,7,9時(shí),違約風(fēng)險(xiǎn)顯著更小,用途為2,3,6,10,11時(shí),其違約風(fēng)險(xiǎn)相對(duì)于13沒(méi)有統(tǒng)計(jì)學(xué)意義。
貸款期限term為3年時(shí),其違約風(fēng)險(xiǎn)顯著小于貸款期限為5年。
驗(yàn)證狀態(tài)verificationStatus為0時(shí),相對(duì)于其值為2時(shí)違約風(fēng)險(xiǎn)顯著更大。其值為1時(shí)則相對(duì)于2違約風(fēng)險(xiǎn)顯著更小。
因此,建議貸款發(fā)放機(jī)構(gòu)在評(píng)估借款人的違約風(fēng)險(xiǎn)時(shí),重點(diǎn)關(guān)注借款人的負(fù)債收入比、就業(yè)職稱、年收入、房屋所有權(quán)狀況等個(gè)人信息,并分析借款人的借款行為,包括其申請(qǐng)貸款的金額、利率、分期付款金額、用途、申請(qǐng)類型、貸款等級(jí)、貸款期限、驗(yàn)證狀態(tài),調(diào)查借款人的歷史借款記錄,包括循環(huán)額度利用率、借款人信用檔案中未結(jié)信用額度的數(shù)量、貸款發(fā)放時(shí)的FICO所屬的下限范圍、信貸周轉(zhuǎn)余額合計(jì)、信用檔案中當(dāng)前的信用額度總數(shù)。
對(duì)于已經(jīng)發(fā)放的貸款,如果貸款行為發(fā)生于2013年6月之前,貸款發(fā)放機(jī)構(gòu)應(yīng)該盡快追回并做好壞賬準(zhǔn)備。
關(guān)于分析師
在此對(duì)Jiasong Xue對(duì)本文所作的貢獻(xiàn)表示誠(chéng)摯感謝,他在中山大學(xué)完成了管理科學(xué)專業(yè)的學(xué)位,專注商業(yè)數(shù)據(jù)分析領(lǐng)域。擅長(zhǎng)SPSS、R語(yǔ)言、Python。