機(jī)器學(xué)習(xí):銀行貸款違約預(yù)測模型
一種數(shù)據(jù)科學(xué)方法,用于預(yù)測和了解申請人的個(gè)人資料,以最大程度地降低未來貸款違約的風(fēng)險(xiǎn)。

關(guān)于該項(xiàng)目
該數(shù)據(jù)集包含有關(guān)信貸申請人的信息。在全球范圍內(nèi),銀行使用這種數(shù)據(jù)集和信息數(shù)據(jù)類型來創(chuàng)建模型,以幫助決定接受/拒絕誰的貸款。
在進(jìn)行所有探索性數(shù)據(jù)分析、清理和處理我們可能(將)發(fā)現(xiàn)的所有異常之后,一個(gè)好/壞申請人的模式將暴露在機(jī)器學(xué)習(xí)模型中學(xué)習(xí)。
機(jī)器學(xué)習(xí)問題和目標(biāo)
我們正在處理一個(gè)有監(jiān)督的二元分類問題。目標(biāo)是訓(xùn)練最好的機(jī)器學(xué)習(xí)模型,以最大限度地提高深入了解過去客戶資料的預(yù)測能力,最大限度地降低未來貸款違約的風(fēng)險(xiǎn)。
性能指標(biāo)
鑒于我們正在處理高度不平衡的數(shù)據(jù),用于模型評(píng)估的指標(biāo)是 ROC AUC 。
項(xiàng)目結(jié)構(gòu)
該項(xiàng)目分為三類:
EDA:探索性數(shù)據(jù)分析
數(shù)據(jù)整理:清理和特征選擇
機(jī)器學(xué)習(xí):預(yù)測建模
數(shù)據(jù)集
數(shù)據(jù)集為lendingclub數(shù)據(jù)集。

功能描述
id:貸款申請的唯一 ID。
等級(jí):LC分配的貸款等級(jí)。
year_inc:借款人在注冊時(shí)提供的自報(bào)年收入。
short_emp?: 1 受雇 1 年或更短時(shí)間。
emp_length_num?: 就業(yè)年限。可能的值介于 0 和 10 之間,其中 0 表示不到一年,而 10 表示十年或更長時(shí)間。
home_ownership:房屋所有權(quán)的類型。
dti(債務(wù)與收入比率):使用借款人每月債務(wù)支付總額與債務(wù)總額(不包括抵押貸款和申請的信用證貸款)除以借款人自我報(bào)告的月收入計(jì)算得出的比率。
目的:借款人為貸款請求提供的類別。
term:貸款的付款次數(shù)。值以月為單位,可以是 36 或 60。
last_delinq_none?: 1 當(dāng)借款人至少有一次拖欠事件時(shí)。
last_major_derog_none?: 1 個(gè)借款人至少有 90 天的差評(píng)。
revol_util:循環(huán)線利用率,或借款人使用的信貸量相對(duì)于所有可用的循環(huán)信貸。
total_rec_late_fee:迄今為止收到的滯納金。
od_ratio:透支比率。
bad_loan:未支付貸款時(shí)為 1。
導(dǎo)入依賴庫
加載和顯示數(shù)據(jù)集:

EDA:解釋性數(shù)據(jù)分析
數(shù)值屬性的主要統(tǒng)計(jì)數(shù)據(jù):>> data.describe().round(3)
該數(shù)據(jù)集有 2000 個(gè)觀測值和包括目標(biāo)在內(nèi)的 15 個(gè)變量,分為 11 個(gè)數(shù)字特征和 4 個(gè)類別特征。
存在缺失值的變量:“home_ownership”為 7.46%,“dti”為 0.77%,“l(fā)ast_major_derog_none”為 97.13%。
從均值和中位數(shù)的差異,以及變量“annual_inc”、“revol_util”和“total_rec_late_fee”的最大值的距離來看,似乎有一些異常值。
分類屬性的主要統(tǒng)計(jì)數(shù)據(jù):

不平衡的數(shù)據(jù):目標(biāo)有 80% 的違約結(jié)果(值 1),而 20% 的貸款最終被支付/未違約(值 0)

EDA 功能
使用和濫用圖形來描述數(shù)據(jù)集中的所有特征。首先為每個(gè)圖表定義一些函數(shù):箱線圖、直方圖、條形圖和餅圖、散點(diǎn)圖、數(shù)據(jù)透視圖以及統(tǒng)計(jì)描述。

類別分布的可視化:

直方圖告訴我們,收入越高,違約趨勢越高。

散點(diǎn)圖顯示了“年收入”和“債務(wù)收入比”之間的弱負(fù)相關(guān)。
相關(guān)值為 -0.23,這意味著隨著 yearn_inc 的減少,實(shí)例 1 的貸款(違約/未支付)增加。

就業(yè)年限。可能的值介于 0 和 10 之間,其中 0 表示不到一年,而 10 表示十年或更長時(shí)間。

特征:dti(債務(wù)收入比)
使用借款人每月債務(wù)支付總額與債務(wù)總額(不包括抵押貸款和申請的信用證貸款)除以借款人自我報(bào)告的月收入計(jì)算得出的比率。

與良好貸款相比,不良貸款(違約)的分布平均具有更高的“dti”值(債務(wù)與收入比率)。

等級(jí)Grade:趨勢是當(dāng)?shù)燃?jí)等級(jí)降低時(shí),違約貸款的可能性增加。

revol_util
循環(huán)線利用率,或借款人使用的信貸量相對(duì)于所有可用的循環(huán)信貸。客戶的年收入越低,借款人使用的信用額度相對(duì)于所有可用的循環(huán)信用額度越高。

年收入最低的客戶是滯納金較多的客戶,尤其是最高和重的客戶。

在房屋、小型企業(yè)或度假等貸款用途中,滯納金的發(fā)生頻率較高。另一方面,婚禮和汽車是滯納金執(zhí)行最低的信用目的。

od_ratio透支比率

箱線圖:可視化數(shù)值數(shù)據(jù)分散

模型的混淆矩陣

模型ROC曲線

多算法比較中,支持向量機(jī)svc的auc最高

結(jié)論
最佳模型:?支持向量機(jī) - 分類器 (SVC):75.21%。
經(jīng)驗(yàn)法則非常簡單:ROC AUC 指標(biāo)的值越高越好。如果模型auc只有?0.5,表示模型功能和隨機(jī)猜測差不多。如果模型表現(xiàn)完美,auc將達(dá)到 1.0。
作者推薦AUC參考閾值和模型性能劃分

如果大家對(duì)金融風(fēng)控建模感興趣,可了解《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析(加強(qiáng)版)》

如果有論文復(fù)現(xiàn)風(fēng)控模型案例需求的學(xué)員,我們提供一對(duì)一定制輔導(dǎo),快速幫你們解決問題。
