最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

機(jī)器學(xué)習(xí):銀行貸款違約預(yù)測模型

2022-08-29 12:04 作者:python風(fēng)控模型  | 我要投稿

一種數(shù)據(jù)科學(xué)方法,用于預(yù)測和了解申請人的個(gè)人資料,以最大程度地降低未來貸款違約的風(fēng)險(xiǎn)。

圖片

關(guān)于該項(xiàng)目

該數(shù)據(jù)集包含有關(guān)信貸申請人的信息。在全球范圍內(nèi),銀行使用這種數(shù)據(jù)集和信息數(shù)據(jù)類型來創(chuàng)建模型,以幫助決定接受/拒絕誰的貸款。

在進(jìn)行所有探索性數(shù)據(jù)分析、清理和處理我們可能(將)發(fā)現(xiàn)的所有異常之后,一個(gè)好/壞申請人的模式將暴露在機(jī)器學(xué)習(xí)模型中學(xué)習(xí)。

機(jī)器學(xué)習(xí)問題和目標(biāo)

我們正在處理一個(gè)有監(jiān)督的二元分類問題。目標(biāo)是訓(xùn)練最好的機(jī)器學(xué)習(xí)模型,以最大限度地提高深入了解過去客戶資料的預(yù)測能力,最大限度地降低未來貸款違約的風(fēng)險(xiǎn)。

性能指標(biāo)

鑒于我們正在處理高度不平衡的數(shù)據(jù),用于模型評(píng)估的指標(biāo)是 ROC AUC 。

項(xiàng)目結(jié)構(gòu)

該項(xiàng)目分為三類:

  1. EDA:探索性數(shù)據(jù)分析

  2. 數(shù)據(jù)整理:清理和特征選擇

  3. 機(jī)器學(xué)習(xí):預(yù)測建模

數(shù)據(jù)集

數(shù)據(jù)集為lendingclub數(shù)據(jù)集。


圖片



功能描述

  • id:貸款申請的唯一 ID。

  • 等級(jí):LC分配的貸款等級(jí)。

  • year_inc:借款人在注冊時(shí)提供的自報(bào)年收入。

  • short_emp?: 1 受雇 1 年或更短時(shí)間。

  • emp_length_num?: 就業(yè)年限。可能的值介于 0 和 10 之間,其中 0 表示不到一年,而 10 表示十年或更長時(shí)間。

  • home_ownership:房屋所有權(quán)的類型。

  • dti(債務(wù)與收入比率):使用借款人每月債務(wù)支付總額與債務(wù)總額(不包括抵押貸款和申請的信用證貸款)除以借款人自我報(bào)告的月收入計(jì)算得出的比率。

  • 目的:借款人為貸款請求提供的類別。

  • term:貸款的付款次數(shù)。值以月為單位,可以是 36 或 60。

  • last_delinq_none?: 1 當(dāng)借款人至少有一次拖欠事件時(shí)。

  • last_major_derog_none?: 1 個(gè)借款人至少有 90 天的差評(píng)。

  • revol_util:循環(huán)線利用率,或借款人使用的信貸量相對(duì)于所有可用的循環(huán)信貸。

  • total_rec_late_fee:迄今為止收到的滯納金。

  • od_ratio:透支比率。

  • bad_loan:未支付貸款時(shí)為 1。



導(dǎo)入依賴庫

加載和顯示數(shù)據(jù)集:

圖片

EDA:解釋性數(shù)據(jù)分析

數(shù)值屬性的主要統(tǒng)計(jì)數(shù)據(jù):
>> data.describe().round(3)

該數(shù)據(jù)集有 2000 個(gè)觀測值和包括目標(biāo)在內(nèi)的 15 個(gè)變量,分為 11 個(gè)數(shù)字特征和 4 個(gè)類別特征。

存在缺失值的變量:“home_ownership”為 7.46%,“dti”為 0.77%,“l(fā)ast_major_derog_none”為 97.13%。

從均值和中位數(shù)的差異,以及變量“annual_inc”、“revol_util”和“total_rec_late_fee”的最大值的距離來看,似乎有一些異常值。

分類屬性的主要統(tǒng)計(jì)數(shù)據(jù):


圖片

不平衡的數(shù)據(jù):目標(biāo)有 80% 的違約結(jié)果(值 1),而 20% 的貸款最終被支付/未違約(值 0)


圖片

EDA 功能

使用和濫用圖形來描述數(shù)據(jù)集中的所有特征。首先為每個(gè)圖表定義一些函數(shù):箱線圖、直方圖、條形圖和餅圖、散點(diǎn)圖、數(shù)據(jù)透視圖以及統(tǒng)計(jì)描述。


圖片

類別分布的可視化:


圖片

直方圖告訴我們,收入越高,違約趨勢越高。


圖片

散點(diǎn)圖顯示了“年收入”和“債務(wù)收入比”之間的弱負(fù)相關(guān)。

相關(guān)值為 -0.23,這意味著隨著 yearn_inc 的減少,實(shí)例 1 的貸款(違約/未支付)增加。

圖片


就業(yè)年限。可能的值介于 0 和 10 之間,其中 0 表示不到一年,而 10 表示十年或更長時(shí)間。

圖片

特征:dti(債務(wù)收入比)

使用借款人每月債務(wù)支付總額與債務(wù)總額(不包括抵押貸款和申請的信用證貸款)除以借款人自我報(bào)告的月收入計(jì)算得出的比率。

圖片

與良好貸款相比,不良貸款(違約)的分布平均具有更高的“dti”值(債務(wù)與收入比率)。


圖片


等級(jí)Grade:趨勢是當(dāng)?shù)燃?jí)等級(jí)降低時(shí),違約貸款的可能性增加。


圖片

revol_util

循環(huán)線利用率,或借款人使用的信貸量相對(duì)于所有可用的循環(huán)信貸。客戶的年收入越低,借款人使用的信用額度相對(duì)于所有可用的循環(huán)信用額度越高。


圖片

年收入最低的客戶是滯納金較多的客戶,尤其是最高和重的客戶。

圖片

在房屋、小型企業(yè)或度假等貸款用途中,滯納金的發(fā)生頻率較高。另一方面,婚禮和汽車是滯納金執(zhí)行最低的信用目的。


圖片

od_ratio透支比率


圖片

箱線圖:可視化數(shù)值數(shù)據(jù)分散


圖片

模型的混淆矩陣


圖片

模型ROC曲線


圖片



多算法比較中,支持向量機(jī)svc的auc最高


圖片

結(jié)論

最佳模型:?支持向量機(jī) - 分類器 (SVC):75.21%。

經(jīng)驗(yàn)法則非常簡單:ROC AUC 指標(biāo)的值越高越好。如果模型auc只有?0.5,表示模型功能和隨機(jī)猜測差不多。如果模型表現(xiàn)完美,auc將達(dá)到 1.0。

作者推薦AUC參考閾值和模型性能劃分


圖片


如果大家對(duì)金融風(fēng)控建模感興趣,可了解《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析(加強(qiáng)版)》



如果有論文復(fù)現(xiàn)風(fēng)控模型案例需求的學(xué)員,我們提供一對(duì)一定制輔導(dǎo),快速幫你們解決問題。





機(jī)器學(xué)習(xí):銀行貸款違約預(yù)測模型的評(píng)論 (共 條)

分享到微博請遵守國家法律
淮南市| 姜堰市| 霸州市| 洪江市| 贡觉县| 乾安县| 塘沽区| 航空| 江川县| 三穗县| 阳东县| 永城市| 安义县| 朔州市| 永平县| 内乡县| 盈江县| 卓资县| 沾益县| 青州市| 太原市| 荔浦县| 大洼县| 开远市| 瑞昌市| 延长县| 厦门市| 同心县| 东莞市| 河津市| 张家界市| 巴林左旗| 石阡县| 固安县| 张北县| 鹤峰县| 阳信县| 贵州省| 新宁县| 米脂县| 承德市|