最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于Python的信用評分卡模型分析

2021-11-11 20:35 作者:python風(fēng)控模型  | 我要投稿

在公眾號「python風(fēng)控模型」里回復(fù)關(guān)鍵字:學(xué)習(xí)資料

? ? ? ? ? ? ? ?

信用風(fēng)險計量模型可以包括跟個人信用評級,企業(yè)信用評級和國家信用評級。人信用評級有一系列評級模型組成,常見是A卡(申請評分卡)、B卡(行為模型)、C卡(催收模型)和F卡(反欺詐模型)。?今天我們展示的是個人信用評級模型的開發(fā)過程,數(shù)據(jù)采用kaggle上知名的give me some credit數(shù)據(jù)集。


一、建模流程


典型的信用評分卡模型如圖1-1所示。信用風(fēng)險評級模型的主要開發(fā)流程如下:
(1) 獲取數(shù)據(jù),包括申請貸款客戶的數(shù)據(jù)。數(shù)據(jù)包括客戶各個維度,包括年齡,性別,收入,職業(yè),家人數(shù)量,住房情況,消費情況,債務(wù)等等。
(2) 數(shù)據(jù)預(yù)處理,主要工作包括數(shù)據(jù)清洗、缺失值處理、異常值處理、數(shù)據(jù)類型轉(zhuǎn)換等等。我們需要把原始數(shù)據(jù)層層轉(zhuǎn)化為可建模數(shù)據(jù)。
(3) EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計,包括統(tǒng)計總體數(shù)據(jù)量大小,好壞客戶占比,數(shù)據(jù)類型有哪些,變量缺失率,變量頻率分析直方圖可視化,箱形圖可視化,變量相關(guān)性可視化等。
(4) 變量選擇,通過統(tǒng)計學(xué)和機器學(xué)習(xí)的方法,篩選出對違約狀態(tài)影響最顯著的變量。常見變量選擇方法很多,包括iv,feature importance,方差等等?。另外缺失率太高的變量也建議刪除。無業(yè)務(wù)解釋性變量且沒有價值變量也建議刪除。
(5) 模型開發(fā),評分卡建模主要難點是woe分箱,分數(shù)拉伸,變量系數(shù)計算。其中woe分箱是評分卡中難點中難點,需要豐富統(tǒng)計學(xué)知識和業(yè)務(wù)經(jīng)驗。目前分箱算法多達50多種,沒有統(tǒng)一金標(biāo)準(zhǔn),一般是先機器自動分箱,然后再手動調(diào)整分箱,最后反復(fù)測試模型最后性能,擇優(yōu)選取最優(yōu)分箱算法。
(6) 模型驗證,核實模型的區(qū)分能力、預(yù)測能力、穩(wěn)定性、排序能力等等,并形成模型評估報告,得出模型是否可以使用的結(jié)論。模型驗證不是一次性完成,而是當(dāng)建模后,模型上線前,模型上線后定期驗證。模型開發(fā)和維護是一個循環(huán)周期,不是一次完成。
(7) 信用評分卡,根據(jù)邏輯回歸的變量系數(shù)和WOE值來生成評分卡。評分卡方便業(yè)務(wù)解釋,已使用幾十年,非常穩(wěn)定,深受金融行業(yè)喜愛。其方法就是將Logistic模型概率分轉(zhuǎn)換為300-900分的標(biāo)準(zhǔn)評分的形式。
(8) 建立評分卡模型系統(tǒng),根據(jù)信用評分卡方法,建立計算機自動信用化評分系統(tǒng)。美國傳統(tǒng)產(chǎn)品FICO有類似功能,F(xiàn)ICO底層語言是Java。目前流行Java,python或R多種語言構(gòu)建評分卡自動化模型系統(tǒng)。

(9)模型監(jiān)控,著時間推移,模型區(qū)分能力,例如ks,auc會逐步下降,模型穩(wěn)定性也會發(fā)生偏移。我們需要專業(yè)模型監(jiān)控團隊,當(dāng)監(jiān)控到模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時,我們需要重新開發(fā)模型,迭代模型。模型監(jiān)控團隊?wèi)?yīng)該每日按時郵件發(fā)送模型監(jiān)控報表給相關(guān)團隊,特別是開發(fā)團隊和業(yè)務(wù)團隊。

圖片


二. 獲取數(shù)據(jù)


建模數(shù)據(jù)方面包含借款申請人填寫的基本資料,通訊錄,通話記錄和其他運營商數(shù)據(jù),以及在其他第三方平臺提供的黑名單和其他借貸平臺借貸還款數(shù)據(jù),和app抓取的手機數(shù)據(jù),有些還包含人行征信,社保公積金工資銀行流水,個人消費等數(shù)據(jù),針對不同額度和客群需要用戶填寫和授權(quán)的資料不一樣。收集需要的數(shù)據(jù)后,通過SQL提取相關(guān)變量特征構(gòu)造建模用的寬表。具體建模信息如下圖。


圖片


python評分卡建模實戰(zhàn)數(shù)據(jù)集

之前我講過利用German credit德國信用數(shù)據(jù)集建立python信用評分卡模型,該數(shù)據(jù)集優(yōu)勢是數(shù)據(jù)量小,對計算機硬件要求不高,方便各個階層學(xué)員學(xué)習(xí)和測試。

圖片


信用評分算法對違約概率進行猜測,是銀行用來確定是否應(yīng)授予貸款的方法。數(shù)據(jù)屬于個人消費類貸款,通過預(yù)測某人在未來兩年內(nèi)遇到財務(wù)困境的可能性,提高信用評分的最新水平。

銀行在市場經(jīng)濟中發(fā)揮著至關(guān)重要的作用。他們決定誰可以獲得資金以及以什么條件獲得資金,并且可以做出投資決策或終止投資決定。為了讓市場和社會發(fā)揮作用,個人和公司需要獲得信貸。

give me some credit有15萬樣本數(shù)據(jù),該數(shù)據(jù)量解決中大型金融機構(gòu)實戰(zhàn)數(shù)據(jù),更加接近金融企業(yè)項目實戰(zhàn)。該數(shù)據(jù)集通過預(yù)測某人在未來兩年內(nèi)遇到財務(wù)困難的可能性,提高信用評分的水平。


圖片


變量中文釋義,變量少而精,可作為建模的參考

圖片


我們對上述變量歸類,主要分為:

– 基本屬性:包括了借款人當(dāng)時的年齡。

– 償債能力:包括了借款人的可用額度比值、月收入、負債比率。

– 信用歷史:兩年內(nèi)35-59天逾期次數(shù)、兩年內(nèi)60-89天逾期次數(shù)、兩年內(nèi)90

天或高于90天逾期的次數(shù)。

– 財產(chǎn)狀況:包括了開放式信貸和貸款數(shù)量、不動產(chǎn)貸款或額度數(shù)量。

– 其它因素:借款人的家屬數(shù)量(不包括本人在內(nèi))



kaggle模型競賽中,獎金5000美金,模型評估指標(biāo)為AUC。

圖片


互聯(lián)網(wǎng)上國內(nèi)外關(guān)于give me some credit數(shù)據(jù)集AUC得分最佳表現(xiàn)為0.85.

圖片


但我方《python信用評分卡建模(附代碼)》教程中AUC可以達到0.929,調(diào)參后AUC可以更高,遠高于互聯(lián)網(wǎng)上give me some credit論文的模型性能AUC=0.85?;ヂ?lián)網(wǎng)論文關(guān)于建模步驟有很多看似有理,但實際上不正確的理論。


圖片


如果你好奇我方如何將give me some credit數(shù)據(jù)集AUC達到0.929,可參考教程《python信用評分卡建模(附代碼)》https://ke.qq.com/course/3064943

《python信用評分卡建模(附代碼)》中g(shù)ive me some credit數(shù)據(jù)集一覽。

圖片



三、數(shù)據(jù)預(yù)處理


數(shù)據(jù)預(yù)處理,主要工作包括數(shù)據(jù)清洗、缺失值處理、異常值處理、數(shù)據(jù)類型轉(zhuǎn)換等等。我們需要把原始數(shù)據(jù)層層轉(zhuǎn)化為可建模數(shù)據(jù)。


3.1 缺失值處理


give me some credit數(shù)據(jù)集缺失數(shù)據(jù)并不嚴重,只有兩個變量有缺失值,缺失率為2%和19.8%。

圖片

現(xiàn)實中數(shù)據(jù)存在大量缺失值是非常普遍。央行征信很多變量缺失率可以高達99%。缺失值會導(dǎo)致一些數(shù)據(jù)分析和建模的問題。通常在信用風(fēng)險評分卡模型開發(fā)的第一步我們就要進行缺失值處理。缺失值處理的方法,包括如下幾種。
(1) 直接刪除含有缺失值的樣本。
(2) 填補缺失值。
(3) 不予理睬。



3.2 異常值處理


缺失值處理后,我們需要進行異常值檢驗。異常值分為統(tǒng)計學(xué)上異常值和業(yè)務(wù)上異常值。統(tǒng)計學(xué)異常值通常用箱型圖來判斷,如下圖。

圖片

業(yè)務(wù)上異常值是根據(jù)業(yè)務(wù)線對變量定義和常識來判斷該數(shù)據(jù)是否合理。比如give me some credit數(shù)據(jù)集中有個人客戶的年齡為0,按照常理,我們認為該值為異常值。哪個貸款公司會把錢借給年齡為0的用戶?

圖片


3.3 數(shù)據(jù)劃分


我們建立模型后一般會遇到下面三種情況,underfitting欠擬合,just right擬合合適,overfitting過度擬合。

圖片

為了驗證模型的性能,我們需要對數(shù)據(jù)集進行劃分。

首先把所有數(shù)據(jù)分成x數(shù)據(jù)和y數(shù)據(jù)(target目標(biāo)變量)。

然后把x數(shù)據(jù)和y數(shù)據(jù)分成訓(xùn)練集和測試集,并生成四個變量train_x,test_x,train_y,test_y.

圖片


四、EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計


由于人大腦的生理結(jié)構(gòu),大部分人對數(shù)字不敏感,但數(shù)據(jù)可視化對大腦理解更友好。這就是數(shù)據(jù)可視化重要性,也方便向領(lǐng)導(dǎo)或決策層匯報工作。

圖片

EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計包括統(tǒng)計總體數(shù)據(jù)量大小,好壞客戶占比,數(shù)據(jù)類型有哪些,變量缺失率,變量頻率分析直方圖可視化,箱形圖可視化,變量相關(guān)性可視化等。EDA是Exploratory Data Analysis縮寫,中文釋義為探索性數(shù)據(jù)分析。探索性數(shù)據(jù)分析方法很多常見的有:hist直方圖、scater散點圖,boxer箱線圖,heat熱力圖,pairplot配對圖。


give me some credit數(shù)據(jù)集的age年齡變量直方圖


圖片


give me some credit數(shù)據(jù)集的target目標(biāo)變量直方圖,可以發(fā)現(xiàn)好壞客戶占比非常不平衡。好客戶數(shù)量大概是壞客戶數(shù)量15倍左右。

圖片


give me some credit數(shù)據(jù)集的家庭成員數(shù)量變量直方圖

圖片

give me some credit數(shù)據(jù)集所有變量的pairplot配對圖,大量信息一目了然。

圖片


give me some credit數(shù)據(jù)集所有變量相關(guān)性的熱力圖,可以分析出有6對變量相關(guān)性非常高,變量篩選時候需要注意。











圖片

give me some credit數(shù)據(jù)集age年齡變量關(guān)于好壞客戶的分類箱型圖統(tǒng)計。我們可以看到好客戶年齡中位數(shù)要高于壞客戶年齡中位數(shù)。

圖片

五、變量選擇


變量選擇,通過統(tǒng)計學(xué)和機器學(xué)習(xí)的方法,篩選出對違約狀態(tài)影響最顯著的變量。常見變量選擇方法很多,包括iv,feature importance,方差等等?。另外缺失率太高的變量也建議刪除。無業(yè)務(wù)解釋性變量且沒有價值變量也建議刪除。

《python信用評分卡建模(附代碼)》教程中集成樹算法catboost的feature importance可視化圖,我們可以明顯看出RevolvingUtilizationOfUnsecuredLines可用額度比值變量的重要性最高。圖中藍色柱越長,重要性越大,反之亦然。

圖片

《python信用評分卡建模(附代碼)》教程中變量iv值計算結(jié)果如下,我們清晰看到RevolvingUtilizationOfUnsecuredLines可用額度比值變量的iv最高。

圖片


通過feature importance和iv值方法我們都得到同樣結(jié)論:RevolvingUtilizationOfUnsecuredLines可用額度比值變量是最重要的。


六、模型開發(fā)


下圖是建立分類器模型的常見算法,模型驗證方法和模型監(jiān)控內(nèi)容結(jié)構(gòu)化展示

圖片

邏輯回歸,決策樹,隨機森林不同算法的對比如下圖

圖片

邏輯回歸的類型:

大體上可以分為,

1. 二元邏輯回歸——兩個或二元結(jié)果,如是或否

2. 多項 Logistic 回歸 - 三個或更多結(jié)果,如一等、二等和三等或無學(xué)位

3.序數(shù)邏輯回歸——三個或更多類似于多項邏輯回歸。


評分卡模型開發(fā)用的是邏輯回歸。邏輯回歸的一個難點是sigmoid函數(shù),我們簡單介紹一下sigmoid函數(shù)和邏輯回歸關(guān)系。

Logit 函數(shù)到 Sigmoid 函數(shù) - Logistic 回歸:

邏輯回歸可以表示為,

圖片


其中 p(x)/(1-p(x)) 稱為賠率,左側(cè)稱為 logit 或 log-odds 函數(shù)。幾率是成功幾率與失敗幾率的比值。因此,在邏輯回歸中,輸入的線性組合被轉(zhuǎn)換為 log(odds),輸出為 1。

以下是上述函數(shù)的反函數(shù)

圖片


這是 Sigmoid 函數(shù),它產(chǎn)生 S 形曲線。它總是返回一個介于 0 和 1 之間的概率值。Sigmoid 函數(shù)用于將期望值轉(zhuǎn)換為概率。該函數(shù)將任何實數(shù)轉(zhuǎn)換為 0 到 1 之間的數(shù)字。我們利用 sigmoid 將預(yù)測轉(zhuǎn)換為機器學(xué)習(xí)中的概率。

數(shù)學(xué)上的 sigmoid 函數(shù)可以是,

圖片
圖片


模型開發(fā),評分卡建模主要難點是woe分箱,分數(shù)拉伸,變量系數(shù)計算。其中woe分箱是評分卡中難點中難點,需要豐富統(tǒng)計學(xué)知識和業(yè)務(wù)經(jīng)驗。目前分箱算法多達50多種,沒有統(tǒng)一金標(biāo)準(zhǔn),一般是先機器自動分箱,然后再手動調(diào)整分箱,最后反復(fù)測試模型最后性能,擇優(yōu)選取最優(yōu)分箱算法。


《python信用評分卡建模(附代碼)》講解Kmeans,等頻分箱、等距分箱,卡方分箱,決策樹分箱算法原理和python實現(xiàn)分箱代碼?!秔ython信用評分卡建模(附代碼)》還告訴你如何選擇分箱方法?在不同需求下,選擇最合適分箱方法。

圖片


分箱主要分為有監(jiān)督方法和無監(jiān)督方法。k均值聚類算法(k-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟是,預(yù)將數(shù)據(jù)分為K組,則隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小。下圖是Kmeans分箱算法原理。


圖片


傳說中的最優(yōu)分箱就是決策樹分箱。

決策樹分箱算法步驟為:

步驟 1:首先,它使用我們想要離散化的變量來訓(xùn)練一個有限深度(2、3 或 4)的決策樹來預(yù)測目標(biāo)。

第 2 步:然后將原始變量值替換為樹返回的概率。單個 bin 內(nèi)的所有觀測值的概率相同,因此用概率替換相當(dāng)于將決策樹決定的截止值內(nèi)的觀測值分組。

決策樹分箱算法好處和缺點是:

好處 :

  • 概率預(yù)測返回的決策樹與目標(biāo)單調(diào)相關(guān)。

  • 新的 bin 顯示出減少的熵,這是每個桶/桶內(nèi)的觀察結(jié)果與它們自己的相似度,而不是其他桶/桶的觀察結(jié)果。

  • 樹會自動找到垃圾箱。

缺點:

  • 可能會導(dǎo)致過擬合

  • 更重要的是,可能需要對樹參數(shù)進行一些調(diào)整以獲得最佳分割(例如,深度、一個分區(qū)中的最小樣本數(shù)、最大分區(qū)數(shù)和最小信息增益)。這可能很耗時。

圖片


? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (決策樹分箱可視化)


等距分箱可用于類似age年齡的變量。

圖片

分箱完成后,就把分箱數(shù)據(jù)轉(zhuǎn)換為woe數(shù)據(jù),最后用邏輯回歸算法建模。


分箱的簡單代碼


七、模型驗證


邏輯回歸算法建模后,我們需要模型驗證。模型驗證是核實模型的區(qū)分能力、預(yù)測能力、穩(wěn)定性、排序能力等指標(biāo)是否合格,并形成模型評估報告,得出模型是否可以使用的結(jié)論。模型驗證不是一次性完成,而是當(dāng)建模后,模型上線前,模型上線后定期驗證。模型開發(fā)和維護是一個循環(huán)周期,不是一次完成。


著時間推移,模型區(qū)分能力,例如ks,auc會逐步下降,模型穩(wěn)定性也會發(fā)生偏移。當(dāng)模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時,我們需要重新開發(fā)模型,迭代模型。


模型驗證指標(biāo)涉及到腳本主要來自sklearn的metrics,具體指標(biāo)如下:

圖片


?排序類評估——ROC指標(biāo):


很多統(tǒng)計指標(biāo)來源于戰(zhàn)爭。ROC最早用于英國雷達分辨鳥或德國飛機的概率。二戰(zhàn)期間首次用于分析雷達有效性。在早些時候雷達,有時很難從飛機上分辨出一只鳥。英國人率先使用 ROC 曲線來優(yōu)化他們依賴雷達進行判別的方式在來襲的德國飛機和鳥類之間。


AUC(area under the curve)是機器學(xué)習(xí)領(lǐng)域中一種常見且重要的模型評估指標(biāo),用于計算二元分類器效率的方法。AUC表示ROC(receiver operator characteristic)曲線下的面積,即AUC?= ROC 曲線下面積。

圖片


sensitivity=黑色豎線右邊紅色像素面積/紅色像素總面積

false positive=黑色豎線右邊綠色像素面積/藍色像素總面積


當(dāng)我們對不同的閾值進行遍歷時,產(chǎn)生的 (假陽率, 真陽率) 坐標(biāo)點也就可以連成ROC曲線,進而求得曲線下面積AUC。


K-S值


在完成一個模型后,將測試模型的樣本平均分成10組,以好樣本占比降序從左到右進行排列,其中第一組的好樣本占比最大,壞樣本占比最小。將KS檢驗應(yīng)用于信用評級模型主要是為了驗證模型對違約對象的區(qū)分能力,通常是在模型預(yù)測全體樣本的信用評分后,將全體樣本按違約與非違約分為兩部分,然后用KS統(tǒng)計量來檢驗這兩組樣本信用評分的分布是否有顯著差異。

圖片


GINI系數(shù)


圖片


使用洛倫茨曲線,可以描述預(yù)期違約客戶的分布。


基尼系數(shù)常用于統(tǒng)計宏觀經(jīng)濟的貧富差距。例如將一個國家所有的人口按最貧窮到最富有進行排列,隨著人數(shù)的累計,這些人口所擁有的財富的比例也逐漸增加到100%,按這個方法得到圖中的曲線,稱為洛倫茲曲線?;嵯禂?shù)就是圖中A/B的比例。可以看到,假如這個國家最富有的那群人占據(jù)了越多的財富,貧富差距越大,那么洛倫茨曲線就會越彎曲,基尼系數(shù)就越大。


基尼系數(shù)顯示的是好客戶的比例(累計),而不是所有客戶。它顯示了模型與隨機模型相比具有更好分類能力的程度。它也被稱為基尼指數(shù)?;嵯禂?shù)可以取-1 到1 之間的值。負值對應(yīng)于分數(shù)含義相反的模型。


下面看基尼系數(shù)的計算步驟:


圖片


在ROC圖中,GINI=A/(A+B)=A/C=(A+C)/C-1=AUC/C-1


其中,C=1/2 所以,GINI=2AUC-1



《python信用評分卡建模(附代碼)》教程中訓(xùn)練模型AUC為0.929,具體模型性能如下:

model accuracy is: 0.9406307593547452

model precision is: 0.9060132575757576

model sensitivity is: 0.6077497220898841

f1_score: 0.7274973861800208

AUC: 0.9290751730536397

good classifier

gini 0.8581503461072795

ks value:0.7107

遠超互聯(lián)網(wǎng)give me some credit數(shù)據(jù)集建模論文的模型性能AUC 0.85。

圖片


邏輯回歸調(diào)參

在模型驗證中,我們還要測試模型參數(shù)是否最佳。邏輯回歸中沒有需要調(diào)整的基本超參數(shù)。盡管它有很多參數(shù),但以下三個參數(shù)可能有助于微調(diào)以獲得更好的結(jié)果,

正則化(懲罰)有時可能是有益的。

懲罰 -?{'l1', 'l2', 'elasticnet', 'none'}, default='l2'

懲罰強度由 C 參數(shù)控制,這可能很有用。

C –浮點數(shù),默認值 = 1.0

使用不同的求解器,您有時可能會觀察到有用的性能或收斂變化。

求解器 -?{'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}, default='lbfgs'

注意:要使用的算法由懲罰決定:求解器支持的懲罰:

1. 'newton-cg' – ['l2', 'none']

2. 'lbfgs' – ['l2', 'none']

3.'liblinear' - ['l1', 'l2']

4. 'sag' – ['l2', 'none']

5. 'saga' – ['elasticnet', 'l1', 'l2', 'none']


八、評分卡誕生


模型根據(jù)邏輯回歸的變量系數(shù)和WOE值來生成評分卡。評分卡方便業(yè)務(wù)解釋,已使用幾十年,非常穩(wěn)定,深受金融行業(yè)喜愛。其方法就是將Logistic模型概率分轉(zhuǎn)換為300-900分的標(biāo)準(zhǔn)評分的形式。國內(nèi)絕大多數(shù)信用評分卡都效仿的美國FICO分數(shù)。

FICO 分數(shù)為 800 或以上的個人具有特殊的信用記錄。信用評分高的人很可能多年來擁有多項信用額度。他們沒有超過任何信用額度,并及時還清了所有債務(wù)。

中高 700 分的 FICO 分數(shù)是不錯的分數(shù)。得分在此范圍內(nèi)的個人明智地借貸和消費并及時付款。這些人,例如 800 歲以上的人,往往更容易獲得信貸,并且通常支付的利率要低得多。

最常見的分數(shù)介于 650 和 750 之間。雖然分數(shù)在此范圍內(nèi)的個人信用相當(dāng)好,但他們可能會延遲付款。這些人通常不會很難獲得貸款。但是,他們可能需要支付略高的利率。

最后一個要考慮的實際范圍是 599 或更低的分數(shù)。它們被認為信用評分不佳,通常是由于多次延遲付款、未能償還債務(wù)或已轉(zhuǎn)到收款機構(gòu)的債務(wù)所致。擁有此類 FICO 分數(shù)的個人通常很難(如果不是不可能的話)獲得任何形式的信用。

圖片

如下圖, FICO信用分在very poor300-579分的占比最低,只有17%;good670-739分的占比最高,達到21.5%。

圖片


《python信用評分卡建模(附代碼)》中評分卡生成有詳細章節(jié)講解,包括PDO,theta0,P0,A,B,odds,woe,iv等專業(yè)術(shù)語有完全解讀。?

圖片



九.評分卡自動評分系統(tǒng)


我們通過上面基礎(chǔ),可以生成自動化評分系統(tǒng),對每個申請單用戶生成好壞客戶真實標(biāo)簽,好壞客戶預(yù)測標(biāo)簽,壞客戶概率值,拉伸評分。

圖片


根據(jù)信用評分卡方法,我們可以建立計算機自動信用化評分系統(tǒng)。美國傳統(tǒng)產(chǎn)品FICO有類似功能,F(xiàn)ICO底層語言是Java。目前流行Java,python或R多種語言構(gòu)建評分卡自動化模型系統(tǒng)。如果數(shù)據(jù)量大,建立自動信用化評分系統(tǒng)并非易事,需要專業(yè)團隊不斷測試和更新。python或R是開源語言,包定期升級,如果沒有專業(yè)團隊維護,該系統(tǒng)在將來會出現(xiàn)嚴重問題。


十.模型監(jiān)控


著時間推移,模型區(qū)分能力,例如ks,auc會逐步下降,模型穩(wěn)定性也會發(fā)生偏移。我們需要專業(yè)模型監(jiān)控團隊,當(dāng)監(jiān)控到模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時,我們需要重新開發(fā)模型,迭代模型。模型監(jiān)控團隊?wèi)?yīng)該每日按時郵件發(fā)送模型監(jiān)控報表給相關(guān)團隊,特別是開發(fā)團隊和業(yè)務(wù)團隊。


模型監(jiān)控的ks指標(biāo),當(dāng)模型ks低于0.2時,模型區(qū)分好壞客戶能力幾乎沒有作用,需要重新迭代模型。

圖片

模型監(jiān)控的bad?rate指標(biāo),當(dāng)bad?rate突然升高時,領(lǐng)導(dǎo)會非常緊張,這意味著大量貸款收不回成本。

圖片

模型監(jiān)控的PSI指標(biāo),當(dāng)PSI高于0.25時,暗示模型極不穩(wěn)定,需要重新迭代。


圖片


模型監(jiān)控與模型效果評測一樣,也是從兩個方面去監(jiān)控,一是有效性,主要看過件樣本在后續(xù)的逾期表現(xiàn),這種逾期不需要和建模樣本那么嚴格,可以放松一些。二是穩(wěn)定性,同樣是變量穩(wěn)定性和模型穩(wěn)定性,評測的方式與模型效果評價部分類似。監(jiān)測可以分為前端、后端監(jiān)控。

圖片


(1)前端監(jiān)控,授信之前,別的客戶來了,這個模型能不能用?

長期使用的模型,其中的變量一定不能波動性較大。

比如,收入這個指標(biāo),雖然很重要,但是波動性很大,不適合用在長期建模過程中。如果硬要把收入放到模型之中,可以改成收入的百分位制(排名)。

(2)后端監(jiān)控,建模授信之后,打了分數(shù),看看一年之后,分數(shù)是否發(fā)生了改變。

主要監(jiān)控模型的正確性以及變量選擇的有效性。出現(xiàn)了不平滑的問題,需要重新考慮

圖片



總結(jié)


基于Python的信用評分卡模型主要流程就為大家介紹到這里,但實操評分卡建模中有很多細節(jié),互聯(lián)網(wǎng)上對這些細節(jié)描述過于草率甚至不正確。例如變量缺失率達到80%-90%就應(yīng)該直接刪除該變量嗎?變量相關(guān)性高達0.8就可以去掉嗎?經(jīng)驗豐富建模人員需要在數(shù)學(xué)理論,業(yè)務(wù)線實際需求,計算機測試結(jié)果等多方面找到平衡點,而不是只從一個角度思考問題。這就像經(jīng)驗豐富外科醫(yī)生并不一定完全遵循教科書的理論。統(tǒng)計學(xué),機器學(xué)習(xí),人工智能等領(lǐng)域里有很多爭議地方,并非有完全統(tǒng)一共識。各位在學(xué)習(xí)時要保持獨立思考能力,這樣才能不斷優(yōu)化數(shù)據(jù)科學(xué)知識。


基于Python的信用評分卡模型-give me some credit就為大家介紹到這里了,歡迎各位同學(xué)報名<python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課>,學(xué)習(xí)更多相關(guān)知識。

版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。


基于Python的信用評分卡模型分析的評論 (共 條)

分享到微博請遵守國家法律
饶河县| 南康市| 台北市| 金山区| 博湖县| 广灵县| 秦皇岛市| 汝州市| 佛山市| 云龙县| 明星| 毕节市| 鄂尔多斯市| 大丰市| 呼图壁县| 云南省| 乌鲁木齐市| 日喀则市| 神农架林区| 寿宁县| 广水市| 东乌珠穆沁旗| 房产| 集安市| 稷山县| 潜江市| 临沂市| 师宗县| 丹凤县| 卓尼县| 安康市| 和林格尔县| 凤冈县| 左云县| 天水市| 吉林市| 长泰县| 政和县| 建湖县| 绥芬河市| 盈江县|