python 評(píng)分卡

在公眾號(hào)「python風(fēng)控模型」里回復(fù)關(guān)鍵字:學(xué)習(xí)資料,就可免費(fèi)領(lǐng)取。

?? ? ? ? ? ? ??
信用風(fēng)險(xiǎn)計(jì)量模型可以包括跟個(gè)人信用評(píng)級(jí),企業(yè)信用評(píng)級(jí)和國家信用評(píng)級(jí)。人信用評(píng)級(jí)有一系列評(píng)級(jí)模型組成,常見是A卡(申請(qǐng)?jiān)u分卡)、B卡(行為模型)、C卡(催收模型)和F卡(反欺詐模型)。?今天我們展示的是個(gè)人信用評(píng)級(jí)模型的開發(fā)過程,數(shù)據(jù)采用kaggle上知名的give me some credit數(shù)據(jù)集。
一、建模流程
典型的信用評(píng)分卡模型如圖1-1所示。信用風(fēng)險(xiǎn)評(píng)級(jí)模型的主要開發(fā)流程如下:
(1) 獲取數(shù)據(jù),包括申請(qǐng)貸款客戶的數(shù)據(jù)。數(shù)據(jù)包括客戶各個(gè)維度,包括年齡,性別,收入,職業(yè),家人數(shù)量,住房情況,消費(fèi)情況,債務(wù)等等。
(2) 數(shù)據(jù)預(yù)處理,主要工作包括數(shù)據(jù)清洗、缺失值處理、異常值處理、數(shù)據(jù)類型轉(zhuǎn)換等等。我們需要把原始數(shù)據(jù)層層轉(zhuǎn)化為可建模數(shù)據(jù)。
(3) EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計(jì),包括統(tǒng)計(jì)總體數(shù)據(jù)量大小,好壞客戶占比,數(shù)據(jù)類型有哪些,變量缺失率,變量頻率分析直方圖可視化,箱形圖可視化,變量相關(guān)性可視化等。
(4) 變量選擇,通過統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法,篩選出對(duì)違約狀態(tài)影響最顯著的變量。常見變量選擇方法很多,包括iv,feature importance,方差等等?。另外缺失率太高的變量也建議刪除。無業(yè)務(wù)解釋性變量且沒有價(jià)值變量也建議刪除。
(5) 模型開發(fā),評(píng)分卡建模主要難點(diǎn)是woe分箱,分?jǐn)?shù)拉伸,變量系數(shù)計(jì)算。其中woe分箱是評(píng)分卡中難點(diǎn)中難點(diǎn),需要豐富統(tǒng)計(jì)學(xué)知識(shí)和業(yè)務(wù)經(jīng)驗(yàn)。目前分箱算法多達(dá)50多種,沒有統(tǒng)一金標(biāo)準(zhǔn),一般是先機(jī)器自動(dòng)分箱,然后再手動(dòng)調(diào)整分箱,最后反復(fù)測試模型最后性能,擇優(yōu)選取最優(yōu)分箱算法。
(6) 模型驗(yàn)證,核實(shí)模型的區(qū)分能力、預(yù)測能力、穩(wěn)定性、排序能力等等,并形成模型評(píng)估報(bào)告,得出模型是否可以使用的結(jié)論。模型驗(yàn)證不是一次性完成,而是當(dāng)建模后,模型上線前,模型上線后定期驗(yàn)證。模型開發(fā)和維護(hù)是一個(gè)循環(huán)周期,不是一次完成。
(7) 信用評(píng)分卡,根據(jù)邏輯回歸的變量系數(shù)和WOE值來生成評(píng)分卡。評(píng)分卡方便業(yè)務(wù)解釋,已使用幾十年,非常穩(wěn)定,深受金融行業(yè)喜愛。其方法就是將Logistic模型概率分轉(zhuǎn)換為300-900分的標(biāo)準(zhǔn)評(píng)分的形式。
(8) 建立評(píng)分卡模型系統(tǒng),根據(jù)信用評(píng)分卡方法,建立計(jì)算機(jī)自動(dòng)信用化評(píng)分系統(tǒng)。美國傳統(tǒng)產(chǎn)品FICO有類似功能,F(xiàn)ICO底層語言是Java。目前流行Java,python或R多種語言構(gòu)建評(píng)分卡自動(dòng)化模型系統(tǒng)。
(9)模型監(jiān)控,著時(shí)間推移,模型區(qū)分能力,例如ks,auc會(huì)逐步下降,模型穩(wěn)定性也會(huì)發(fā)生偏移。我們需要專業(yè)模型監(jiān)控團(tuán)隊(duì),當(dāng)監(jiān)控到模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時(shí),我們需要重新開發(fā)模型,迭代模型。模型監(jiān)控團(tuán)隊(duì)?wèi)?yīng)該每日按時(shí)郵件發(fā)送模型監(jiān)控報(bào)表給相關(guān)團(tuán)隊(duì),特別是開發(fā)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)。

二. 獲取數(shù)據(jù)
建模數(shù)據(jù)方面包含借款申請(qǐng)人填寫的基本資料,通訊錄,通話記錄和其他運(yùn)營商數(shù)據(jù),以及在其他第三方平臺(tái)提供的黑名單和其他借貸平臺(tái)借貸還款數(shù)據(jù),和app抓取的手機(jī)數(shù)據(jù),有些還包含人行征信,社保公積金工資銀行流水,個(gè)人消費(fèi)等數(shù)據(jù),針對(duì)不同額度和客群需要用戶填寫和授權(quán)的資料不一樣。收集需要的數(shù)據(jù)后,通過SQL提取相關(guān)變量特征構(gòu)造建模用的寬表。具體建模信息如下圖。

python評(píng)分卡建模實(shí)戰(zhàn)數(shù)據(jù)集
之前我講過利用German credit德國信用數(shù)據(jù)集建立python信用評(píng)分卡模型,該數(shù)據(jù)集優(yōu)勢是數(shù)據(jù)量小,對(duì)計(jì)算機(jī)硬件要求不高,方便各個(gè)階層學(xué)員學(xué)習(xí)和測試。

信用評(píng)分算法對(duì)違約概率進(jìn)行猜測,是銀行用來確定是否應(yīng)授予貸款的方法。數(shù)據(jù)屬于個(gè)人消費(fèi)類貸款,通過預(yù)測某人在未來兩年內(nèi)遇到財(cái)務(wù)困境的可能性,提高信用評(píng)分的最新水平。
銀行在市場經(jīng)濟(jì)中發(fā)揮著至關(guān)重要的作用。他們決定誰可以獲得資金以及以什么條件獲得資金,并且可以做出投資決策或終止投資決定。為了讓市場和社會(huì)發(fā)揮作用,個(gè)人和公司需要獲得信貸。
give me some credit有15萬樣本數(shù)據(jù),該數(shù)據(jù)量解決中大型金融機(jī)構(gòu)實(shí)戰(zhàn)數(shù)據(jù),更加接近金融企業(yè)項(xiàng)目實(shí)戰(zhàn)。該數(shù)據(jù)集通過預(yù)測某人在未來兩年內(nèi)遇到財(cái)務(wù)困難的可能性,提高信用評(píng)分的水平。

變量中文釋義,變量少而精,可作為建模的參考

我們對(duì)上述變量歸類,主要分為:
– 基本屬性:包括了借款人當(dāng)時(shí)的年齡。
– 償債能力:包括了借款人的可用額度比值、月收入、負(fù)債比率。
– 信用歷史:兩年內(nèi)35-59天逾期次數(shù)、兩年內(nèi)60-89天逾期次數(shù)、兩年內(nèi)90
天或高于90天逾期的次數(shù)。
– 財(cái)產(chǎn)狀況:包括了開放式信貸和貸款數(shù)量、不動(dòng)產(chǎn)貸款或額度數(shù)量。
– 其它因素:借款人的家屬數(shù)量(不包括本人在內(nèi))
kaggle模型競賽中,獎(jiǎng)金5000美金,模型評(píng)估指標(biāo)為AUC。

互聯(lián)網(wǎng)上國內(nèi)外關(guān)于give me some credit數(shù)據(jù)集AUC得分最佳表現(xiàn)為0.85.

但我方《python信用評(píng)分卡建模(附代碼)》教程中AUC可以達(dá)到0.929,調(diào)參后AUC可以更高,遠(yuǎn)高于互聯(lián)網(wǎng)上give me some credit論文的模型性能AUC=0.85?;ヂ?lián)網(wǎng)論文關(guān)于建模步驟有很多看似有理,但實(shí)際上不正確的理論。

如果你好奇我方如何將give me some credit數(shù)據(jù)集AUC達(dá)到0.929,可參考教程《python信用評(píng)分卡建模(附代碼)》https://ke.qq.com/course/3063615?tuin=dcbf0ba;
《python信用評(píng)分卡建模(附代碼)》中g(shù)ive me some credit數(shù)據(jù)集一覽。

三、數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理,主要工作包括數(shù)據(jù)清洗、缺失值處理、異常值處理、數(shù)據(jù)類型轉(zhuǎn)換等等。我們需要把原始數(shù)據(jù)層層轉(zhuǎn)化為可建模數(shù)據(jù)。
3.1 缺失值處理
give me some credit數(shù)據(jù)集缺失數(shù)據(jù)并不嚴(yán)重,只有兩個(gè)變量有缺失值,缺失率為2%和19.8%。

現(xiàn)實(shí)中數(shù)據(jù)存在大量缺失值是非常普遍。央行征信很多變量缺失率可以高達(dá)99%。缺失值會(huì)導(dǎo)致一些數(shù)據(jù)分析和建模的問題。通常在信用風(fēng)險(xiǎn)評(píng)分卡模型開發(fā)的第一步我們就要進(jìn)行缺失值處理。缺失值處理的方法,包括如下幾種。
(1) 直接刪除含有缺失值的樣本。
(2) 填補(bǔ)缺失值。
(3) 不予理睬。
3.2 異常值處理
缺失值處理后,我們需要進(jìn)行異常值檢驗(yàn)。異常值分為統(tǒng)計(jì)學(xué)上異常值和業(yè)務(wù)上異常值。統(tǒng)計(jì)學(xué)異常值通常用箱型圖來判斷,如下圖。

業(yè)務(wù)上異常值是根據(jù)業(yè)務(wù)線對(duì)變量定義和常識(shí)來判斷該數(shù)據(jù)是否合理。比如give me some credit數(shù)據(jù)集中有個(gè)人客戶的年齡為0,按照常理,我們認(rèn)為該值為異常值。哪個(gè)貸款公司會(huì)把錢借給年齡為0的用戶?

3.3 數(shù)據(jù)劃分
我們建立模型后一般會(huì)遇到下面三種情況,underfitting欠擬合,just right擬合合適,overfitting過度擬合。

為了驗(yàn)證模型的性能,我們需要對(duì)數(shù)據(jù)集進(jìn)行劃分。
首先把所有數(shù)據(jù)分成x數(shù)據(jù)和y數(shù)據(jù)(target目標(biāo)變量)。
然后把x數(shù)據(jù)和y數(shù)據(jù)分成訓(xùn)練集和測試集,并生成四個(gè)變量train_x,test_x,train_y,test_y.

四、EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計(jì)
由于人大腦的生理結(jié)構(gòu),大部分人對(duì)數(shù)字不敏感,但數(shù)據(jù)可視化對(duì)大腦理解更友好。這就是數(shù)據(jù)可視化重要性,也方便向領(lǐng)導(dǎo)或決策層匯報(bào)工作。

EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計(jì)包括統(tǒng)計(jì)總體數(shù)據(jù)量大小,好壞客戶占比,數(shù)據(jù)類型有哪些,變量缺失率,變量頻率分析直方圖可視化,箱形圖可視化,變量相關(guān)性可視化等。EDA是Exploratory Data Analysis縮寫,中文釋義為探索性數(shù)據(jù)分析。探索性數(shù)據(jù)分析方法很多常見的有:hist直方圖、scater散點(diǎn)圖,boxer箱線圖,heat熱力圖,pairplot配對(duì)圖。
give me some credit數(shù)據(jù)集的age年齡變量直方圖

give me some credit數(shù)據(jù)集的target目標(biāo)變量直方圖,可以發(fā)現(xiàn)好壞客戶占比非常不平衡。好客戶數(shù)量大概是壞客戶數(shù)量15倍左右。

give me some credit數(shù)據(jù)集的家庭成員數(shù)量變量直方圖

give me some credit數(shù)據(jù)集所有變量的pairplot配對(duì)圖,大量信息一目了然。

give me some credit數(shù)據(jù)集所有變量相關(guān)性的熱力圖,可以分析出有6對(duì)變量相關(guān)性非常高,變量篩選時(shí)候需要注意。

give me some credit數(shù)據(jù)集age年齡變量關(guān)于好壞客戶的分類箱型圖統(tǒng)計(jì)。我們可以看到好客戶年齡中位數(shù)要高于壞客戶年齡中位數(shù)。

五、變量選擇
變量選擇,通過統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法,篩選出對(duì)違約狀態(tài)影響最顯著的變量。常見變量選擇方法很多,包括iv,feature importance,方差等等?。另外缺失率太高的變量也建議刪除。無業(yè)務(wù)解釋性變量且沒有價(jià)值變量也建議刪除。
《python信用評(píng)分卡建模(附代碼)》教程中集成樹算法catboost的feature importance可視化圖,我們可以明顯看出RevolvingUtilizationOfUnsecuredLines可用額度比值變量的重要性最高。圖中藍(lán)色柱越長,重要性越大,反之亦然。

《python信用評(píng)分卡建模(附代碼)》教程中變量iv值計(jì)算結(jié)果如下,我們清晰看到RevolvingUtilizationOfUnsecuredLines可用額度比值變量的iv最高。

通過feature importance和iv值方法我們都得到同樣結(jié)論:RevolvingUtilizationOfUnsecuredLines可用額度比值變量是最重要的。
六、模型開發(fā)
下圖是建立分類器模型的常見算法,模型驗(yàn)證方法和模型監(jiān)控內(nèi)容結(jié)構(gòu)化展示

邏輯回歸,決策樹,隨機(jī)森林不同算法的對(duì)比如下圖

模型開發(fā),評(píng)分卡建模主要難點(diǎn)是woe分箱,分?jǐn)?shù)拉伸,變量系數(shù)計(jì)算。其中woe分箱是評(píng)分卡中難點(diǎn)中難點(diǎn),需要豐富統(tǒng)計(jì)學(xué)知識(shí)和業(yè)務(wù)經(jīng)驗(yàn)。目前分箱算法多達(dá)50多種,沒有統(tǒng)一金標(biāo)準(zhǔn),一般是先機(jī)器自動(dòng)分箱,然后再手動(dòng)調(diào)整分箱,最后反復(fù)測試模型最后性能,擇優(yōu)選取最優(yōu)分箱算法。
《python信用評(píng)分卡建模(附代碼)》講解Kmeans,等頻分箱、等距分箱,卡方分箱,決策樹分箱算法原理和python實(shí)現(xiàn)分箱代碼。《python信用評(píng)分卡建模(附代碼)》還告訴你如何選擇分箱方法?在不同需求下,選擇最合適分箱方法。

分箱主要分為有監(jiān)督方法和無監(jiān)督方法。k均值聚類算法(k-means clustering algorithm)是一種迭代求解的聚類分析算法,其步驟是,預(yù)將數(shù)據(jù)分為K組,則隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本,聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。終止條件可以是沒有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小。下圖是Kmeans分箱算法原理。

傳說中的最優(yōu)分箱就是決策樹分箱。
決策樹分箱算法步驟為:
步驟 1:首先,它使用我們想要離散化的變量來訓(xùn)練一個(gè)有限深度(2、3 或 4)的決策樹來預(yù)測目標(biāo)。
第 2 步:然后將原始變量值替換為樹返回的概率。單個(gè) bin 內(nèi)的所有觀測值的概率相同,因此用概率替換相當(dāng)于將決策樹決定的截止值內(nèi)的觀測值分組。
決策樹分箱算法好處和缺點(diǎn)是:
好處 :
概率預(yù)測返回的決策樹與目標(biāo)單調(diào)相關(guān)。
新的 bin 顯示出減少的熵,這是每個(gè)桶/桶內(nèi)的觀察結(jié)果與它們自己的相似度,而不是其他桶/桶的觀察結(jié)果。
樹會(huì)自動(dòng)找到垃圾箱。
缺點(diǎn):
可能會(huì)導(dǎo)致過擬合
更重要的是,可能需要對(duì)樹參數(shù)進(jìn)行一些調(diào)整以獲得最佳分割(例如,深度、一個(gè)分區(qū)中的最小樣本數(shù)、最大分區(qū)數(shù)和最小信息增益)。這可能很耗時(shí)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (決策樹分箱可視化)
等距分箱可用于類似age年齡的變量。

分箱完成后,就把分箱數(shù)據(jù)轉(zhuǎn)換為woe數(shù)據(jù),最后用邏輯回歸算法建模。
分箱的簡單代碼
七、模型驗(yàn)證
邏輯回歸算法建模后,我們需要模型驗(yàn)證。模型驗(yàn)證是核實(shí)模型的區(qū)分能力、預(yù)測能力、穩(wěn)定性、排序能力等指標(biāo)是否合格,并形成模型評(píng)估報(bào)告,得出模型是否可以使用的結(jié)論。模型驗(yàn)證不是一次性完成,而是當(dāng)建模后,模型上線前,模型上線后定期驗(yàn)證。模型開發(fā)和維護(hù)是一個(gè)循環(huán)周期,不是一次完成。
著時(shí)間推移,模型區(qū)分能力,例如ks,auc會(huì)逐步下降,模型穩(wěn)定性也會(huì)發(fā)生偏移。當(dāng)模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時(shí),我們需要重新開發(fā)模型,迭代模型。
模型驗(yàn)證指標(biāo)涉及到腳本主要來自sklearn的metrics,具體指標(biāo)如下:

?排序類評(píng)估——ROC指標(biāo):
很多統(tǒng)計(jì)指標(biāo)來源于戰(zhàn)爭。ROC最早用于英國雷達(dá)分辨鳥或德國飛機(jī)的概率。二戰(zhàn)期間首次用于分析雷達(dá)有效性。在早些時(shí)候雷達(dá),有時(shí)很難從飛機(jī)上分辨出一只鳥。英國人率先使用 ROC 曲線來優(yōu)化他們依賴?yán)走_(dá)進(jìn)行判別的方式在來襲的德國飛機(jī)和鳥類之間。
AUC(area under the curve)是機(jī)器學(xué)習(xí)領(lǐng)域中一種常見且重要的模型評(píng)估指標(biāo),用于計(jì)算二元分類器效率的方法。AUC表示ROC(receiver operator characteristic)曲線下的面積,即AUC?= ROC 曲線下面積。

sensitivity=黑色豎線右邊紅色像素面積/紅色像素總面積
false positive=黑色豎線右邊綠色像素面積/藍(lán)色像素總面積
當(dāng)我們對(duì)不同的閾值進(jìn)行遍歷時(shí),產(chǎn)生的 (假陽率, 真陽率) 坐標(biāo)點(diǎn)也就可以連成ROC曲線,進(jìn)而求得曲線下面積AUC。

K-S值
在完成一個(gè)模型后,將測試模型的樣本平均分成10組,以好樣本占比降序從左到右進(jìn)行排列,其中第一組的好樣本占比最大,壞樣本占比最小。將KS檢驗(yàn)應(yīng)用于信用評(píng)級(jí)模型主要是為了驗(yàn)證模型對(duì)違約對(duì)象的區(qū)分能力,通常是在模型預(yù)測全體樣本的信用評(píng)分后,將全體樣本按違約與非違約分為兩部分,然后用KS統(tǒng)計(jì)量來檢驗(yàn)這兩組樣本信用評(píng)分的分布是否有顯著差異。


GINI系數(shù)

使用洛倫茨曲線,可以描述預(yù)期違約客戶的分布。
基尼系數(shù)常用于統(tǒng)計(jì)宏觀經(jīng)濟(jì)的貧富差距。例如將一個(gè)國家所有的人口按最貧窮到最富有進(jìn)行排列,隨著人數(shù)的累計(jì),這些人口所擁有的財(cái)富的比例也逐漸增加到100%,按這個(gè)方法得到圖中的曲線,稱為洛倫茲曲線?;嵯禂?shù)就是圖中A/B的比例。可以看到,假如這個(gè)國家最富有的那群人占據(jù)了越多的財(cái)富,貧富差距越大,那么洛倫茨曲線就會(huì)越彎曲,基尼系數(shù)就越大。
基尼系數(shù)顯示的是好客戶的比例(累計(jì)),而不是所有客戶。它顯示了模型與隨機(jī)模型相比具有更好分類能力的程度。它也被稱為基尼指數(shù)?;嵯禂?shù)可以取-1 到1 之間的值。負(fù)值對(duì)應(yīng)于分?jǐn)?shù)含義相反的模型。
下面看基尼系數(shù)的計(jì)算步驟:

在ROC圖中,GINI=A/(A+B)=A/C=(A+C)/C-1=AUC/C-1
其中,C=1/2 所以,GINI=2AUC-1
《python信用評(píng)分卡建模(附代碼)》教程中訓(xùn)練模型AUC為0.929,具體模型性能如下:
model accuracy is: 0.9406307593547452
model precision is: 0.9060132575757576
model sensitivity is: 0.6077497220898841
f1_score: 0.7274973861800208
AUC: 0.9290751730536397
good classifier
gini 0.8581503461072795
ks value:0.7107
遠(yuǎn)超互聯(lián)網(wǎng)give me some credit數(shù)據(jù)集建模論文的模型性能AUC 0.85。

八、評(píng)分卡誕生
模型根據(jù)邏輯回歸的變量系數(shù)和WOE值來生成評(píng)分卡。評(píng)分卡方便業(yè)務(wù)解釋,已使用幾十年,非常穩(wěn)定,深受金融行業(yè)喜愛。其方法就是將Logistic模型概率分轉(zhuǎn)換為300-900分的標(biāo)準(zhǔn)評(píng)分的形式。國內(nèi)絕大多數(shù)信用評(píng)分卡都效仿的美國FICO分?jǐn)?shù)。
FICO 分?jǐn)?shù)為 800 或以上的個(gè)人具有特殊的信用記錄。信用評(píng)分高的人很可能多年來擁有多項(xiàng)信用額度。他們沒有超過任何信用額度,并及時(shí)還清了所有債務(wù)。
中高 700 分的 FICO 分?jǐn)?shù)是不錯(cuò)的分?jǐn)?shù)。得分在此范圍內(nèi)的個(gè)人明智地借貸和消費(fèi)并及時(shí)付款。這些人,例如 800 歲以上的人,往往更容易獲得信貸,并且通常支付的利率要低得多。
最常見的分?jǐn)?shù)介于 650 和 750 之間。雖然分?jǐn)?shù)在此范圍內(nèi)的個(gè)人信用相當(dāng)好,但他們可能會(huì)延遲付款。這些人通常不會(huì)很難獲得貸款。但是,他們可能需要支付略高的利率。
最后一個(gè)要考慮的實(shí)際范圍是 599 或更低的分?jǐn)?shù)。它們被認(rèn)為信用評(píng)分不佳,通常是由于多次延遲付款、未能償還債務(wù)或已轉(zhuǎn)到收款機(jī)構(gòu)的債務(wù)所致。擁有此類 FICO 分?jǐn)?shù)的個(gè)人通常很難(如果不是不可能的話)獲得任何形式的信用。

如下圖, FICO信用分在very poor300-579分的占比最低,只有17%;good670-739分的占比最高,達(dá)到21.5%。

《python信用評(píng)分卡建模(附代碼)》中評(píng)分卡生成有詳細(xì)章節(jié)講解,包括PDO,theta0,P0,A,B,odds,woe,iv等專業(yè)術(shù)語有完全解讀。?

九.評(píng)分卡自動(dòng)評(píng)分系統(tǒng)
我們通過上面基礎(chǔ),可以生成自動(dòng)化評(píng)分系統(tǒng),對(duì)每個(gè)申請(qǐng)單用戶生成好壞客戶真實(shí)標(biāo)簽,好壞客戶預(yù)測標(biāo)簽,壞客戶概率值,拉伸評(píng)分。

根據(jù)信用評(píng)分卡方法,我們可以建立計(jì)算機(jī)自動(dòng)信用化評(píng)分系統(tǒng)。美國傳統(tǒng)產(chǎn)品FICO有類似功能,F(xiàn)ICO底層語言是Java。目前流行Java,python或R多種語言構(gòu)建評(píng)分卡自動(dòng)化模型系統(tǒng)。如果數(shù)據(jù)量大,建立自動(dòng)信用化評(píng)分系統(tǒng)并非易事,需要專業(yè)團(tuán)隊(duì)不斷測試和更新。python或R是開源語言,包定期升級(jí),如果沒有專業(yè)團(tuán)隊(duì)維護(hù),該系統(tǒng)在將來會(huì)出現(xiàn)嚴(yán)重問題。
十.模型監(jiān)控
著時(shí)間推移,模型區(qū)分能力,例如ks,auc會(huì)逐步下降,模型穩(wěn)定性也會(huì)發(fā)生偏移。我們需要專業(yè)模型監(jiān)控團(tuán)隊(duì),當(dāng)監(jiān)控到模型區(qū)分能力下降顯著或模型穩(wěn)定性發(fā)生較大偏移時(shí),我們需要重新開發(fā)模型,迭代模型。模型監(jiān)控團(tuán)隊(duì)?wèi)?yīng)該每日按時(shí)郵件發(fā)送模型監(jiān)控報(bào)表給相關(guān)團(tuán)隊(duì),特別是開發(fā)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)。
模型監(jiān)控的ks指標(biāo),當(dāng)模型ks低于0.2時(shí),模型區(qū)分好壞客戶能力幾乎沒有作用,需要重新迭代模型。

模型監(jiān)控的bad?rate指標(biāo),當(dāng)bad?rate突然升高時(shí),領(lǐng)導(dǎo)會(huì)非常緊張,這意味著大量貸款收不回成本。

模型監(jiān)控的PSI指標(biāo),當(dāng)PSI高于0.25時(shí),暗示模型極不穩(wěn)定,需要重新迭代。

模型監(jiān)控與模型效果評(píng)測一樣,也是從兩個(gè)方面去監(jiān)控,一是有效性,主要看過件樣本在后續(xù)的逾期表現(xiàn),這種逾期不需要和建模樣本那么嚴(yán)格,可以放松一些。二是穩(wěn)定性,同樣是變量穩(wěn)定性和模型穩(wěn)定性,評(píng)測的方式與模型效果評(píng)價(jià)部分類似。監(jiān)測可以分為前端、后端監(jiān)控。

(1)前端監(jiān)控,授信之前,別的客戶來了,這個(gè)模型能不能用?
長期使用的模型,其中的變量一定不能波動(dòng)性較大。
比如,收入這個(gè)指標(biāo),雖然很重要,但是波動(dòng)性很大,不適合用在長期建模過程中。如果硬要把收入放到模型之中,可以改成收入的百分位制(排名)。
(2)后端監(jiān)控,建模授信之后,打了分?jǐn)?shù),看看一年之后,分?jǐn)?shù)是否發(fā)生了改變。
主要監(jiān)控模型的正確性以及變量選擇的有效性。出現(xiàn)了不平滑的問題,需要重新考慮

總結(jié)
基于Python的信用評(píng)分卡模型主要流程就為大家介紹到這里,但實(shí)操評(píng)分卡建模中有很多細(xì)節(jié),互聯(lián)網(wǎng)上對(duì)這些細(xì)節(jié)描述過于草率甚至不正確。例如變量缺失率達(dá)到80%-90%就應(yīng)該直接刪除該變量嗎?變量相關(guān)性高達(dá)0.8就可以去掉嗎?經(jīng)驗(yàn)豐富建模人員需要在數(shù)學(xué)理論,業(yè)務(wù)線實(shí)際需求,計(jì)算機(jī)測試結(jié)果等多方面找到平衡點(diǎn),而不是只從一個(gè)角度思考問題。這就像經(jīng)驗(yàn)豐富外科醫(yī)生并不一定完全遵循教科書的理論。統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),人工智能等領(lǐng)域里有很多爭議地方,并非有完全統(tǒng)一共識(shí)。各位在學(xué)習(xí)時(shí)要保持獨(dú)立思考能力,這樣才能不斷優(yōu)化數(shù)據(jù)科學(xué)知識(shí)。
基于Python的信用評(píng)分卡模型-give me some credit就為大家介紹到這里了,歡迎各位同學(xué)報(bào)名<python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析微專業(yè)課>,學(xué)習(xí)更多相關(guān)知識(shí)。

版權(quán)聲明:文章來自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明