信用評分-(scorecard)記分卡開發(fā)流程,詳細(xì)介紹分?jǐn)?shù)校準(zhǔn)原理calibration
難道你知道你的信用評分?您是否被拒絕信用,不知道為什么?每個曾經(jīng)借過錢申請信用卡、買車、買房或任何其他個人貸款的人都有信用檔案。貸方使用信用評分來確定誰有資格獲得貸款、利率是多少以及信用額度是多少。信用評分越高,貸方對客戶的信譽就越有信心。但是,信用評分不是常規(guī)信用報告的一部分。有一個數(shù)學(xué)公式可以將信用報告中的數(shù)據(jù)轉(zhuǎn)換成一個三位數(shù)的數(shù)字,供貸方用來做出信用決策,但機(jī)構(gòu)用來計算信用評分的確切公式是一個秘密。

該項目的目的是使用信用評分技術(shù)來評估向特定客戶貸款的風(fēng)險并構(gòu)建邏輯回歸記分卡(評分卡)模型。信用評分意味著應(yīng)用統(tǒng)計模型為信用申請分配風(fēng)險評分,它是一種基于預(yù)測模型的人工智能形式,可評估客戶違約信用義務(wù)、拖欠或資不抵債的可能性。
接下來,將詳細(xì)介紹如何使用信用評分來構(gòu)建消費者信用評分卡。分析將包括探索性數(shù)據(jù)分析、變量選擇、模型構(gòu)建和評分。
探索性數(shù)據(jù)分析
本項目中使用的信用評分?jǐn)?shù)據(jù)集來自 Kaggle。在每個建模過程的開始,要問的第一個問題是我們試圖通過模型預(yù)測什么。在信用評分中,這是預(yù)測變量/因變量。它的二進(jìn)制值為 1 或 0。值為 1 表示借款人拖欠并在過去 2 年拖欠貸款,而值為 0 表示借款人是好客戶并償還債務(wù)過去兩年準(zhǔn)時。此處的因變量是“SeriousDiqin2yrs”,如下表第二列所示。

大多數(shù)金融行業(yè)數(shù)據(jù)包含缺失值或?qū)μ囟ㄌ卣鳑]有意義的值是很常見的。如表所示,該數(shù)據(jù)集也有缺失值和異常值。由于我們使用邏輯回歸模型處理客戶信用度的估計,因此我們使用中位數(shù)估算缺失值并刪除不合邏輯的值。
例如,'age' 變量是一個從 0 到 100 的連續(xù)變量。有一些記錄,其值為 0,這沒有意義,要成為借款人,該人必須是 18 歲的成年人年。因此,我們將這些值視為缺失值并選擇刪除這些值。此外,“RevolvingUtilizationOfUnsecuredLines”功能是無擔(dān)保債務(wù)總額與無擔(dān)保信用額度總額的比率,此功能的值應(yīng)介于 0 和 1 之間,但某些記錄的值大于 1。在這種情況下,“RevolvingUtilizationOfUnsecuredLines”功能中存在異常值,我們選擇使用頂部編碼方法對異常值進(jìn)行預(yù)處理,這意味著所有高于上限的值將被任意設(shè)置為上限。
離散化預(yù)測器/分箱
分箱是指將數(shù)字特征轉(zhuǎn)換為分類特征以及重新分組和合并分類特征的過程。在記分卡的開發(fā)過程中,為什么需要binning?原因是一些特征值很少會出現(xiàn),如果不組合在一起會導(dǎo)致不穩(wěn)定。因此,將具有相似預(yù)測強度的相似屬性分組將提高記分卡的準(zhǔn)確性。下面顯示了分組“年齡”功能的示例。

記分卡——模型構(gòu)建
在構(gòu)建記分卡模型之前,還需要兩個額外的步驟。一個是計算Weight of Evidence,另一個是根據(jù)WoE 值計算Information Value(IV)。
為了驗證分箱結(jié)果,我們使用 WOE 值。在將連續(xù)變量分成幾個類別或?qū)⒚總€特征的離散變量分成幾個類別后,我們可以計算證據(jù)權(quán)重 (WoE) 值,然后將分類值替換為 WoE 值,WoE 值可以稍后用于構(gòu)建模型。有關(guān) WoE 計算的詳細(xì)信息,請參見以下部分。
證據(jù)權(quán)重 (WoE)
WoE 衡量特征的屬性在區(qū)分好賬戶和壞賬戶方面的強度,并基于每個組級別的好申請者與壞申請者的比例.?負(fù)值表示特定分組隔離的不良申請人比例高于優(yōu)秀申請人。它是衡量每個屬性中商品和不良品比例差異的指標(biāo)。例如,具有該屬性的人的好壞和負(fù) WoE 值的幾率更差,因為該組中的申請人呈現(xiàn)更大的信用風(fēng)險。對于特征 WOE 的每個組 i,計算如下:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖 3. 'age' 特征的 WoE 結(jié)果示例
一旦我們完成對變量的分組和計算 WoE,我們將按信息值(IV)對變量進(jìn)行排序以篩選和選擇變量。關(guān)于 IV 計算的詳細(xì)信息在以下部分。
信息價值(IV)
信息價值來自信息論,并使用以下公式進(jìn)行衡量。信息值用于評估特征整體預(yù)測能力。

IV 是變量選擇的一個方便的經(jīng)驗法則。

請注意,NumberRealEstateLoansOrLines 的信息值為 0.116,這幾乎不落在中等預(yù)測變量的范圍內(nèi),而且是不可預(yù)測的。通常,選擇具有中等和強預(yù)測能力的變量進(jìn)行模型開發(fā)。因此,我們進(jìn)行特征選擇,根據(jù)IV值從9個特征中選擇8個特征,如下面紅色高亮框所示。

記分卡開發(fā)
我們使用邏輯回歸模型處理評分函數(shù)的建模和客戶信用度的估計。回歸系數(shù)用于縮放記分卡??s放記分卡是指使記分卡符合特定的分?jǐn)?shù)范圍。記分卡開發(fā)的大圖如下所示。

分?jǐn)?shù)縮放
縮放記分卡是指使記分卡符合特定范圍的分?jǐn)?shù),并使用回歸系數(shù)來縮放記分卡。Logistic 回歸模型是線性模型,其中 logit 轉(zhuǎn)換的預(yù)測概率是預(yù)測變量值的線性函數(shù)。因此,以這種方式導(dǎo)出的最終記分卡模型具有理想的質(zhì)量,即最終信用評分(信用風(fēng)險)是預(yù)測變量的線性函數(shù),并且對模型參數(shù)應(yīng)用了一些額外的變換,一個簡單的分?jǐn)?shù)線性函數(shù)可以粗編碼后與每個預(yù)測器類值相關(guān)聯(lián)。因此,最終的信用評分是可以從記分卡中獲取的單個評分值的簡單總和。
對于每個屬性,其證據(jù)權(quán)重 (WoE) 及其特征的回歸系數(shù)現(xiàn)在可以相乘,以給出該屬性的分?jǐn)?shù)。然后,申請人的總分將與該申請人預(yù)測的壞/好幾率的對數(shù)成正比。

分?jǐn)?shù)縮放/分?jǐn)?shù)校準(zhǔn)機(jī)制
在積分卡或評分卡建模中,我們通常會把邏輯回歸輸出的概率分(probability)轉(zhuǎn)換為整數(shù)分(Score),稱之為評分卡分?jǐn)?shù)校準(zhǔn),英文釋義為calibration。更標(biāo)準(zhǔn)或?qū)W術(shù)釋義為尺度變換,英文為scaling。只是很多書籍和互聯(lián)網(wǎng)傳播文章中并不嚴(yán)格區(qū)分校準(zhǔn)和尺度變換,統(tǒng)稱為風(fēng)險校準(zhǔn)。
常見信用評分就是最終以這種形式呈現(xiàn),例如:
? ? 1. 芝麻分的分值范圍為350~950,分值越高代表信用越好,相應(yīng)違約率相對較低,較高的芝麻分可以幫助用戶獲得更高效、更優(yōu)質(zhì)的服務(wù)。
? ? 2. FICO分的分值范圍為300~850,分?jǐn)?shù)越高, 說明客戶的信用風(fēng)險越小。

但我們可能并不清楚這些問題:分?jǐn)?shù)校準(zhǔn)的概念是什么?為什么要做分?jǐn)?shù)校準(zhǔn)?分?jǐn)?shù)校準(zhǔn)的原理是什么?如何做分?jǐn)?shù)校準(zhǔn)?在哪些場景里需要做分?jǐn)?shù)校準(zhǔn)?
我們選擇對分?jǐn)?shù)進(jìn)行縮放,使得總分 600 分對應(yīng)于 50 比 1 的好/壞賠率,而 20 分的增加對應(yīng)于好/壞賠率的兩倍。
標(biāo)度——標(biāo)度的選擇不影響記分卡的預(yù)測強度
“點數(shù)使賠率翻倍”(pdo = 20)
factor(因子) = pdo / ln(2)
Offset = Score — {Factor * ln(Odds)}

備注:不要死記硬背上述公式,否則容易引起錯誤。
odds
odds通常翻譯為賠率,可定義為壞客戶概率/好客戶概率,也可以定義為好客戶概率/壞客戶概率,不同定義會影響到其它公式的正負(fù)號。
如果定義odds為壞客戶概率/好客戶概率,即p/(1-p), p為壞客戶概率
odds>1,表示壞客戶概率高于好客戶概率
odds<1,表示壞客戶概率低于好客戶概率
odds=1,表示壞客戶概率等于好客戶概率
odds是評分卡的核心概率,其一發(fā)而動全身,下面截圖是對odds和客戶校準(zhǔn)分?jǐn)?shù)關(guān)系的推理過程

(圖片來自:python信用評分卡建模(附代碼)https://ke.qq.com/course/3063615?tuin=dcbf0ba
)
pdo
pdo為Points to Double the Odds的縮寫,表示odds翻一倍時候,增加分?jǐn)?shù)例如,如果賠率從 100:1 增加到 200:1,分?jǐn)?shù)會改變多少分。PDO 的常見默認(rèn)值為 20,因為它會產(chǎn)生人們傾向于喜歡的信用評分范圍。
Po
Po中文釋義為基本分?jǐn)?shù);刻度使得比率時分?jǐn)?shù)
A值
A值為好會客戶信用分臨界點(offset),公式為:
P0 + B*np.log(theta0)
例如A值為6.718,當(dāng)客戶張三信用分score為10分時,大于A,表示好客戶
當(dāng)客戶李四信用分score為5分時,小于A,表示壞客戶

B值
B值為刻度因子(Factor)公式為:
PDO/np.log(2)
我們看看PDO,B值和score信用分三者之間關(guān)系
PDO越大,B值越大,score信用分跨度范圍越大,例如350-950
PDO越小,B值越小,score信用分跨度范圍越小,例如450-800
np.log
np是numpy縮寫,np.log表示無理數(shù)e為底數(shù)的對數(shù)函數(shù)。無理數(shù)e=2.718。下面圖片是用python繪制e為底數(shù)的對數(shù)函數(shù)可視化圖片

(圖片來自:python信用評分卡建模(附代碼)https://ke.qq.com/course/3063615?tuin=dcbf0ba
)
我們再來看看odd與log(odds)關(guān)系:
odds>1,表示壞客戶概率高于好客戶概率0<log(odds)<1
odds<1,表示壞客戶概率低于好客戶概率對數(shù)情況:-1<LOG(odds)<0
odds=1,表示壞客戶概率等于好客戶概率對數(shù)情況:LOG(odds)=0
score
通過解釋上述所有評分卡相關(guān)變量意義和評分卡尺度變換后,最后我們可以計算用戶信用分?jǐn)?shù)。ln(Odds)和Score之間是呈現(xiàn)線性關(guān)系。
score為該客戶信用分?jǐn)?shù);校準(zhǔn)分?jǐn)?shù),其公式為
A-B*np.log(odds)

為什么評分卡最終選擇了邏輯回歸?其中一個原因是,邏輯回歸本身具有良好的校準(zhǔn)度,其輸出概率與真實概率之間存在良好的一致性。因此,我們也就可以直接把概率分?jǐn)?shù)線形映射為整數(shù)分?jǐn)?shù)。
Platt Scaling-其它機(jī)器學(xué)習(xí)算法分?jǐn)?shù)校準(zhǔn)
如果我們用機(jī)器學(xué)習(xí)模型(如XGBoost、隨機(jī)森林等)來風(fēng)控建模,又希望把概率對標(biāo)到真實概率,那么我們就可以考慮Platt Scaling。
Platt Scaling是一種將分類輸出轉(zhuǎn)換為概率分布的方法。例如:如果訓(xùn)練數(shù)據(jù)集中的因變量為 0 & 1,則使用此方法可以將其轉(zhuǎn)換為概率。

如上圖,藍(lán)線更接近灰線,表明 Platt Scaling 實際上減少了 Log Loss 誤差指標(biāo)。這里要注意的最重要的一點是,使用 Platt Scaling 不會對其他指標(biāo)(如準(zhǔn)確性accuracy、AUC 等)產(chǎn)生明顯影響。
記分卡的決定
以下是使用分?jǐn)?shù)公式的一個計算分?jǐn)?shù)結(jié)果

一般來說,截止分?jǐn)?shù)會因一種貸款而異,也因貸方而異。有些貸款要求最低分?jǐn)?shù)為 620,而有些貸款可能接受低于 620 的分?jǐn)?shù)。因此,在獲得截止分?jǐn)?shù)后,我們就可以決定是否批準(zhǔn)貸款。下面來自在線的記分卡示例可以更好地了解它的工作原理。


結(jié)論
總的來說,預(yù)測模型通過利用客戶的歷史數(shù)據(jù)、同行組數(shù)據(jù)和其他數(shù)據(jù)來預(yù)測該客戶在未來的違約概率,從而從中學(xué)習(xí)。評分卡模型不僅可以識別“好”客戶和“壞”客戶,還可以預(yù)測好壞”客戶的概率,給與類似FICO350-850的信用評分。有了評分卡預(yù)測的違約概率和信用分?jǐn)?shù),以及其他業(yè)務(wù)線考慮因素,如預(yù)期批準(zhǔn)率、利潤、流失和損失,業(yè)務(wù)線(如商品貸,汽車貸,現(xiàn)金貸)可以決策是否發(fā)放貸款給用戶。
難點
評分卡難點包含如何決定cutoff,評分卡公式理解。之前很多學(xué)生反饋評分卡校準(zhǔn)分?jǐn)?shù)公式難以理解,其實這是由其本身難度決定。
評分卡公式包含A,B,po,pdo,賠率odds,對數(shù)函數(shù)ln,無理數(shù)e,邏輯回歸算法等諸多概念,橫跨數(shù)學(xué),統(tǒng)計學(xué),機(jī)器學(xué)習(xí)算法等領(lǐng)域。
要深入理解評分卡校準(zhǔn)分?jǐn)?shù)公式,需要不斷理解每個指標(biāo)意義,練習(xí)測試計算。光聽我的課程還不夠的,熟能生巧,一邊聽,還要一邊看,這樣才能深入理解上述概念。
信用評分-(scorecard)記分卡開發(fā)流程和分?jǐn)?shù)校準(zhǔn)原理calibration就為大家介紹到這里了,歡迎各位同學(xué)報名<python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課>,通過教學(xué)視頻更好理解上述概念和學(xué)習(xí)更多相關(guān)知識

版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。