最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

信用評分卡模型分數(shù)校準

2021-08-11 10:01 作者:python風控模型  | 我要投稿


風控業(yè)務背景

在評分卡建模中,我們通常會把LR輸出的概率分(probability)轉換為整數(shù)分(Score),稱之為評分卡分數(shù)校準(calibration)。事實上,這個階段稱為尺度變換(scaling)或許更為合適。只是有些書中并不嚴格區(qū)分校準和尺度變換,統(tǒng)稱為風險校準。

大家耳熟能詳?shù)囊恍┬庞迷u分就是最終以這種形式呈現(xiàn),例如:

1. 芝麻分的分值范圍為350~950,分值越高代表信用越好,相應違約率相對較低,較高的芝麻分可以幫助用戶獲得更高效、更優(yōu)質的服務。(摘自:芝麻信用官網(wǎng))
2. FICO分的分值范圍為300~850,分數(shù)越高, 說明客戶的信用風險越小。

但我們可能并不清楚這些問題:分數(shù)校準的概念是什么?為什么要做分數(shù)校準?分數(shù)校準的原理是什么?如何做分數(shù)校準?在哪些場景里需要做分數(shù)校準?

目前鮮有資料系統(tǒng)講述這些問題,本文希望針對這一命題給出一套相對完整的理論。

目錄
Part 1. 分數(shù)校準的概念
Part 2. 分數(shù)校準的業(yè)務應用場景
Part 3. 如何進行概率分數(shù)校準?
Part 4. 如何定量評估校準的好壞?
Part 5. 概率分數(shù)尺度變換成整數(shù)分數(shù)
Part 6. 總結
致謝
版權聲明
參考資料

Part 1. 分數(shù)校準的概念

在機器學習模型實踐應用中,大多數(shù)情況下,我們主要關注分類模型的排序性(ranking),而很少關心輸出概率的具體數(shù)值。也就是——關注相對值,忽略絕對值。

一方面,有的分類器(例如SVM)只能直接打上類別標簽沒法給出置信度。另一方面,在某些場景中,我們希望得到真實的概率。例如,在信貸風控中,將預測的客戶違約概率(Probability of Default ,PD)與真實違約概率對標,即模型風險概率能夠代表真實的風險等級。這樣我們就可以進行更準確的風險定價。

這就引出了校準(calibration)的概念,我們將其理解為:

預測分布和真實分布(觀測)在統(tǒng)計上的一致性。

對于完美校準的(2分類)分類器,如果分類器預測某個樣本屬于正類的概率是0.8,那么就應當說明有80%的把握(置信度,confidence level)認為該樣本屬于正類,或者100個概率為0.8的樣本里面有80個確實屬于正類。

由于我們無法獲知真實的條件概率,通常用觀測樣本的標簽來統(tǒng)計代替,并用可靠性曲線圖(Reliability Curve Diagrams)來直觀展示當前模型的輸出結果與真實結果有多大偏差。如圖1所示,如果數(shù)據(jù)點幾乎都落在對角線上,那么說明模型被校準得很好;反之,如果和對角線的偏離程度越明顯,則校準越差。

圖 1 - 校準曲線(橫坐標 = 預測概率,縱坐標 = 實際頻率)
  • Reliability diagrams?(Hartmann et al. 2002) are simply graphs of?the Observed frequency of an event?plotted against?the Forecast probability of an event.

  • This effectively tells the user how often (as a percentage) a forecast probability actually occurred.

因此,其橫坐標為事件發(fā)生預測概率,縱坐標為事件發(fā)生實際頻率,能展示“某個事件預測概率 VS 實際發(fā)生的頻率“之間的關系。對于一個理想的預測系統(tǒng),兩者是完全一致的,也就是對角線。

那么可靠性曲線圖是如何繪制的?步驟如下:

  • step 1.?橫坐標:將預測概率升序排列,選定一個閾值,此時[0,閾值]作為一個箱子。

  • step 2. 縱坐標:計算這個箱子內(nèi)的命中率(hit rate),也就是正樣本率。

  • step 3. 選定多個閾值,重復計算得到多個點,連接成線。

我們以扔硬幣來評估正面朝上的概率這個場景進行說明。經(jīng)過投擲記錄,我們得到1W(或者更多)個有真實0(反面朝上)和1(正面朝上)標簽的樣本。進而,我們根據(jù)硬幣的各類特征和正反面標簽,訓練得到一個二分類模型,給這批樣本打上分,升序排列。然后,取一個分數(shù)作為閾值(如0.5),統(tǒng)計分數(shù)取值為0~0.5的這批樣本中1的實際占比,當作“真實”概率。最后,比較“真實”概率與預測概率來檢測一致性。

在實踐中,我們已經(jīng)普遍認識到一個現(xiàn)象:

LR的輸出概率可以認為是真實概率,而其他分類器的輸出概率并不反映真實概率。

那么這背后的數(shù)學原理是什么?

Part 2.?分數(shù)校準的業(yè)務應用場景

分數(shù)校準主要目的在于:

  1. ensure that the Scores provided by different Scorecards?have the same meaning.
    確保不同評分卡給出的分數(shù)具有相同的含義。

  2. determine or?refine the probability estimates to be associated with each Score, converted into the actual rate of the outcome (default)
    保證預測概率與真實概率之間的一致性(擬合度)。

  3. modifying for the difference?between the expected rate based on the historical database and the actual rate observed.
    修正實際概率和開發(fā)樣本中期望概率之間的偏差。

接下來,我們將結合實際業(yè)務場景展開介紹。注意,因為我們是用評分卡(LR)建立的模型,因此分數(shù)校準實際只做了尺度變換這一步。

場景1: 分群評分卡

有時候我們會發(fā)現(xiàn)單一評分卡在全量人群上表現(xiàn)并不是特別好。此時會采用先分群(segmentation),再針對各人群建立多個子評分卡模型。

基于以下幾個原因,我們需要把分數(shù)校準到同一尺度。

  1. 針對多個分支模型需要制訂多套風控策略,將會大大增加策略同學的工作量,且不利于策略維護調(diào)整。

  2. 不同評分卡輸出的分數(shù)并不具有可比性,它們的分布存在差異。為了融合后統(tǒng)一輸出一個最終分數(shù)。

  3. 各分群評分卡相當于一個分段函數(shù),分數(shù)之間存在躍變。校準可以保證各分數(shù)具有連續(xù)性。

圖 2 - 分群評分卡場景

場景2: 降級備用策略

在用到外部數(shù)據(jù)建模時,考慮到外部數(shù)據(jù)采集上存在潛在的不穩(wěn)定性,我們通常會采取降級策略。也就是說,去掉外部數(shù)據(jù)后再建立一個模型,作為主用(active)模型的一個備用(standby)模型。如果外部數(shù)據(jù)有一天停止提供服務,就可以切換到備用模型上。

同時,為了使下游業(yè)務調(diào)用無感知,我們會將主用備用模型的分數(shù)校準至一個尺度。這樣就能保證風控策略同學只需要制訂一套cutoff方案,且不用調(diào)整,只需做必要的策略切換日志前后波動監(jiān)控即可。

圖 3 - 降級備用策略

場景3: 客群變化修正

當面向客群發(fā)生變化時,開發(fā)樣本與最近樣本之間存在偏差(bias)。如果開發(fā)樣本的Odds大于實際的Odds,那么計算每個分數(shù)段的壞樣本率,得出來的結果將會大于真實情況。

然而考慮到建模成本,我們有時并不想refit模型,此時就可以利用最近樣本對評分卡進行校準,修正偏差。

圖 4 - 基于近期樣本校準

Part 3. 如何進行概率分數(shù)校準?

針對上述實際業(yè)務場景,我們該如何去做概率分數(shù)校準呢? 以下是兩種最為常見的概率校準方法:

  1. Platt scaling使用LR模型對模型輸出的值做擬合(并不是對reliability diagram中的數(shù)據(jù)做擬合),適用于樣本量少的情形,如信貸風控場景中。

  2. Isotonic regression則是對reliability diagram中的數(shù)據(jù)做擬合,適用于樣本量多的情形。例如搜索推薦場景。樣本量少時,使用isotonic regression容易過擬合。

現(xiàn)以數(shù)值案例展示前文中的三個場景。

方案1:針對場景1和2的Platt校準

假設目前有一個LR模型分數(shù)Score1,并令Score2 = 0.75*Score1,以此來模擬場景1和2。此時Score1和Score2的排序性完全一致,只是絕對值不同,對應不同的風險等級,如圖5所示。我們需要將Score1和Score2校準到同一尺度。

圖 5 - 兩個分支模型的概率分布

普拉托(Platt)最早提出可以通過sigmoid函數(shù)將SVM的預測結果轉化為一個后驗概率值,其實施流程為:

  • step 1. 利用樣本特征X和目標變量y訓練一個分類器model1。(不限定分類器類型)

  • step 2. 利用model1對樣本預測,得到預測結果out。

  • step 3. 將預測結果out作為新的特征X',再利用樣本的標簽y,訓練一個LR。

  • step 4. LR最后輸出的概率值就是platt's scaling后的預測概率。

我們把Score1和Score2分別執(zhí)行step 3,得到校準后的分數(shù)Score1_cal和Score2_cal,如圖6所示。通過分布可知,兩個分數(shù)的差異幾乎為0,故而具有相同的風險等級。同時,由于校準函數(shù)是單調(diào)的,那么校準前后將不會影響排序性和區(qū)分度。

圖 6 - 校準后的兩個分支模型的概率分布

方案2:針對場景3的Odds校準

場景3一般稱為評分卡分數(shù)的錯誤分配(Misassignment),如圖7所示。

圖 7 - 截距錯配(Intercept Misalignment)

我們知道,LR中的截距近似于開發(fā)樣本的ln(Odds),那么就可以采取以下方式進行校準。


在評分卡尺度變換后,我們可以得到ln(Odds)和Score之間的線性關系(后文會介紹),也就是:

那么,利用近期樣本和開發(fā)樣本就可以分別繪制出這樣一條直線。如果這兩條直線是平行關系,此時我們認為:在同一個分數(shù)段上,開發(fā)樣本相對于近期樣本把Odds預估得過大或過小。因此, 可通過

來進行校正。

在圖8中,實際上該產(chǎn)品的整體違約率只有2%左右,而評分卡開發(fā)樣本的違約率為10%。因此可以通過這種方式對每個分數(shù)區(qū)間的Odds予以校準。

圖 8 - 基于Odds的評分卡校準

Part 4. 如何定量評估校準的好壞?

我們通常用對數(shù)損失函數(shù)(Logarithmic Loss,LL)和Brier分數(shù)(Brier Score,BS)來衡量校準質量,分別定義如下:

  1. 觀察LL可知,當真實label=0,預測概率為1時,損失函數(shù)將達到+∞。LL懲罰明顯錯誤的分類。當預測概率越接近于真實標簽,LL越小,模型的校準效果就越好

  2. 觀察BS可知,當BS指標越小,代表模型預測結果越接近于真實標簽。

因此,這兩個指標都反映樣本集上真實標簽與預測概率之間的差異性(也就是一致性)。

這里,我們就有了答案 :LR在參數(shù)估計時所用到的損失函數(shù)正是對數(shù)損失函數(shù),故而才具有良好的校準度。

LogisticRegression returns well calibrated predictions as it directly optimizes?log-loss.

Part 5.?概率分數(shù)尺度變換成整數(shù)分數(shù)

至此,我們已經(jīng)掌握了如何對模型輸出概率進行校準,但還不是文章開頭所見的整數(shù)分?,F(xiàn)在,介紹將概率分數(shù)尺度變換(scaling)成整數(shù)分數(shù)。在很多信用評分書籍中,有時也會并不加以區(qū)分地稱為風險校準,但并不恰當。

這是非常有用的,因為從業(yè)務上很難理解一個概率分代表的含義,但人們對于整數(shù)分更容易接受。比如,溫度計上的刻度 ?。單調(diào)性保證了映射過程不會改變分數(shù)的排序性。

圖 9 - 評分卡賦分

為簡化處理,我們只考慮一個自變量X,那么邏輯回歸定義如下:

在《WOE與IV指標的深入理解應用》一文中,我們認識到WOE變換是一個分段函數(shù),其把自變量x與y之間的非線性關系轉換為線性關系。若把WOE定義如下,那么含義為:自變量x在經(jīng)過WOE變換后,取值越大,預測為bad的概率越高。


我們會發(fā)現(xiàn)在2個地方出現(xiàn)了Odds的身影——LR的左邊和WOE變換。

此時,由于兩者的Odds(幾率)的定義是壞好比,也就是“壞人概率 / 好人概率”。因此,在參數(shù)估計時,自變量前的權重系數(shù)w的符號是正的。實踐中發(fā)現(xiàn)不少人搞不清楚為什么有時候是正號,有時候是負號。問題主要在于WOE和LR中Odds定義是否一致。

  1. 當WOE中定義Odds是好壞比時,w系數(shù)為

  2. 當WOE中定義Odds是壞好比時,w系數(shù)為

將LR輸出線性映射為信用分的公式如下,通常將常數(shù)A稱為補償常數(shù)B稱為刻度。


在上式中,由于Odds是壞好比,Odds越大,代表bad的概率越高;而信用分越高,代表bad的概率越低。兩者業(yè)務含義上相反,因此是減號。

我們需要定義三個必要的參數(shù):

  • 1. 基準Odds:與真實違約概率一一對應,可換算得到違約概率。

  • 2. 基準分數(shù):在基準Odds時對應的信用分數(shù)。

  • 3. PDO:(Points to?Double the?Odds):Odds(壞好比)變成2倍時,所減少的信用分。

接下來,我們就可以求解出A和B,過程如下:

現(xiàn)以具體數(shù)字來說明。假設我們希望信用分base_Score為600時,對應的Odds(壞好比)為1:50。而當Odds擴大2倍至2:50時,信用分降低20分至580分(PDO=20)。那么:


我們從新的角度再次認識到了為什么評分卡最終選擇了邏輯回歸。其中一個原因是,邏輯回歸本身具有良好的校準度,其輸出概率與真實概率之間存在良好的一致性。因此,我們也就可以直接把概率分數(shù)線形映射為整數(shù)分數(shù)。

如果我們用機器學習模型(如XGBoost、隨機森林等)來風控建模,又希望把概率對標到真實概率,那么我們就可以考慮Platt Scaling。


轉載:https://zhuanlan.zhihu.com/p/82670834

參考:https://www.researchgate.net/publication/318702064_Approaches_for_Credit_Scorecard_Calibration_An_Empirical_Analysis;

https://qizeresearch.wordpress.com/2013/11/26/risk-model-Score-calibration/;

https://scikit-learn.org/stable/modules/calibration.html#calibration;

https://www.Analyticsvidhya.com/blog/2016/07/platt-scaling-isotonic-regression-minimize-logloss-error/;

https://baijiahao.baidu.com/s?id=1634740988371204780&wfr=spider&for=pc;

https://blog.csdn.net/heart_leader/article/details/80757154;

https://www.cnblogs.com/downtjs/p/3433021.html;




信用評分卡模型分數(shù)校準的評論 (共 條)

分享到微博請遵守國家法律
顺平县| 安新县| 定襄县| 宜城市| 繁峙县| 宁阳县| 会理县| 都匀市| 台东市| 视频| 民乐县| 施秉县| 襄樊市| 繁昌县| 石景山区| 三明市| 博湖县| 调兵山市| 漳州市| 肇州县| 松潘县| 高平市| 镇康县| 兴隆县| 建阳市| 漠河县| 和顺县| 丹寨县| 射阳县| 河源市| 雅安市| 饶平县| 洞头县| 海盐县| 瑞安市| 延安市| 邵武市| 六安市| 上蔡县| 郯城县| 齐齐哈尔市|