邏輯回歸評分卡細(xì)節(jié)闡述
先上一張評分卡

一、評分卡邏輯
信貸業(yè)務(wù)評估的是客戶的客戶違約率(Percent of Default)即PD,是[0,1]的概率,比如2%即100個客戶中有2個違約,簡稱為p。
評分卡中不直接用客戶違約率p,而是用違約概率與正常概率的比值,稱為Odds,即

、

評分卡的背后邏輯是Odds的變動與評分變動的映射(把Odds映射為評分),分值是根據(jù)Odds的前提條件算出來的,不是人工取的。以單個客戶在整張評分卡的得分的變動(比如評分從50分上升到70分)來反映Odds的變動(比如Odds從5%下降至1.25%),以及背后相對應(yīng)的客戶違約率PD的變動(比如從4.8%下降到1.2%)。違約率PD不直觀、業(yè)務(wù)看起來不方便、不便計算,而評分就很直觀、便于計算。如圖所示。

因此評分卡的生成過程,就是Odds變動映射成評分變動的過程。
二、評分映射公式
Odds映射為評分的公式為:

<1> 預(yù)設(shè)條件
要算出系數(shù)A、B的話,需要從業(yè)務(wù)角度先預(yù)設(shè)兩個前提條件:

備注:經(jīng)過作者檢驗,上圖公式有誤,應(yīng)為PO-PDO=A-B*log(2*Theta0),違約率上升一倍后,模型分應(yīng)該減少,因此是PO-PDO
<2> 求解A、B

<3> 完整的對應(yīng)關(guān)系表
按照公式,可以把所有Odds(

)和客戶評分、客戶違約概率(PD)的對應(yīng)關(guān)系算出來

該關(guān)系對應(yīng)表應(yīng)該算信用評分卡的核心思想了,評分是外層表現(xiàn),客戶違約率是內(nèi)層核心,Odds是中間層轉(zhuǎn)換計算
三、Odds映射X變量
那問題來了,現(xiàn)在能算Score了,但輸入是Odds。但數(shù)據(jù)的輸入是特征變量[

],這里怎么對應(yīng)呢?這就要說到邏輯回歸本身了,先放結(jié)論:

怎么來的,以下詳細(xì)講。
<1> Sigmoid
邏輯回歸來源于線性回歸(二維空間中就是一條直線擬合所有樣本點),雖然線性回歸是回歸算法,邏輯回歸是分類算法,但從算法表達(dá)式上,邏輯回歸就是在線性回歸算法外面套了一層殼。
線性回歸:


邏輯回歸:


可以看到,從表達(dá)式上看,邏輯回歸只是在線性回歸的表達(dá)式外面套了一層

的殼。為什么要套這層殼,因為線性回歸的值域為實數(shù)集R,但邏輯回歸是二分類算法,需要輸出的是類別1和類別2的概率,而概率是個[0, 1]之間的數(shù)。因此需要將線性回歸的輸出實數(shù)變成[0, 1]之間的概率,而能滿足輸入是實數(shù)而輸出是[0, 1]的,就是Sigmoid函數(shù),它的圖形是個類S(見上面邏輯回歸圖)的限定在[0, 1]之間的函數(shù)。因此將Sigmoid函數(shù)套在線性回歸外面,構(gòu)成邏輯回歸,擁有處理非線性的能力,可以做分類。
<2> 變換公式形式

四、X變量細(xì)分到分組
好,回到主線,

,將score公式中的輸入p變成輸入特征變量X。到這里按理就可以結(jié)束了,有X就可以產(chǎn)出客戶的Score,即:

但我們要做的是分組評分卡,X是要對應(yīng)到每個分組,得到各變量分組的評分然后相加得到客戶總評分的,那就還需要將X打散到各分類(用離散型數(shù)據(jù)入邏輯回歸模型)。因此這里的輸入X就不能是原始變量,而是原始變量分箱并算WOE后的woe值(類似離散變量中各類別的數(shù)值化),即:


五、生成評分卡
將上面的公式變下形式,變成最終可以組成評分卡的樣式,即:




嗯,至此評分卡就可以生成了。
參考:https://github.com/xsj0609/data_science/tree/master/ScoreCard
