風(fēng)控模型—WOE與IV指標(biāo)的深入理解應(yīng)用
風(fēng)控業(yè)務(wù)背景
在評分卡建模流程中,WOE(Weight of Evidence)常用于特征變換,IV(Information Value)則用來衡量特征的預(yù)測能力。風(fēng)控建模同學(xué)可能都很熟悉這兩者的應(yīng)用,但我們?nèi)匀豢赡芤苫笾T如“如何調(diào)整WOE分箱?“、“WOE與LR之間的關(guān)系?”這些問題。
很多文章都已經(jīng)討論過這一命題,本文吸取歸納了前人的優(yōu)秀成果,以期對WOE和IV給出一套相對完整的理論解釋。主要創(chuàng)新點(diǎn)在于:
用圖表可視化展示W(wǎng)OE和IV指標(biāo)的計(jì)算過程和業(yè)務(wù)含義,適用于快速入門實(shí)踐的讀者。
從信息論、貝葉斯理論角度來闡述其中蘊(yùn)含的數(shù)學(xué)原理,適用于希望加深理解的讀者。
目錄
Part 1. WOE和IV的應(yīng)用價(jià)值
Part 2. WOE和IV的計(jì)算步驟
Part 3. WOE定義的初步猜想
Part 4. 從貝葉斯角度理解WOE
Part 5. WOE與評分卡的淵源
Part 6. 從相對熵角度理解IV
致謝
版權(quán)聲明
參考資料
Part 1. WOE和IV的應(yīng)用價(jià)值
WOE(Weight of Evidence)叫做證據(jù)權(quán)重,大家可以思考下為什么會取這個名字?
那么WOE在業(yè)務(wù)中常有哪些應(yīng)用呢?
處理缺失值:當(dāng)數(shù)據(jù)源沒有100%覆蓋時(shí),那就會存在缺失值,此時(shí)可以把null單獨(dú)作為一個分箱。這點(diǎn)在分?jǐn)?shù)據(jù)源建模時(shí)非常有用,可以有效將覆蓋率哪怕只有20%的數(shù)據(jù)源利用起來。
處理異常值:當(dāng)數(shù)據(jù)中存在離群點(diǎn)時(shí),可以把其通過分箱離散化處理,從而提高變量的魯棒性(抗干擾能力)。例如,age若出現(xiàn)200這種異常值,可分入“age > 60”這個分箱里,排除影響。
業(yè)務(wù)解釋性:我們習(xí)慣于線性判斷變量的作用,當(dāng)x越來越大,y就越來越大。但實(shí)際x與y之間經(jīng)常存在著非線性關(guān)系,此時(shí)可經(jīng)過WOE變換。
IV(Information Value)是與WOE密切相關(guān)的一個指標(biāo),常用來評估變量的預(yù)測能力。因而可用來快速篩選變量。在應(yīng)用實(shí)踐中,其評價(jià)標(biāo)準(zhǔn)如下:

在此引用一段話來說明兩者的區(qū)別和聯(lián)系:
1. WOE describes the?relationship?between a predictive variable and a binary target variable.
2. IV measures the?strength?of that relationship.
Part 2. WOE和IV的計(jì)算步驟
在定性認(rèn)識到WOE和IV的應(yīng)用價(jià)值后,我們就慢慢揭開其面紗,從理性角度進(jìn)行分析。通常其公式定義如下:
而IV的計(jì)算公式定義如下,其可認(rèn)為是WOE的加權(quán)和。為什么會定義成這樣?
為幫助大家理解,現(xiàn)以具體數(shù)據(jù)介紹WOE和IV的計(jì)算步驟,如圖1所示。
step 1. 對于連續(xù)型變量,進(jìn)行分箱(binning),可以選擇等頻、等距,或者自定義間隔;對于離散型變量,如果分箱太多,則進(jìn)行分箱合并。
step 2. 統(tǒng)計(jì)每個分箱里的好人數(shù)(bin_goods)和壞人數(shù)(bin_bads)。
step 3. 分別除以總的好人數(shù)(total_goods)和壞人數(shù)(total_bads),得到每個分箱內(nèi)的邊際好人占比(margin_good_rate)和邊際壞人占比(margin_bad_rate)。
step 4. 計(jì)算每個分箱里的
step 5. 檢查每個分箱(除null分箱外)里woe值是否滿足單調(diào)性,若不滿足,返回step1。注意??:null分箱由于有明確的業(yè)務(wù)解釋,因此不需要考慮滿足單調(diào)性。
step 6. 計(jì)算每個分箱里的IV,最終求和,即得到最終的IV。
備注:好人 = 正常用戶,壞人 = 逾期用戶

另外還需要注意什么呢?
分箱時(shí)需要注意樣本量充足,保證統(tǒng)計(jì)意義。
若相鄰分箱的WOE值相同,則將其合并為一個分箱。
當(dāng)一個分箱內(nèi)只有好人或壞人時(shí),可對WOE公式進(jìn)行修正如下:
在實(shí)踐中,我們還需跨數(shù)據(jù)集檢驗(yàn)WOE分箱的單調(diào)性。如果在訓(xùn)練集上保持單調(diào),但在驗(yàn)證集和測試集上發(fā)生翻轉(zhuǎn)而不單調(diào),那么說明分箱并不合理,需要再次調(diào)整。下圖是合理的WOE曲線變化示例。

這里提前給大家留下問題:為什么要保持WOE曲線要保持單調(diào)性?在某些情況下是不是可以不滿足單調(diào)性?是不是線性就更好?WOE曲線的斜率是否越陡越好?
Part 3. WOE定義的初步猜想
為了搞清楚為什么WOE公式是如此定義的,我們嘗試對其進(jìn)行各種變換。
WOE ?= ln (第i個分箱的壞人數(shù) / 總壞人數(shù)) - ?ln (第i個分箱的好人數(shù) / 總好人數(shù))
此時(shí)可以理解為:每個分箱里的壞人分布相對于好人分布之間的差異性。
我們對公式再變換為:
WOE ?= ln (第i個分箱的壞人數(shù) / 第i個分箱的好人數(shù)) - ?ln (總壞人數(shù) / 總好人數(shù))
此時(shí)可以理解為:每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。
但是,為什么要再套一個對數(shù)ln?
之前看到一種解釋是為了進(jìn)行平滑處理。那么為什么不引入拉普拉斯平滑,也就是在分子分母中都加上一個數(shù)?如果加上1,那么公式推導(dǎo)如下:
此時(shí)含義是:總體good_rate相對于分箱內(nèi)good_rate的倍數(shù)。
其實(shí)發(fā)現(xiàn)這種形式會更符合我們的直覺。因此,“取對數(shù)是為了平滑處理”——這種解釋無法說服我們。
同時(shí),我們又會疑惑為什么不把WOE定義為:
因此,我們發(fā)現(xiàn)無法通過常規(guī)思維去理解這一切,于是開始去尋找新的工具。
Part 4. 從貝葉斯角度理解WOE
貝葉斯理論認(rèn)為我們認(rèn)知世界是一個循序漸進(jìn)的過程,首先我們有一個主觀的先驗(yàn)認(rèn)知,進(jìn)而不斷通過觀測數(shù)據(jù)來修正先驗(yàn)認(rèn)知,得到后驗(yàn)認(rèn)知。隨著這個過程不斷迭代,我們對世界的認(rèn)識也就越來越完善。其中,從觀測數(shù)據(jù)中提取信息來支撐我們的原始假設(shè)就是WOE。
在信貸風(fēng)控中,識別好人和壞人也是同樣的道理。我們根據(jù)歷史樣本數(shù)據(jù)形成一個先驗(yàn)認(rèn)知:
當(dāng)Odds小于1時(shí),預(yù)測為Good的概率更高,此時(shí)我們認(rèn)為一般情況下都是好人。但實(shí)際中樣本會受到各種因素(自變量)影響而導(dǎo)致變壞。
因此,我們就開始搜集樣本的各種特征,希望這些證據(jù)能幫助我們對這個樣本全貌有更為全面的理解,進(jìn)而修正我們的先驗(yàn)認(rèn)識。這個過程用公式可以表達(dá)如下。提示:留意兩側(cè)為什么會取自然對數(shù)ln,而不是log?
其中, 表示后驗(yàn)項(xiàng); 表示根據(jù)觀測數(shù)據(jù)更新信息,即WOE; 表示先驗(yàn)項(xiàng)。
如果搜集到的數(shù)據(jù)與先驗(yàn)認(rèn)知的差距不大,我們就認(rèn)為這個數(shù)據(jù)中得到的證據(jù)價(jià)值不大,反之則認(rèn)為帶來的信息越多。因此,WOE用以衡量對先驗(yàn)認(rèn)識修正的增量,這就是WOE被取名為“證據(jù)權(quán)重”的原因。
Part 5. WOE與評分卡模型的淵源
評分卡模型基于假設(shè)“歷史樣本和未來樣本服從同一總體分布”,故而才能從歷史樣本中歸納出數(shù)理統(tǒng)計(jì)規(guī)律來預(yù)測未來樣本的表現(xiàn)。評分卡通常采用邏輯回歸(Logistics Regression)進(jìn)行建模,其原因有很多,比如可解釋性、簡單模型、小樣本學(xué)習(xí)等等。
我們從“數(shù)據(jù)->信息->知識->決策”框架來解釋完整的流程。
step 1. 從不同信道里獲取了觀測數(shù)據(jù)(Data),并從中提取了特征X。
step2. 此時(shí)發(fā)現(xiàn)各渠道采集的信息并不在一個尺度上,無法融合。因此,我們通過WOE變換對信息進(jìn)行處理,將其對標(biāo)到統(tǒng)一尺度上。
step3. LR模型對不同信息采用不同權(quán)重(weight)進(jìn)行加權(quán)融合,并通過sigmoid函數(shù)映射為0~1的概率。
step4. 基于LR模型的輸出結(jié)果,人工進(jìn)行決策,判定好人還是壞人。

初識WOE是在評分卡模型中,當(dāng)時(shí)仍不懂它們之間的關(guān)系。我們可能會疑惑,WOE是在建立評分卡理論時(shí)應(yīng)運(yùn)而生,還是屬于一種通用的信息變換方法?
為了簡化處理,我們只考慮一個自變量 ,那么評分卡模型的形式為:
我們可以觀察到WOE公式與LR左邊部分是如此相似。回到貝葉斯角度解釋W(xué)OE時(shí)留下的提示——兩側(cè)為什么會取自然對數(shù)ln,而不是log?
在評分卡模型中我們就得到了一種可能的解釋,主要是為了適配于LR模型。
接下來解釋W(xué)OE曲線需要保持單調(diào)性的意義。
首先,引入Odds(幾率)概念:
,P為預(yù)測為1的概率。Odds越大,代表預(yù)測為1的概率越高。
然后我們把相鄰兩個分箱的WOE值相減。
在上述等式中,權(quán)重w可以認(rèn)為是常數(shù),因此我們會發(fā)現(xiàn):
分子和分母的變化趨勢一致,當(dāng)WOE單調(diào)遞增時(shí),分子中l(wèi)n(odds)也是單調(diào)變化,由此P(Y=Bad)也是單調(diào)變化。
當(dāng)分母變化越大時(shí),分子也會變化越大,宏觀表現(xiàn)就是WOE曲線越陡。此時(shí),好人與壞人的區(qū)分將會越明顯。
Part 6.?從相對熵角度理解IV
在《穩(wěn)定性評估指標(biāo)深入理解應(yīng)用》一文里,我們從相對熵(KL散度)角度理解了PSI的數(shù)學(xué)原理。
我們會留意到下面三者好像都和“信息”有關(guān)系,那這三者之間存在怎樣的聯(lián)系呢?
信息熵(Shannon entropy)、相對熵(relative entropy)、 信息量(Information Value)
因此,我們把PSI、IV的計(jì)算公式放在一起進(jìn)行對比,希望能觀察出一些線索。
我們會發(fā)現(xiàn)兩者形式上是完全一致的,這主要是因?yàn)樗鼈儽澈蟮?strong>支撐理論都是相對熵。我們可以歸納為:
1. ?PSI衡量預(yù)期分布和實(shí)際分布之間的差異性,IV把這兩個分布具體化為好人分布和壞人分布。IV指標(biāo)是在從信息熵上比較好人分布和壞人分布之間的差異性。

2. PSI和IV在取值范圍與業(yè)務(wù)含義的對應(yīng)上也是存在統(tǒng)一性,只是應(yīng)用場景不同——PSI用以判斷變量穩(wěn)定性,IV用以判斷變量預(yù)測能力。

轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/80134853
