散文網(wǎng) » 科技 »學(xué)習(xí) » 風(fēng)控模型—WOE與IV指標(biāo)的深入理解應(yīng)用

風(fēng)控模型—WOE與IV指標(biāo)的深入理解應(yīng)用

2022-10-22 11:13 作者:python風(fēng)控模型 0人讀過 | 我要投稿

風(fēng)控業(yè)務(wù)背景

在評分卡建模流程中，WOE（Weight of Evidence）常用于特征變換，IV（Information Value）則用來衡量特征的預(yù)測能力。風(fēng)控建模同學(xué)可能都很熟悉這兩者的應(yīng)用，但我們?nèi)匀豢赡芤苫笾T如“如何調(diào)整WOE分箱？“、“WOE與LR之間的關(guān)系？”這些問題。

很多文章都已經(jīng)討論過這一命題，本文吸取歸納了前人的優(yōu)秀成果，以期對WOE和IV給出一套相對完整的理論解釋。主要創(chuàng)新點(diǎn)在于：

用圖表可視化展示W(wǎng)OE和IV指標(biāo)的計(jì)算過程和業(yè)務(wù)含義，適用于快速入門實(shí)踐的讀者。
從信息論、貝葉斯理論角度來闡述其中蘊(yùn)含的數(shù)學(xué)原理，適用于希望加深理解的讀者。

目錄
Part 1. WOE和IV的應(yīng)用價(jià)值
Part 2. WOE和IV的計(jì)算步驟
Part 3. WOE定義的初步猜想
Part 4. 從貝葉斯角度理解WOE
Part 5. WOE與評分卡的淵源
Part 6. 從相對熵角度理解IV
致謝
版權(quán)聲明
參考資料

Part 1. WOE和IV的應(yīng)用價(jià)值

WOE（Weight of Evidence）叫做證據(jù)權(quán)重，大家可以思考下為什么會取這個名字？

那么WOE在業(yè)務(wù)中常有哪些應(yīng)用呢？

處理缺失值：當(dāng)數(shù)據(jù)源沒有100%覆蓋時(shí)，那就會存在缺失值，此時(shí)可以把null單獨(dú)作為一個分箱。這點(diǎn)在分?jǐn)?shù)據(jù)源建模時(shí)非常有用，可以有效將覆蓋率哪怕只有20%的數(shù)據(jù)源利用起來。
處理異常值：當(dāng)數(shù)據(jù)中存在離群點(diǎn)時(shí)，可以把其通過分箱離散化處理，從而提高變量的魯棒性（抗干擾能力）。例如，age若出現(xiàn)200這種異常值，可分入“age > 60”這個分箱里，排除影響。
業(yè)務(wù)解釋性：我們習(xí)慣于線性判斷變量的作用，當(dāng)x越來越大，y就越來越大。但實(shí)際x與y之間經(jīng)常存在著非線性關(guān)系，此時(shí)可經(jīng)過WOE變換。

IV（Information Value）是與WOE密切相關(guān)的一個指標(biāo)，常用來評估變量的預(yù)測能力。因而可用來快速篩選變量。在應(yīng)用實(shí)踐中，其評價(jià)標(biāo)準(zhǔn)如下：

在此引用一段話來說明兩者的區(qū)別和聯(lián)系：

1. WOE describes the?relationship?between a predictive variable and a binary target variable.
2. IV measures the?strength?of that relationship.

Part 2. WOE和IV的計(jì)算步驟

在定性認(rèn)識到WOE和IV的應(yīng)用價(jià)值后，我們就慢慢揭開其面紗，從理性角度進(jìn)行分析。通常其公式定義如下：

而IV的計(jì)算公式定義如下，其可認(rèn)為是WOE的加權(quán)和。為什么會定義成這樣？

為幫助大家理解，現(xiàn)以具體數(shù)據(jù)介紹WOE和IV的計(jì)算步驟，如圖1所示。

step 1. 對于連續(xù)型變量，進(jìn)行分箱（binning），可以選擇等頻、等距，或者自定義間隔；對于離散型變量，如果分箱太多，則進(jìn)行分箱合并。
step 2. 統(tǒng)計(jì)每個分箱里的好人數(shù)(bin_goods)和壞人數(shù)(bin_bads)。
step 3. 分別除以總的好人數(shù)(total_goods)和壞人數(shù)(total_bads)，得到每個分箱內(nèi)的邊際好人占比(margin_good_rate)和邊際壞人占比(margin_bad_rate)。
step 4. 計(jì)算每個分箱里的
step 5. 檢查每個分箱（除null分箱外）里woe值是否滿足單調(diào)性，若不滿足，返回step1。注意??：null分箱由于有明確的業(yè)務(wù)解釋，因此不需要考慮滿足單調(diào)性。
step 6. 計(jì)算每個分箱里的IV，最終求和，即得到最終的IV。
備注：好人 = 正常用戶，壞人 = 逾期用戶

另外還需要注意什么呢？

分箱時(shí)需要注意樣本量充足，保證統(tǒng)計(jì)意義。
若相鄰分箱的WOE值相同，則將其合并為一個分箱。
當(dāng)一個分箱內(nèi)只有好人或壞人時(shí)，可對WOE公式進(jìn)行修正如下：

在實(shí)踐中，我們還需跨數(shù)據(jù)集檢驗(yàn)WOE分箱的單調(diào)性。如果在訓(xùn)練集上保持單調(diào)，但在驗(yàn)證集和測試集上發(fā)生翻轉(zhuǎn)而不單調(diào)，那么說明分箱并不合理，需要再次調(diào)整。下圖是合理的WOE曲線變化示例。

這里提前給大家留下問題：為什么要保持WOE曲線要保持單調(diào)性？在某些情況下是不是可以不滿足單調(diào)性？是不是線性就更好？WOE曲線的斜率是否越陡越好？

Part 3. WOE定義的初步猜想

為了搞清楚為什么WOE公式是如此定義的，我們嘗試對其進(jìn)行各種變換。

WOE ?= ln (第i個分箱的壞人數(shù) / 總壞人數(shù)) - ?ln (第i個分箱的好人數(shù) / 總好人數(shù))

此時(shí)可以理解為：每個分箱里的壞人分布相對于好人分布之間的差異性。

我們對公式再變換為：

WOE ?= ln (第i個分箱的壞人數(shù) / 第i個分箱的好人數(shù)) - ?ln (總壞人數(shù) / 總好人數(shù))

此時(shí)可以理解為：每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。

但是，為什么要再套一個對數(shù)ln？

之前看到一種解釋是為了進(jìn)行平滑處理。那么為什么不引入拉普拉斯平滑，也就是在分子分母中都加上一個數(shù)？如果加上1，那么公式推導(dǎo)如下：

此時(shí)含義是：總體good_rate相對于分箱內(nèi)good_rate的倍數(shù)。

其實(shí)發(fā)現(xiàn)這種形式會更符合我們的直覺。因此，“取對數(shù)是為了平滑處理”——這種解釋無法說服我們。

同時(shí)，我們又會疑惑為什么不把WOE定義為：

因此，我們發(fā)現(xiàn)無法通過常規(guī)思維去理解這一切，于是開始去尋找新的工具。

Part 4. 從貝葉斯角度理解WOE

貝葉斯理論認(rèn)為我們認(rèn)知世界是一個循序漸進(jìn)的過程，首先我們有一個主觀的先驗(yàn)認(rèn)知，進(jìn)而不斷通過觀測數(shù)據(jù)來修正先驗(yàn)認(rèn)知，得到后驗(yàn)認(rèn)知。隨著這個過程不斷迭代，我們對世界的認(rèn)識也就越來越完善。其中，從觀測數(shù)據(jù)中提取信息來支撐我們的原始假設(shè)就是WOE。

在信貸風(fēng)控中，識別好人和壞人也是同樣的道理。我們根據(jù)歷史樣本數(shù)據(jù)形成一個先驗(yàn)認(rèn)知：

當(dāng)Odds小于1時(shí)，預(yù)測為Good的概率更高，此時(shí)我們認(rèn)為一般情況下都是好人。但實(shí)際中樣本會受到各種因素（自變量）影響而導(dǎo)致變壞。

因此，我們就開始搜集樣本的各種特征，希望這些證據(jù)能幫助我們對這個樣本全貌有更為全面的理解，進(jìn)而修正我們的先驗(yàn)認(rèn)識。這個過程用公式可以表達(dá)如下。提示：留意兩側(cè)為什么會取自然對數(shù)ln，而不是log？

其中，表示后驗(yàn)項(xiàng)；表示根據(jù)觀測數(shù)據(jù)更新信息，即WOE；表示先驗(yàn)項(xiàng)。

如果搜集到的數(shù)據(jù)與先驗(yàn)認(rèn)知的差距不大，我們就認(rèn)為這個數(shù)據(jù)中得到的證據(jù)價(jià)值不大，反之則認(rèn)為帶來的信息越多。因此，WOE用以衡量對先驗(yàn)認(rèn)識修正的增量，這就是WOE被取名為“證據(jù)權(quán)重”的原因。

Part 5. WOE與評分卡模型的淵源

評分卡模型基于假設(shè)“歷史樣本和未來樣本服從同一總體分布”，故而才能從歷史樣本中歸納出數(shù)理統(tǒng)計(jì)規(guī)律來預(yù)測未來樣本的表現(xiàn)。評分卡通常采用邏輯回歸（Logistics Regression）進(jìn)行建模，其原因有很多，比如可解釋性、簡單模型、小樣本學(xué)習(xí)等等。

我們從“數(shù)據(jù)->信息->知識->決策”框架來解釋完整的流程。

step 1. 從不同信道里獲取了觀測數(shù)據(jù)（Data），并從中提取了特征X。
step2. 此時(shí)發(fā)現(xiàn)各渠道采集的信息并不在一個尺度上，無法融合。因此，我們通過WOE變換對信息進(jìn)行處理，將其對標(biāo)到統(tǒng)一尺度上。
step3. LR模型對不同信息采用不同權(quán)重(weight)進(jìn)行加權(quán)融合，并通過sigmoid函數(shù)映射為0～1的概率。
step4. 基于LR模型的輸出結(jié)果，人工進(jìn)行決策，判定好人還是壞人。

初識WOE是在評分卡模型中，當(dāng)時(shí)仍不懂它們之間的關(guān)系。我們可能會疑惑，WOE是在建立評分卡理論時(shí)應(yīng)運(yùn)而生，還是屬于一種通用的信息變換方法？

為了簡化處理，我們只考慮一個自變量，那么評分卡模型的形式為：

我們可以觀察到WOE公式與LR左邊部分是如此相似。回到貝葉斯角度解釋W(xué)OE時(shí)留下的提示——兩側(cè)為什么會取自然對數(shù)ln，而不是log？

在評分卡模型中我們就得到了一種可能的解釋，主要是為了適配于LR模型。

接下來解釋W(xué)OE曲線需要保持單調(diào)性的意義。

首先，引入Odds（幾率）概念：

，P為預(yù)測為1的概率。Odds越大，代表預(yù)測為1的概率越高。

然后我們把相鄰兩個分箱的WOE值相減。

在上述等式中，權(quán)重w可以認(rèn)為是常數(shù)，因此我們會發(fā)現(xiàn)：

分子和分母的變化趨勢一致，當(dāng)WOE單調(diào)遞增時(shí)，分子中l(wèi)n(odds)也是單調(diào)變化，由此P(Y=Bad)也是單調(diào)變化。
當(dāng)分母變化越大時(shí)，分子也會變化越大，宏觀表現(xiàn)就是WOE曲線越陡。此時(shí)，好人與壞人的區(qū)分將會越明顯。

Part 6.?從相對熵角度理解IV

在《穩(wěn)定性評估指標(biāo)深入理解應(yīng)用》一文里，我們從相對熵（KL散度）角度理解了PSI的數(shù)學(xué)原理。

我們會留意到下面三者好像都和“信息”有關(guān)系，那這三者之間存在怎樣的聯(lián)系呢？

信息熵（Shannon entropy）、相對熵（relative entropy）、信息量（Information Value）

因此，我們把PSI、IV的計(jì)算公式放在一起進(jìn)行對比，希望能觀察出一些線索。

我們會發(fā)現(xiàn)兩者形式上是完全一致的，這主要是因?yàn)樗鼈儽澈蟮?strong>支撐理論都是相對熵。我們可以歸納為：

1. ?PSI衡量預(yù)期分布和實(shí)際分布之間的差異性，IV把這兩個分布具體化為好人分布和壞人分布。IV指標(biāo)是在從信息熵上比較好人分布和壞人分布之間的差異性。

2. PSI和IV在取值范圍與業(yè)務(wù)含義的對應(yīng)上也是存在統(tǒng)一性，只是應(yīng)用場景不同——PSI用以判斷變量穩(wěn)定性，IV用以判斷變量預(yù)測能力。

轉(zhuǎn)載：https://zhuanlan.zhihu.com/p/80134853

標(biāo)簽：