最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

風(fēng)控模型—WOE與IV指標(biāo)的深入理解應(yīng)用

2022-10-22 11:13 作者:python風(fēng)控模型  | 我要投稿

風(fēng)控業(yè)務(wù)背景

在評分卡建模流程中,WOE(Weight of Evidence)常用于特征變換,IV(Information Value)則用來衡量特征的預(yù)測能力。風(fēng)控建模同學(xué)可能都很熟悉這兩者的應(yīng)用,但我們?nèi)匀豢赡芤苫笾T如“如何調(diào)整WOE分箱?“、“WOE與LR之間的關(guān)系?”這些問題。

很多文章都已經(jīng)討論過這一命題,本文吸取歸納了前人的優(yōu)秀成果,以期對WOE和IV給出一套相對完整的理論解釋。主要創(chuàng)新點(diǎn)在于:

  1. 圖表可視化展示W(wǎng)OE和IV指標(biāo)的計(jì)算過程和業(yè)務(wù)含義,適用于快速入門實(shí)踐的讀者。

  2. 信息論、貝葉斯理論角度來闡述其中蘊(yùn)含的數(shù)學(xué)原理,適用于希望加深理解的讀者。

目錄
Part 1. WOE和IV的應(yīng)用價(jià)值
Part 2. WOE和IV的計(jì)算步驟
Part 3. WOE定義的初步猜想
Part 4. 從貝葉斯角度理解WOE
Part 5. WOE與評分卡的淵源
Part 6. 從相對熵角度理解IV
致謝
版權(quán)聲明
參考資料

Part 1. WOE和IV的應(yīng)用價(jià)值

WOE(Weight of Evidence)叫做證據(jù)權(quán)重,大家可以思考下為什么會取這個名字?

那么WOE在業(yè)務(wù)中常有哪些應(yīng)用呢?

  1. 處理缺失值:當(dāng)數(shù)據(jù)源沒有100%覆蓋時(shí),那就會存在缺失值,此時(shí)可以把null單獨(dú)作為一個分箱。這點(diǎn)在分?jǐn)?shù)據(jù)源建模時(shí)非常有用,可以有效將覆蓋率哪怕只有20%的數(shù)據(jù)源利用起來。

  2. 處理異常值:當(dāng)數(shù)據(jù)中存在離群點(diǎn)時(shí),可以把其通過分箱離散化處理,從而提高變量的魯棒性(抗干擾能力)。例如,age若出現(xiàn)200這種異常值,可分入“age > 60”這個分箱里,排除影響。

  3. 業(yè)務(wù)解釋性:我們習(xí)慣于線性判斷變量的作用,當(dāng)x越來越大,y就越來越大。但實(shí)際x與y之間經(jīng)常存在著非線性關(guān)系,此時(shí)可經(jīng)過WOE變換。

IV(Information Value)是與WOE密切相關(guān)的一個指標(biāo),常用來評估變量的預(yù)測能力。因而可用來快速篩選變量。在應(yīng)用實(shí)踐中,其評價(jià)標(biāo)準(zhǔn)如下:

在此引用一段話來說明兩者的區(qū)別和聯(lián)系:

1. WOE describes the?relationship?between a predictive variable and a binary target variable.
2. IV measures the?strength?of that relationship.

Part 2. WOE和IV的計(jì)算步驟

在定性認(rèn)識到WOE和IV的應(yīng)用價(jià)值后,我們就慢慢揭開其面紗,從理性角度進(jìn)行分析。通常其公式定義如下:


而IV的計(jì)算公式定義如下,其可認(rèn)為是WOE的加權(quán)和。為什么會定義成這樣?


為幫助大家理解,現(xiàn)以具體數(shù)據(jù)介紹WOE和IV的計(jì)算步驟,如圖1所示。

  • step 1. 對于連續(xù)型變量,進(jìn)行分箱(binning),可以選擇等頻、等距,或者自定義間隔;對于離散型變量,如果分箱太多,則進(jìn)行分箱合并。

  • step 2. 統(tǒng)計(jì)每個分箱里的好人數(shù)(bin_goods)和壞人數(shù)(bin_bads)。

  • step 3. 分別除以總的好人數(shù)(total_goods)和壞人數(shù)(total_bads),得到每個分箱內(nèi)的邊際好人占比(margin_good_rate)和邊際壞人占比(margin_bad_rate)。

  • step 4. 計(jì)算每個分箱里的

  • step 5. 檢查每個分箱(除null分箱外)里woe值是否滿足單調(diào)性,若不滿足,返回step1。注意??:null分箱由于有明確的業(yè)務(wù)解釋,因此不需要考慮滿足單調(diào)性。

  • step 6. 計(jì)算每個分箱里的IV,最終求和,即得到最終的IV。
    備注:好人 = 正常用戶,壞人 = 逾期用戶

另外還需要注意什么呢?

  1. 分箱時(shí)需要注意樣本量充足,保證統(tǒng)計(jì)意義。

  2. 若相鄰分箱的WOE值相同,則將其合并為一個分箱。

  3. 當(dāng)一個分箱內(nèi)只有好人或壞人時(shí),可對WOE公式進(jìn)行修正如下:


在實(shí)踐中,我們還需跨數(shù)據(jù)集檢驗(yàn)WOE分箱的單調(diào)性。如果在訓(xùn)練集上保持單調(diào),但在驗(yàn)證集和測試集上發(fā)生翻轉(zhuǎn)而不單調(diào),那么說明分箱并不合理,需要再次調(diào)整。下圖是合理的WOE曲線變化示例。

這里提前給大家留下問題:為什么要保持WOE曲線要保持單調(diào)性?在某些情況下是不是可以不滿足單調(diào)性?是不是線性就更好?WOE曲線的斜率是否越陡越好?

Part 3. WOE定義的初步猜想

為了搞清楚為什么WOE公式是如此定義的,我們嘗試對其進(jìn)行各種變換。


WOE ?= ln (第i個分箱的壞人數(shù) / 總壞人數(shù)) - ?ln (第i個分箱的好人數(shù) / 總好人數(shù))

此時(shí)可以理解為:每個分箱里的壞人分布相對于好人分布之間的差異性

我們對公式再變換為:


WOE ?= ln (第i個分箱的壞人數(shù) / 第i個分箱的好人數(shù)) - ?ln (總壞人數(shù) / 總好人數(shù))

此時(shí)可以理解為:每個分箱里的壞好比(Odds)相對于總體的壞好比之間的差異性。

但是,為什么要再套一個對數(shù)ln?

之前看到一種解釋是為了進(jìn)行平滑處理。那么為什么不引入拉普拉斯平滑,也就是在分子分母中都加上一個數(shù)?如果加上1,那么公式推導(dǎo)如下:


此時(shí)含義是:總體good_rate相對于分箱內(nèi)good_rate的倍數(shù)。

其實(shí)發(fā)現(xiàn)這種形式會更符合我們的直覺。因此,“取對數(shù)是為了平滑處理”——這種解釋無法說服我們。

同時(shí),我們又會疑惑為什么不把WOE定義為:


因此,我們發(fā)現(xiàn)無法通過常規(guī)思維去理解這一切,于是開始去尋找新的工具。

Part 4. 從貝葉斯角度理解WOE

貝葉斯理論認(rèn)為我們認(rèn)知世界是一個循序漸進(jìn)的過程,首先我們有一個主觀的先驗(yàn)認(rèn)知,進(jìn)而不斷通過觀測數(shù)據(jù)來修正先驗(yàn)認(rèn)知,得到后驗(yàn)認(rèn)知。隨著這個過程不斷迭代,我們對世界的認(rèn)識也就越來越完善。其中,從觀測數(shù)據(jù)中提取信息來支撐我們的原始假設(shè)就是WOE。

在信貸風(fēng)控中,識別好人和壞人也是同樣的道理。我們根據(jù)歷史樣本數(shù)據(jù)形成一個先驗(yàn)認(rèn)知


當(dāng)Odds小于1時(shí),預(yù)測為Good的概率更高,此時(shí)我們認(rèn)為一般情況下都是好人。但實(shí)際中樣本會受到各種因素(自變量)影響而導(dǎo)致變壞。

因此,我們就開始搜集樣本的各種特征,希望這些證據(jù)能幫助我們對這個樣本全貌有更為全面的理解,進(jìn)而修正我們的先驗(yàn)認(rèn)識。這個過程用公式可以表達(dá)如下。提示:留意兩側(cè)為什么會取自然對數(shù)ln,而不是log?


其中, 表示后驗(yàn)項(xiàng); 表示根據(jù)觀測數(shù)據(jù)更新信息,即WOE; 表示先驗(yàn)項(xiàng)。

如果搜集到的數(shù)據(jù)與先驗(yàn)認(rèn)知的差距不大,我們就認(rèn)為這個數(shù)據(jù)中得到的證據(jù)價(jià)值不大,反之則認(rèn)為帶來的信息越多。因此,WOE用以衡量對先驗(yàn)認(rèn)識修正的增量,這就是WOE被取名為“證據(jù)權(quán)重”的原因。

Part 5. WOE與評分卡模型的淵源

評分卡模型基于假設(shè)“歷史樣本和未來樣本服從同一總體分布”,故而才能從歷史樣本中歸納出數(shù)理統(tǒng)計(jì)規(guī)律來預(yù)測未來樣本的表現(xiàn)。評分卡通常采用邏輯回歸(Logistics Regression)進(jìn)行建模,其原因有很多,比如可解釋性、簡單模型、小樣本學(xué)習(xí)等等。

我們從“數(shù)據(jù)->信息->知識->決策”框架來解釋完整的流程。

  • step 1. 從不同信道里獲取了觀測數(shù)據(jù)(Data),并從中提取了特征X。

  • step2. 此時(shí)發(fā)現(xiàn)各渠道采集的信息并不在一個尺度上,無法融合。因此,我們通過WOE變換對信息進(jìn)行處理,將其對標(biāo)到統(tǒng)一尺度上。

  • step3. LR模型對不同信息采用不同權(quán)重(weight)進(jìn)行加權(quán)融合,并通過sigmoid函數(shù)映射為0~1的概率。

  • step4. 基于LR模型的輸出結(jié)果,人工進(jìn)行決策,判定好人還是壞人。

初識WOE是在評分卡模型中,當(dāng)時(shí)仍不懂它們之間的關(guān)系。我們可能會疑惑,WOE是在建立評分卡理論時(shí)應(yīng)運(yùn)而生,還是屬于一種通用的信息變換方法?

為了簡化處理,我們只考慮一個自變量 ,那么評分卡模型的形式為:


我們可以觀察到WOE公式與LR左邊部分是如此相似。回到貝葉斯角度解釋W(xué)OE時(shí)留下的提示——兩側(cè)為什么會取自然對數(shù)ln,而不是log?

在評分卡模型中我們就得到了一種可能的解釋,主要是為了適配于LR模型。

接下來解釋W(xué)OE曲線需要保持單調(diào)性的意義。

首先,引入Odds(幾率)概念:

,P為預(yù)測為1的概率。Odds越大,代表預(yù)測為1的概率越高。

然后我們把相鄰兩個分箱的WOE值相減。


在上述等式中,權(quán)重w可以認(rèn)為是常數(shù),因此我們會發(fā)現(xiàn):

  1. 分子和分母的變化趨勢一致,當(dāng)WOE單調(diào)遞增時(shí),分子中l(wèi)n(odds)也是單調(diào)變化,由此P(Y=Bad)也是單調(diào)變化。

  2. 當(dāng)分母變化越大時(shí),分子也會變化越大,宏觀表現(xiàn)就是WOE曲線越陡。此時(shí),好人與壞人的區(qū)分將會越明顯。

Part 6.?從相對熵角度理解IV

在《穩(wěn)定性評估指標(biāo)深入理解應(yīng)用》一文里,我們從相對熵(KL散度)角度理解了PSI的數(shù)學(xué)原理。

我們會留意到下面三者好像都和“信息”有關(guān)系,那這三者之間存在怎樣的聯(lián)系呢?

信息熵(Shannon entropy)、相對熵(relative entropy)、 信息量(Information Value)

因此,我們把PSI、IV的計(jì)算公式放在一起進(jìn)行對比,希望能觀察出一些線索。


我們會發(fā)現(xiàn)兩者形式上是完全一致的,這主要是因?yàn)樗鼈儽澈蟮?strong>支撐理論都是相對熵。我們可以歸納為:

1. ?PSI衡量預(yù)期分布和實(shí)際分布之間的差異性,IV把這兩個分布具體化為好人分布和壞人分布。IV指標(biāo)是在從信息熵上比較好人分布和壞人分布之間的差異性。
2. PSI和IV在取值范圍與業(yè)務(wù)含義的對應(yīng)上也是存在統(tǒng)一性,只是應(yīng)用場景不同——PSI用以判斷變量穩(wěn)定性,IV用以判斷變量預(yù)測能力。


轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/80134853



風(fēng)控模型—WOE與IV指標(biāo)的深入理解應(yīng)用的評論 (共 條)

分享到微博請遵守國家法律
阳原县| 高尔夫| 集贤县| 攀枝花市| 崇阳县| 荆门市| 广河县| 新营市| 三台县| 普定县| 山阳县| 洪泽县| 涪陵区| 偃师市| 双辽市| 兴山县| 油尖旺区| 尉犁县| 高唐县| 黑山县| 清河县| 类乌齐县| 驻马店市| 永靖县| 怀柔区| 广平县| 原平市| 平远县| 万山特区| 三门县| 南涧| 汤阴县| 斗六市| 灌南县| 新泰市| 工布江达县| 奎屯市| 调兵山市| 乌拉特前旗| 河东区| 洞口县|