基尼系數(shù),累積準(zhǔn)確度分布,AUC
在本文中,我們介紹了如何計(jì)算預(yù)測模型的基尼系數(shù)、累積準(zhǔn)確度分布 (CAP) 和曲線下面積 (AUC)。這篇文章的目的就是用通俗的語言解釋這些概念,讓外行人能夠理解其背后的數(shù)學(xué)原理。
這些方法測量預(yù)測模型的判別力。判別力意味著預(yù)測模型是否能夠區(qū)分事件(預(yù)期結(jié)果)和非事件。在信用風(fēng)險(xiǎn)建模中,它評估違約概率模型是否能夠區(qū)分好客戶和壞客戶。與其他領(lǐng)域相比,這兩個(gè)指標(biāo)累積準(zhǔn)確度概況和基尼系數(shù)在信用風(fēng)險(xiǎn)分析中更為常見。
累積精度曲線 (CAP)
信用評級模型的累積準(zhǔn)確度概況 (CAP) 在 x 軸上顯示所有借款人(債務(wù)人)的百分比,在 y 軸上顯示違約者(不良客戶)的百分比。在營銷分析中,它被稱為Gain Chart
. 它在其他一些領(lǐng)域也稱為功率曲線。

解釋
通過使用CAP,您可以將當(dāng)前模型的曲線與“理想或完美”模型的曲線進(jìn)行比較,也可以將其與隨機(jī)模型的曲線進(jìn)行比較。“完美模型”是指可以直接捕獲所有不良客戶(預(yù)期結(jié)果)的理想狀態(tài)?!半S機(jī)模型”是指不良客戶比例平均分布的狀態(tài)?!爱?dāng)前模型”是指您的默認(rèn)模型(或您正在使用的任何其他模型)的概率。我們總是試圖建立一個(gè)傾向于(更接近)完美模型曲線的模型。我們可以將當(dāng)前模型解讀為“在給定的十分位數(shù)級別覆蓋的不良客戶的百分比”。例如,僅根據(jù)模型選擇前 30% 的債務(wù)人,就可以捕獲 89% 的不良客戶。
創(chuàng)建累積精度曲線的步驟
按降序?qū)烙?jì)的違約概率進(jìn)行排序,并將其分成 10 個(gè)部分(十分位數(shù))。這意味著具有高 PD 的風(fēng)險(xiǎn)最高的借款人應(yīng)位于前十分之一,而最安全的借款人應(yīng)出現(xiàn)在底部十分之一。將分?jǐn)?shù)分成 10 個(gè)部分不是拇指規(guī)則。相反,您可以使用評級等級。
計(jì)算每個(gè)十分位數(shù)的借款人(觀察)數(shù)量
計(jì)算每個(gè)十分位數(shù)的壞客戶數(shù)量
計(jì)算每個(gè)十分位數(shù)的累積壞客戶數(shù)
計(jì)算每個(gè)十分位數(shù)中不良客戶的百分比
計(jì)算每個(gè)十分位數(shù)中不良客戶的累積百分比

到目前為止,我們已經(jīng)完成了基于 PD 模型的計(jì)算(記住第一步是基于從 PD 模型獲得的概率)。
下一步:基于完美模型,每個(gè)十分位數(shù)中的不良客戶數(shù)量應(yīng)該是多少?
在完美模型中,第一個(gè)十分位數(shù)應(yīng)捕獲所有不良客戶,因?yàn)榈谝粋€(gè)十分位數(shù)是指最差的評級等級或違約可能性最高的借款人。在我們的案例中,第一個(gè)十分位數(shù)無法捕獲所有不良客戶,因?yàn)榈谝粋€(gè)十分位數(shù)中的借款人數(shù)量少于不良客戶總數(shù)。
基于完美模型計(jì)算每個(gè)十分位數(shù)的累計(jì)不良客戶數(shù)
基于完美模型計(jì)算每個(gè)十分位數(shù)中壞客戶的累積百分比

下一步:基于隨機(jī)模型計(jì)算每個(gè)十分位數(shù)中不良客戶的累積百分比在隨機(jī)模型中,每個(gè)十分位數(shù)應(yīng)占 10%。當(dāng)我們計(jì)算累積百分比時(shí),十分位 1 為 10%,十分位 2 為 20%,依此類推,直到十分位 10 為 100%。

下一步:根據(jù)當(dāng)前、隨機(jī)和完美模型創(chuàng)建一個(gè)帶有累積壞品百分比的圖。在 x 軸上,它顯示借款人(觀察)的百分比,y 軸表示壞客戶的百分比。

準(zhǔn)確率
在 CAP(累積準(zhǔn)確度分布)的情況下,準(zhǔn)確率是您當(dāng)前預(yù)測模型與對角線之間的面積與完美模型與對角線之間的面積之比。換句話說,它是當(dāng)前模型相對于隨機(jī)模型的性能改進(jìn)與完美模型相對于隨機(jī)模型的性能改進(jìn)的比率。

如何計(jì)算準(zhǔn)確率

第一步是計(jì)算當(dāng)前模型與對角線之間的面積。我們可以使用梯形規(guī)則數(shù)值積分方法計(jì)算當(dāng)前模型下方的面積(包括對角線下方的面積)。梯形的面積是
( x i+1 – x i ) * ( y i + y i+1 ) * 0.5

( x i+1 – x i ) 是子區(qū)間的寬度, (y i + y i+1 )*0.5 是平均高度。
在這種情況下,x是指不同十分位數(shù)級別借款人的累計(jì)比例值,y是指不同十分位數(shù)級別的不良客戶累計(jì)比例值。x 0和 y 0 的值為 0。
完成上述步驟后,下一步是從上一步返回的區(qū)域中減去 0.5。您一定想知道 0.5 的相關(guān)性。它是對角線下方的區(qū)域。我們正在減去,因?yàn)槲覀冎恍枰?dāng)前模型和對角線之間的區(qū)域(我們稱之為B
)。
現(xiàn)在我們需要分母,它是完美模型和對角線之間的區(qū)域,A + B
。它相當(dāng)于0.5*(1 - Prob(Bad))
。查看下表中顯示的所有計(jì)算步驟 -

AR 的分母也可以像我們計(jì)算分子一樣計(jì)算。這意味著使用“借款人的累積百分比”和“壞賬的累積百分比(完美模型)”計(jì)算面積,然后從中減去 0.5,因?yàn)槲覀儾恍枰紤]對角線以下的面積。

上述計(jì)算準(zhǔn)確率 (AR) 的方法是近似值,因?yàn)槲覀兛紤]了 10 個(gè) bin(評級)中的數(shù)據(jù),并且記住 bin 的數(shù)量不等于數(shù)據(jù)點(diǎn)的數(shù)量。無需撓頭 - 計(jì)算步驟相同。只是我們需要將它們應(yīng)用于原始值而不是評級(分箱/十分位數(shù))以獲得精確的 AR。請參閱下面的準(zhǔn)確估計(jì)。
例如,在下面的 R 代碼中,我們準(zhǔn)備了示例數(shù)據(jù)。變量名稱pred
是指預(yù)測概率。變量y
是指因變量(實(shí)際事件)。我們只需要這兩個(gè)變量來計(jì)算準(zhǔn)確率。
基尼系數(shù)
基尼系數(shù)與 CAP 非常相似,但它顯示的是好客戶的比例(累計(jì)),而不是所有客戶。它顯示了模型與隨機(jī)模型相比具有更好分類能力的程度。它也被稱為基尼指數(shù)?;嵯禂?shù)可以取-1 到1 之間的值。負(fù)值對應(yīng)于分?jǐn)?shù)含義相反的模型。

基尼系數(shù) = B / (A+B)?;蛘?Gini = 2B 因?yàn)?A + B 的面積是 0.5
下面看基尼系數(shù)的計(jì)算步驟:

解釋
通過拒絕 x% 的好客戶,我們同時(shí)拒絕了多少百分比的壞客戶。
基尼系數(shù)是 Somer's D 統(tǒng)計(jì)量的一個(gè)特例。如果您有一致性和不一致性百分比,則可以計(jì)算基尼系數(shù)。
Gini Coefficient = (Concordance percent - Discordance Percent)
一致性百分比是指違約者的預(yù)測概率高于好客戶的配對比例。
不一致百分比是指違約者的預(yù)測概率低于好客戶的配對比例。
另一種計(jì)算基尼系數(shù)的方法是使用一致性和不一致百分比(如上所述)。請參閱下面的 R 代碼。
基尼系數(shù)和準(zhǔn)確率相等嗎?
是的,他們總是平等的。因此,基尼系數(shù)有時(shí)也稱為準(zhǔn)確率 (AR)。
是的,我知道 Gini 和 AR 中的軸是不同的。問題出現(xiàn)了它們?nèi)绾稳匀幌嗤?。如果你解這個(gè)方程,你會(huì)發(fā)現(xiàn)基尼系數(shù)中的面積 B 與準(zhǔn)確率中的面積 B / Prob(Good) 相同(相當(dāng)于 (1/2)*AR )。兩邊乘以 2,你會(huì)得到 Gini = 2*B 和 AR = Area B / (Area A + B)
ROC 曲線下面積 (AUC)
AUC 或 ROC 曲線顯示了真陽性(違約者被正確歸類為違約者)與假陽性(非違約者被錯(cuò)誤歸類為違約者)的比例。


AUC 分?jǐn)?shù)是在評級等級或十分位數(shù)級別計(jì)算的所有單個(gè)值的總和。
4種數(shù)學(xué)計(jì)算AUC的方法
AUC與基尼系數(shù)的關(guān)系
基尼系數(shù) = 2*AUC - 1。
你一定想知道它們是如何相關(guān)的。
如果您反轉(zhuǎn)上面名為“基尼系數(shù)”的部分中顯示的圖表軸,您將得到類似于下面的圖表。在這里Gini = B / (A + B)
。A + B 的面積為 0.5,因此 Gini = B / 0.5 簡化為Gini = 2*B
。AUC = B + 0.5
這進(jìn)一步簡化為 B = AUC - 0.5。把這個(gè)方程代入 ?Gini = 2*B
Gini = 2*(AUC - 0.5)
Gini = 2*AUC - 1

歡迎學(xué)習(xí)更多金融風(fēng)控相關(guān)知識(shí)《python金融風(fēng)控評分卡模型和數(shù)據(jù)分析》:
