洛倫茲曲線(Lorenz curve)提升指數(shù)、提升表和提升圖

洛倫茲曲線(Lorenz curve)也叫提升圖或收益曲線
提升圖主要通過隨機(jī)選擇比較模型表現(xiàn)。



綠色曲線比黃色曲線更加不平衡

基尼系數(shù)=A/(A+B)
A+B為正方形一半恒定面積,A區(qū)間面積越大,基尼系數(shù)越大

Lift, Lift Table, and Lift Chart
提升指數(shù)、提升表和提升圖
1. 什么是Lift?
I) Lift(提升指數(shù))是評(píng)估一個(gè)預(yù)測模型是否有效的一個(gè)度量;這個(gè)比值由運(yùn)用和不運(yùn)用這個(gè)模型所得來的結(jié)果計(jì)算而來。
II) 一個(gè)簡單的數(shù)字例子:
i. 比如說你要向選定的1000人郵寄調(diào)查問卷。以往的經(jīng)驗(yàn)告訴你大概20%的人會(huì)把填好的問卷寄回給你,即1000人中有200人會(huì)對(duì)你的問卷作出回應(yīng)(response),用統(tǒng)計(jì)學(xué)的術(shù)語,我們說baseline response rate是20%;
ii. 如果你現(xiàn)在就郵寄問卷,1000份你期望能收回200份,這可能達(dá)不到一次問卷調(diào)查所要求的回收率,比如說工作手冊(cè)規(guī)定郵寄問卷回收率要在25%以上;
iii. 通過以前的問卷調(diào)查,你收集了關(guān)于問卷采訪對(duì)象的相關(guān)資料,比如說年齡、教育程度之類。利用這些數(shù)據(jù),你確定了哪類被訪問者對(duì)問卷反應(yīng)積極。假設(shè)你已經(jīng)利用這些過去的數(shù)據(jù)建立了模型,這個(gè)模型把這1000人分了類,現(xiàn)在你可以從你的千人名單中挑選出反應(yīng)最積極的100人來,這10%的人的反應(yīng)率(response rate)為60%。那么,對(duì)這100人的群體(我們稱之為Top 10%),通過運(yùn)用我們的模型,相對(duì)的提升(gain or lift value)就為60%/20%=3;換句話說,與不運(yùn)用模型而隨機(jī)選擇相比,運(yùn)用模型而挑選有3倍的好處;
iv. 類似地,對(duì)占總樣本的任何比例的人群,我們都可以計(jì)算出相應(yīng)的提升指數(shù),比如說我們可以計(jì)算Top 20%的群體的提升指數(shù)。
III) 一個(gè)結(jié)論就是,提升指數(shù)越大,模型的運(yùn)行效果越好。
2. 建立Lift Table 的步驟(并畫出Lift Chart),以驗(yàn)證信用評(píng)分模型為例:
I) 利用已經(jīng)建立的評(píng)分模型,對(duì)我們要驗(yàn)證的樣本進(jìn)行評(píng)分。樣本下的每一個(gè)個(gè)體都將得到一個(gè)分?jǐn)?shù),或者是違約概率,或者是一個(gè)分值;
II) 對(duì)樣本按照上面計(jì)算好的分?jǐn)?shù)進(jìn)行降序排序;
III) 把已經(jīng)排好序的樣本依次分成10個(gè)數(shù)量相同的群體,我們就建立了一個(gè)叫decile的變量,它依次取10個(gè)值,1、2、3、4、5、6、7、8、9、10,diclie1包括違約概率值較高的10%的個(gè)體,diclie2包括下一個(gè)10%的群體,以此類推;
IV) 帳戶總數(shù)是每個(gè)decile下的樣本數(shù),它是整個(gè)樣本數(shù)的10%;
V) 邊際壞賬數(shù)是每個(gè)decile內(nèi)違約的人數(shù),就是說,利用我們的評(píng)分模型,在decile1,有25個(gè)人違約,以此類推;
VI) 累計(jì)壞賬數(shù),45表明前兩個(gè)decile內(nèi)共有45個(gè)人違約,以此類推;
VII) 邊際壞賬率是每個(gè)decile內(nèi)壞賬的比率。對(duì)decile1,邊際壞賬率由25/100得來;
VIII) 對(duì)每一個(gè)加總的decile,都計(jì)算一個(gè)累計(jì)壞賬率,比如說,對(duì)前兩個(gè)decile,也就是整個(gè)樣本的20%,累計(jì)壞賬率等于(25+20)/(100+100);
IX) 在每個(gè)decile里,提升指數(shù)(Lift)就是相應(yīng)的累計(jì)壞賬率與平均壞賬率的偏離程度,計(jì)算公式是(累計(jì)壞賬率-平均壞賬率)/平均壞賬率,習(xí)慣上還會(huì)乘上一個(gè)100。
X) 注:在一些處理中,提升指數(shù)直接由每個(gè)decile的累計(jì)壞賬率除以平均壞賬率得來,它們之間就相差1,一個(gè)是相對(duì)偏離,一個(gè)是偏離。
XI) 就我們考察的信用評(píng)分模型,它的目的就是盡可能把人群區(qū)別來開來,比如說“好”的顧客、 “壞”的顧客。提升指數(shù)越大,表明模型運(yùn)作效果越好。
表1:Lift Table

(注:該表內(nèi)數(shù)字純粹為了演示,沒有任何實(shí)際背景)