信用評(píng)分卡簡(jiǎn)介


背景
隨著金融科技初創(chuàng)企業(yè)的興起,過(guò)去 5 年中出現(xiàn)了許多新的消費(fèi)信貸機(jī)構(gòu),與傳統(tǒng)銀行展開(kāi)競(jìng)爭(zhēng)。他們通常瞄準(zhǔn)銀行認(rèn)為規(guī)模太小或因金融危機(jī)期間發(fā)生的后期損失而不得不削減貸款的細(xì)分市場(chǎng)。通俗的講就是消費(fèi)金融公司瞄準(zhǔn)了銀行的次貸市場(chǎng)。
這些新的消費(fèi)金融公司的主要競(jìng)爭(zhēng)優(yōu)勢(shì)之一是技術(shù),包括IT技術(shù)和機(jī)器學(xué)習(xí)建模技術(shù),AI人臉識(shí)別和語(yǔ)音識(shí)別技術(shù)。
大型銀行相對(duì)傳統(tǒng),保守,技術(shù)變革動(dòng)力小。銀行主要客戶是信用較好客戶,大力推動(dòng)的是信用卡來(lái)鼓勵(lì)用戶超前消費(fèi)。
例如,英國(guó)商業(yè)貸款機(jī)構(gòu) iwoca使用來(lái)自關(guān)聯(lián)公司賬戶、增值稅申報(bào)表甚至 ebay 或亞馬遜上的銷售交易的信息來(lái)確定新貸款。英國(guó)消費(fèi)貸款公司 lendable以在幾分鐘內(nèi)完成個(gè)人信用貸款,而不是傳統(tǒng)銀行需要幾天或幾周漫長(zhǎng)審批的時(shí)間。
英國(guó)商業(yè)貸款機(jī)構(gòu) iwoca和?lendable,國(guó)內(nèi)消費(fèi)金融公司例如招聯(lián),興業(yè)消金,借唄,微粒貸,拍拍貸都會(huì)使用類似下面的風(fēng)控系統(tǒng),實(shí)現(xiàn)對(duì)大部分客戶自動(dòng)化審批貸款。

憑借快速和自動(dòng)決策引擎,他們使用自動(dòng)和快速的信用風(fēng)險(xiǎn)模型來(lái)評(píng)估風(fēng)險(xiǎn)。
什么是信用評(píng)分卡

我們大多數(shù)人都熟悉信用評(píng)分的概念,這是一個(gè)代表個(gè)人信用度的數(shù)值。像銀行這樣的所有信貸機(jī)構(gòu)都有復(fù)雜的信用模型。這些模型會(huì)讀取用戶的各種信息,如工資、信用歷史記錄,年齡,性別和多頭借貸等因素,然后訓(xùn)練模型,最后通過(guò)復(fù)雜數(shù)學(xué)計(jì)算輸出客戶的信用評(píng)分。信用評(píng)分卡模型可以輸出用戶信用分或違約概率。
信用評(píng)分卡就是其中一種信用模型,它是最常見(jiàn)的信用模型之一。信用評(píng)分卡是基于邏輯回歸算法。它對(duì)大家來(lái)說(shuō)相對(duì)容易理解,而且它已經(jīng)存在了幾十年,因此開(kāi)發(fā)過(guò)程是標(biāo)準(zhǔn)的,廣為人知。
信用評(píng)分卡也有幾個(gè)子類模型,常見(jiàn)的有A,B,C卡。

但需要注意的是,不同機(jī)構(gòu)的分?jǐn)?shù)范圍可能不同,較低分?jǐn)?shù)的拒絕申請(qǐng)的截止點(diǎn)因貸款人而異,甚至可能在同一貸款人但不同產(chǎn)品中有所不同.
建立信用記分卡
目標(biāo)變量通常采用二進(jìn)制形式,根據(jù)數(shù)據(jù)的不同,可以為 0 表示好客戶(放貸客戶),可以為 1 表示違約客戶或逾期 90 天付款的客戶(拒絕放貸客戶)。
第 1 步:數(shù)據(jù)探索和清理
所有模型擬合中的必要步驟,但由于它不是特定于構(gòu)建信用評(píng)分卡模型,因此我們將跳過(guò)此部分。不要忘記將數(shù)據(jù)集也分成訓(xùn)練和測(cè)試數(shù)據(jù)集,即train和test數(shù)據(jù)集。
第 2 步:數(shù)據(jù)轉(zhuǎn)換——證據(jù)權(quán)重法
然后我們需要使用證據(jù)權(quán)重 (WoE) 方法轉(zhuǎn)換所有自變量(如年齡、收入等)。該方法根據(jù)每個(gè)組級(jí)別的好申請(qǐng)人與差申請(qǐng)人的比例,衡量分組區(qū)分好壞風(fēng)險(xiǎn)的“強(qiáng)度”,并試圖找到自變量與目標(biāo)變量之間的單調(diào)關(guān)系。

連續(xù)變量的轉(zhuǎn)換步驟:
將數(shù)據(jù)分成 bin,通常大約 10 個(gè),最多 20 個(gè)(bin箱數(shù)并非越多越好,也并非越少越好,根據(jù)數(shù)據(jù)集特征決定分箱數(shù)量)
計(jì)算好事件的百分比和壞事件的百分比
取自然對(duì)數(shù)計(jì)算WOE
用計(jì)算出的 WOE 值替換原始數(shù)據(jù)
如果自變量是分類變量,則跳過(guò)上面的 1,然后執(zhí)行其余步驟。
Python 中的示例:
在將您的數(shù)據(jù)放入箱子中,并對(duì)每個(gè)箱子的好壞計(jì)數(shù)進(jìn)行分組后,您的數(shù)據(jù)可能看起來(lái)類似于下面的方框。WoE 可以使用下面的代碼為每個(gè) bin 組計(jì)算。負(fù)值表示特定分組中不良申請(qǐng)人的比例高于良好申請(qǐng)人。

在轉(zhuǎn)換結(jié)束時(shí),如果您有 20 個(gè)自變量開(kāi)始,那么您現(xiàn)在將有 20 個(gè) WOE_variablename 列可用于下一步。
使用 WoE 轉(zhuǎn)換的好處:
它有助于與邏輯回歸中使用的對(duì)數(shù)幾率建立嚴(yán)格的線性關(guān)系
它可以處理缺失值,因?yàn)樗鼈兛梢院喜⒃谝黄?/p>
可以處理異常值或極值,因?yàn)樗鼈円脖环窒洌⑶逸斎肽P蛿M合的值是 WoE 轉(zhuǎn)換值而不是原始極值
它還處理分類值,因此不需要虛擬變量
第 3 步:使用信息值進(jìn)行特征選擇
Information Value (IV) 來(lái)自信息論,它衡量自變量的預(yù)測(cè)能力,這對(duì)特征選擇很有用。執(zhí)行特征選擇以確定是否有必要在模型中包含所有特征是一種很好的做法,大多數(shù)時(shí)候我們希望消除弱特征,因?yàn)橥ǔJ走x更簡(jiǎn)單的模型。
根據(jù) Siddiqi (2006),按照慣例,信用評(píng)分中 IV 統(tǒng)計(jì)量的值可以解釋如下

根據(jù)Toby老師多年建模經(jīng)驗(yàn),A卡中iv>0.5變量很少見(jiàn),但在B卡和C卡中,常出現(xiàn)iv值大于0.5變量,當(dāng)然我們也要審核這些強(qiáng)變量的合理性。
Python 中的示例:

繼續(xù)前面的示例,這里我們計(jì)算“年齡”的 IV 約為 0.15,這意味著年齡具有“中等預(yù)測(cè)能力”,因此我們將繼續(xù)進(jìn)行模型擬合。IV 分?jǐn)?shù)小于 0.02 的變量應(yīng)該被刪除。
備注:根據(jù)Toby老師多年建模經(jīng)驗(yàn)年齡變量在不同數(shù)據(jù)集會(huì)有不同iv值。在很多數(shù)據(jù)集年齡變量iv值非常低。這里只是舉例說(shuō)明,同學(xué)不要死記硬背。
第 4 步:模型擬合和解釋結(jié)果
現(xiàn)在我們使用我們新轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)集的 WoE 來(lái)擬合邏輯回歸模型。
將模型縮放為記分卡時(shí),我們需要模型擬合的邏輯回歸系數(shù)以及轉(zhuǎn)換后的 WoE 值。我們還需要將模型的分?jǐn)?shù)從對(duì)數(shù)賠率單位轉(zhuǎn)換為積分系統(tǒng)。
對(duì)于每個(gè)自變量Xi,其對(duì)應(yīng)的得分為:
Score_i= (βi × WoE_i + α/n) × Factor + Offset/n
其中:
βi — 變量 Xi 的邏輯回歸系數(shù)
α — 邏輯回歸截距
WoE — 變量 Xi 的證據(jù)權(quán)重
n — 模型中自變量 Xi 的數(shù)量
Factor,Offset — 稱為縮放參數(shù),其中
factor = pdo/ln(2)
Offset = Target Score — (Factor × ln(Target Odds))

對(duì)于上面的示例,我們選擇將目標(biāo)分?jǐn)?shù)設(shè)置為 600,這意味著好客戶與壞客戶的賠率是 50 比 1 ,而增加 20 意味著賠率翻倍。請(qǐng)注意,縮放比例的選擇不會(huì)影響記分卡的預(yù)測(cè)強(qiáng)度。
最終的總分是基于自變量輸入值的所有分?jǐn)?shù)的總和。然后,貸方將根據(jù)建模的總分和截止點(diǎn)(根據(jù)其他信用違約模型設(shè)置)評(píng)估收到的申請(qǐng)。
Total Score =?Σ Score_i

信用評(píng)分分卡簡(jiǎn)介就談到這里,實(shí)際上,信用評(píng)分卡模型細(xì)節(jié)非常多,由于篇幅有限,我只能簡(jiǎn)單概述。真實(shí)模型開(kāi)發(fā)并非線性,而是一個(gè)復(fù)雜迭代過(guò)程。

如果大家對(duì)信用評(píng)分卡各種細(xì)節(jié)感興趣,歡迎大家收藏《python信用評(píng)分卡建模(附代碼)》,滿足你對(duì)信用評(píng)分卡所有好奇和疑問(wèn)。

如果有更高需求朋友,例如研究生,博士生論文,企業(yè)建模一對(duì)一定制需求,請(qǐng)給up主留言。

版權(quán)聲明:文章來(lái)自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。