金融現(xiàn)金貸用戶數(shù)據(jù)分析和用戶畫(huà)像(12萬(wàn)真實(shí)數(shù)據(jù))
在全球數(shù)字經(jīng)濟(jì)時(shí)代,有一種金融優(yōu)勢(shì),那就是基于消費(fèi)者大數(shù)據(jù)的純信用!

我們不妨稱之為數(shù)據(jù)信用,它比抵押更靠譜,它比擔(dān)保更保險(xiǎn),它是一種面向未來(lái)的財(cái)產(chǎn)權(quán),它是數(shù)字貨幣背后核心的抵押資產(chǎn),它決定了數(shù)字貨幣時(shí)代信用創(chuàng)造的方向、速度和規(guī)模。數(shù)據(jù)信用判斷依靠的就是金融風(fēng)控模型。
現(xiàn)金貸用戶如何畫(huà)像?如何挖掘客戶收入,工作,住房等各個(gè)維度信息?變量相關(guān)性分析還在濫用皮爾森方法嗎?我們能用數(shù)據(jù)分析挖掘出美國(guó)潛在金融危機(jī)嗎?
?
歡迎各位同學(xué)學(xué)習(xí)
金融現(xiàn)金貸用戶數(shù)據(jù)分析和用戶畫(huà)像? 博主錄制
騰訊課堂報(bào)名入口
https://ke.qq.com/course/3063784?tuin=dcbf0ba
網(wǎng)易云課堂報(bào)名入口
https://study.163.com/course/courseMain.htm?courseId=1210377993&share=2&shareId=400000000398149

課程概述
此課程用python代碼對(duì)LendingClub平臺(tái)貸款數(shù)據(jù)分析和用戶畫(huà)像,針對(duì)銀行,消費(fèi)金融,現(xiàn)金貸等場(chǎng)景,教會(huì)學(xué)員用python實(shí)現(xiàn)金融信貸申請(qǐng)用戶數(shù)據(jù)分析。項(xiàng)目采用lendingClub 12萬(wàn)多條真實(shí)信貸數(shù)據(jù),包括用戶年收入,貸款總額,分期金額,分期數(shù)量,職稱,住房情況等幾十個(gè)維度。通過(guò)課程學(xué)習(xí),我們發(fā)現(xiàn)2019年四季度時(shí)候,美國(guó)多頭借貸情況非常嚴(yán)重,為全球系統(tǒng)性金融危機(jī)埋下種子。
?
課程目的
教會(huì)學(xué)員用python編程實(shí)現(xiàn)金融信貸申請(qǐng)用戶數(shù)據(jù)分析和畫(huà)像
?
實(shí)用人群
銀行,消費(fèi)金融,小額貸,現(xiàn)金貸等線上貸款場(chǎng)景的風(fēng)控建模相關(guān)工作人員,貸前審批模型人員;大學(xué)生fintech建模競(jìng)賽,論文,專利。
?
學(xué)習(xí)計(jì)劃和方法
?
1.每天保證1-2個(gè)小時(shí)學(xué)習(xí)時(shí)間,預(yù)計(jì)7-14天可以學(xué)習(xí)完整門課程。
2.每節(jié)課的代碼實(shí)操要保證,建議不要直接復(fù)制粘貼代碼,自己實(shí)操一遍代碼對(duì)大腦記憶很重要,有利于鞏固知識(shí)。
3.第二次學(xué)習(xí)時(shí)要總結(jié)上一節(jié)課內(nèi)容,必要時(shí)做好筆記,加深大腦理解。
4.不懂問(wèn)題要羅列出來(lái),先自己上網(wǎng)查詢,查不到的可以咨詢老師。
課程目錄
章節(jié)1python編程環(huán)境搭建
課時(shí)1.金融現(xiàn)金貸用戶數(shù)據(jù)分析和畫(huà)像_介紹視頻
課時(shí)2.Anaconda快速入門指南
課時(shí)3.Anaconda下載安裝
課時(shí)4.python第三方包安裝(pip和conda install)
章節(jié)2金融現(xiàn)金貸用戶數(shù)據(jù)分析和畫(huà)像
課時(shí)5.描述性統(tǒng)計(jì)-知己知彼百戰(zhàn)百勝
課時(shí)6.好壞客戶占比嚴(yán)重失衡
課時(shí)7不要用相關(guān)性分析殺人
課時(shí)8變量相關(guān)性分析-你不知道的秘密
課時(shí)9貸款金額和趨勢(shì)分析-2018年Q4信貸略有縮緊
課時(shí)10產(chǎn)品周期分析-看來(lái)lendingClub是短周期借貸平臺(tái)
課時(shí)11用戶工齡分析-10年工齡用戶最多
課時(shí)12年收入分析-很多美國(guó)人年薪5萬(wàn)美金左右
課時(shí)13住房情況與貸款等級(jí)-原來(lái)美國(guó)大部分都是房奴
課時(shí)14貸款人收入水平_貸款等級(jí)_收入核實(shí)多因子分析
課時(shí)15貸款用途-美國(guó)金融危機(jī)浮出水面
?
課程部分內(nèi)容展示
Lending Club公司背景
Lending Club 創(chuàng)立于2006年,主營(yíng)業(yè)務(wù)是為市場(chǎng)提供P2P貸款的平臺(tái)中介服務(wù),公司總部位于舊金山。
公司在運(yùn)營(yíng)初期僅提供個(gè)人貸款服務(wù),至2012年平臺(tái)貸款總額達(dá)10億美元規(guī)模。
2014年12月,Lending Club在紐交所上市,成為當(dāng)年最大的科技股IPO。
2014年后公司開(kāi)始為小企業(yè)提供商業(yè)貸款服務(wù)。
2015年全年Lending Club平臺(tái)新設(shè)貸款金額達(dá)到了83.6億美元。
2016年上半年Lending club爆出違規(guī)放貸丑聞,創(chuàng)始人離職,股價(jià)持續(xù)下跌,全年虧損額達(dá)1.46億美元。
2019-2020年公司業(yè)務(wù)被迫轉(zhuǎn)型,可能和美國(guó)高負(fù)債率,用戶違約率上升有關(guān)。
作為P2P界的鼻祖,Lending club跌宕起伏的發(fā)展歷史還是挺吸引人的。
此處介紹一下什么是P2P。概括起來(lái)可以這樣理解,“所有不涉及傳統(tǒng)銀行做媒介的信貸行為都是P2P”。簡(jiǎn)單點(diǎn)來(lái)說(shuō),P2P公司不會(huì)出借自有資金,而是充當(dāng)“中間人”的角色,連接借款人與出借人需求。
借款人高興的是拿到了貸款,而且過(guò)程快速便利,免遭傳統(tǒng)銀行手續(xù)眾多的折磨;出借人高興的是借出資金的投資回報(bào)遠(yuǎn)高于存款利率;那么中間人高興的是用服務(wù)換到了流水(拿的便是事成之后的抽成) 最后實(shí)現(xiàn)三贏。
P2P初衷是好的,但隨著諸多平臺(tái)建立蓄水池,違規(guī)操作和房貸,造成幾十萬(wàn)人被騙。2018-2019年國(guó)內(nèi)對(duì)P2P監(jiān)管越來(lái)越嚴(yán),到了2020年,P2P基本清退。只有持牌照的公司才能放貸。
貸款標(biāo)準(zhǔn)
借款人提交申請(qǐng)后,Lending Club 會(huì)根據(jù)貸款標(biāo)準(zhǔn)進(jìn)行初步審查。貸款人需要滿足以下標(biāo)準(zhǔn)才能借款:
1.FICO 分?jǐn)?shù)在660 分以上

FICO分?jǐn)?shù)等級(jí)劃分
2.債務(wù)收入比例低于40%
3.信用報(bào)告反應(yīng)以下情況:至少有兩個(gè)循環(huán)賬戶正在使用,最近6 個(gè)月不超過(guò)5 次被調(diào)查,至少36 個(gè)月的信用記錄
貸款等級(jí)grade
貸款分為A、B、C、D、E、F、G 7 個(gè)等級(jí),每個(gè)等級(jí)又包含了1、2、3、4、5 五個(gè)子級(jí)。
二、目的
研究影響貸款等級(jí)的相關(guān)因素,并探尋潛藏在數(shù)據(jù)背后的一些規(guī)律
三、數(shù)據(jù)集獲取
選取2018年第四季度數(shù)據(jù)集以及特征變量的說(shuō)明文檔。

官網(wǎng)上下載數(shù)據(jù)集

已翻譯的特征說(shuō)明文檔
說(shuō)明:部分重要的特征變量似乎缺失,多次下載的數(shù)據(jù)集中缺少fico分?jǐn)?shù)、fico_range_low、fico_range_high等與fico相關(guān)的特征,所以在形成結(jié)論進(jìn)行總結(jié)的時(shí)候,這些特征的結(jié)論將從相關(guān)的報(bào)告中獲取。
四、數(shù)據(jù)處理
在對(duì)數(shù)據(jù)進(jìn)行處理前,我們需要對(duì)數(shù)據(jù)有一個(gè)整體的認(rèn)識(shí)

從上述的信息中可以看出:
1.128412行數(shù)據(jù),23個(gè)特征變量(抽選比較重要的變量,原始變量有110多個(gè))
2.13個(gè)特征變量中有86個(gè)是浮點(diǎn)數(shù)類型,5個(gè)是Object對(duì)象。
調(diào)用data.describe()函數(shù)對(duì)數(shù)據(jù)描述性統(tǒng)計(jì),觀察各個(gè)變量的計(jì)數(shù),平均值,標(biāo)準(zhǔn)差,最大值,最小值,1/4位數(shù)和3/4位數(shù)值,并觀察一下異常值。

。

Object基類對(duì)象的數(shù)據(jù)分布情況
從圖表中可以得到部分信息:
1.貸款共7個(gè)等級(jí),占比最多的是B級(jí)
2.還款的形式有兩種,占比最多的是36個(gè)月
3.貸款人中大多數(shù)人工齡10+年
4.貸款人的房屋狀況大多是抵押貸款
5.大多數(shù)人貸款的目的是債務(wù)整合
6.id與desc特征的數(shù)據(jù)缺失率高達(dá)0.99,間接表明這兩個(gè)特征可以刪除掉。
同樣可以按照這種方式對(duì)浮點(diǎn)型的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)覽,得到均值、標(biāo)準(zhǔn)差、四分位數(shù)以及數(shù)據(jù)的缺失比重等信息。
我們調(diào)用hist函數(shù)可以對(duì)數(shù)據(jù)的所有維度繪制直方圖,一目了然觀察所有變量數(shù)據(jù)分布。

第四季度貸款等級(jí)變化趨勢(shì)
首先我們來(lái)看一下2018年第四季度業(yè)務(wù)開(kāi)展情況,主要是放款筆數(shù),金額,期限等情況。第四季度放款筆數(shù)和放款金額略有下降,業(yè)務(wù)上是有意義的,年底壞賬率會(huì)上升,平臺(tái)會(huì)收緊。特別是在國(guó)內(nèi),年底收緊幅度比較大。
?

貸款金額分析:
通過(guò)seaborn,scipy,pandas三個(gè)包,我們繪制了一個(gè)正太分布圖,觀察lendingClub平臺(tái)給個(gè)人貸款金額大多在1萬(wàn)-2萬(wàn)美金,較高金額的貸款數(shù)量較少,此平臺(tái)主要是小額貸為主。

貸款周期占比

通過(guò)繪制餅狀圖,我們得到lendingClub平臺(tái)貸款周期分為36個(gè)月與60個(gè)月,主要以36個(gè)月為主,60個(gè)月的比重31%左右。在p2p平臺(tái)上以短期貸款為主,長(zhǎng)期貸款也有,利率較高,但周期較長(zhǎng)。借出人收獲利息,承擔(dān)風(fēng)險(xiǎn),而借入人到期要償還本金。貸款周期越長(zhǎng),對(duì)借出人來(lái)說(shuō)風(fēng)險(xiǎn)越高。
在國(guó)內(nèi)的環(huán)境下,借出人不僅要承擔(dān)推遲還款的風(fēng)險(xiǎn),還要擔(dān)心平臺(tái)跑路、本息全無(wú)的高風(fēng)險(xiǎn);對(duì)借入人來(lái)說(shuō),因?yàn)閲?guó)內(nèi)缺少健全的征信體系,借款方違約及重復(fù)違約成本低。
對(duì)國(guó)內(nèi)的情況不再多說(shuō),話題繞回來(lái)。國(guó)外的部分國(guó)家已有健全的征信體系,一旦違約還款,違約率不斷上漲,個(gè)人征信也會(huì)保留記錄,對(duì)后序的貸款、買房有很大的影響。所以如果貸款周期較長(zhǎng),且如果沒(méi)有固定的工作和固定的收入的話(即使有未定收入也不一定如期償還),償還本金充滿變數(shù),很有可能違約。
?
接下來(lái)我們?cè)僭囍鴮?duì)貸款人進(jìn)行分析,形成一下用戶畫(huà)像吧。
貸款人工齡分布圖

從圖中可以看出,貸款人中工齡為10年以上頻率最多。那么,我們可以考慮一下,為什么工齡超過(guò)10年的人有貸款需求呢?且占比這么高?
那么可以猜測(cè)一下(個(gè)人意見(jiàn)),首先可能是工齡越長(zhǎng),貸款通過(guò)率越高(篩選后占比較高),這可能和lendingClub貸前審批策略有關(guān)。
貸款人收入水平

通過(guò)上圖發(fā)現(xiàn),美國(guó)貸款人收入水平中年收入在0-5萬(wàn)美元的占比最高,30.53%左右。其次是5萬(wàn)-10萬(wàn)區(qū)間,11萬(wàn)-30萬(wàn)年收入?yún)^(qū)間占比逐步變小。得到這張圖并不容易,是對(duì)數(shù)據(jù)進(jìn)行深度清洗后得到的。特別是調(diào)用了pandas的cut函數(shù),對(duì)收入變量進(jìn)行分箱處理。

貸款人年收入,貸款等級(jí),收入驗(yàn)證多因子分析

lending club會(huì)對(duì)客戶收入進(jìn)行驗(yàn)證,這非常值得國(guó)內(nèi)平臺(tái)學(xué)習(xí)。貸款人的收入水平信息分為三種情況:已經(jīng)過(guò)LC驗(yàn)證,收入來(lái)源已驗(yàn)證,未驗(yàn)證。這三種情況目前從圖中看出LC驗(yàn)證,收入來(lái)源已驗(yàn)證,未驗(yàn)證的收入數(shù)據(jù)還是有顯著區(qū)別。另外貸款等級(jí)與收入水平在整體上呈正相關(guān)的趨勢(shì)。上圖由seaborn的的factorplot函數(shù)生成。factorplot函數(shù)是用于多因子分析的,非常實(shí)用。
?
借款人住房狀況分布圖

一半用戶房屋狀態(tài)是抵押貸款,只有10%用戶擁有完全的產(chǎn)權(quán)??磥?lái)美國(guó)房奴大軍不小呀!接著用pandas的stack和unstack函數(shù)對(duì)grade和home_ownship兩個(gè)等級(jí)變量做數(shù)據(jù)深度清洗,然后繪制下圖。通過(guò)觀察貸款等級(jí)越高用戶按揭占比越高,租房占比越低,反之亦然。自有住房占比每個(gè)等級(jí)略有不同。

貸款用途分布

上圖中debt_consolidation(可以理解為債務(wù)整合,借新還舊)占比最高,占比第二高的credit_card也歸屬為同一類。不同平臺(tái)新債還舊債屬于多頭借貸行為,多頭借貸會(huì)提升用戶負(fù)債率,而負(fù)債率會(huì)引發(fā)經(jīng)濟(jì)系統(tǒng)性危機(jī)。經(jīng)濟(jì)危機(jī)會(huì)進(jìn)一步提高社會(huì)基尼系數(shù),引發(fā)社會(huì)動(dòng)蕩。多頭借貸是一個(gè)非常敏感的指標(biāo),無(wú)論公司還是地方政府都應(yīng)該監(jiān)控此指標(biāo)。
從歷史經(jīng)驗(yàn)看,舉債發(fā)展導(dǎo)致住戶部門高杠桿和過(guò)快的債務(wù)增速,與債務(wù)危機(jī)顯著相關(guān)。如日本平成大蕭條,韓國(guó)信用卡危機(jī),美國(guó)次貸危機(jī),均是居民負(fù)責(zé)短期內(nèi)快速上漲,導(dǎo)致收入,儲(chǔ)蓄及資產(chǎn)價(jià)值無(wú)法償付債務(wù),從而造成金融系統(tǒng)系風(fēng)險(xiǎn)。

美國(guó)上個(gè)世紀(jì)開(kāi)始就提倡超前消費(fèi)觀念刺激經(jīng)濟(jì),傳統(tǒng)儲(chǔ)蓄觀念備受冷漠。但人有不愿意還錢傾向,債務(wù)越高,金融危機(jī)風(fēng)險(xiǎn)越大。2019年美國(guó)債務(wù)占GDP比重已經(jīng)高到106%,也就是說(shuō)美國(guó)創(chuàng)造的社會(huì)財(cái)富還不夠還債。1970年時(shí),債務(wù)只占GDP38%左右,由此可見(jiàn)華爾街貪欲程度,可以用too much, never enough來(lái)形容。很巧的是,我們?cè)趌ending club數(shù)據(jù)分析時(shí)就發(fā)現(xiàn)了這貓膩,發(fā)現(xiàn)大多借款人借款目的就是新債換舊債。無(wú)論新冠狀病毒是否爆發(fā),美國(guó)金融體系已經(jīng)存在嚴(yán)重系統(tǒng)風(fēng)險(xiǎn),而且其他國(guó)家也存在類似問(wèn)題,只是負(fù)債程度不一樣。

專業(yè)人士預(yù)測(cè)到2025年,美國(guó)負(fù)債占GDP比重可能達(dá)到140%,負(fù)債呈現(xiàn)逐年上升趨勢(shì)。

居民負(fù)債率上升,富人卻通過(guò)房貸和貨幣寬松政策獲利,從而導(dǎo)致社會(huì)基尼系數(shù)不斷上升,社會(huì)貧富差距拉大,最后導(dǎo)致社會(huì)動(dòng)蕩和戰(zhàn)爭(zhēng)。下圖是幾年前全球基尼系數(shù),可以看到美國(guó)基尼系數(shù)在40-50,實(shí)際數(shù)據(jù)可能更大。
貸款目的與人均收入水平

綜合收入水平與貸款用途得到上圖,我們可以發(fā)現(xiàn)在第四季度中,人均收入水平較高的人群貸款用于小生意,家庭生活改善,房子等。而貸款為了債務(wù)整合(占比最高)的人群的人均收入水平在整體的中下。收入最低的一般用于醫(yī)療開(kāi)支或車輛相關(guān)。這也間接證明了多頭借貸的收入會(huì)越來(lái)越低,陷入貧困陷阱。
?
變量相關(guān)性分析:
數(shù)據(jù)分析和畫(huà)像后,我們可以用上述變量建模。建模型并非所有變量都使用,需要做變量篩選工作。變量相關(guān)性分析就是最基礎(chǔ)的變量篩選步驟。我們用seaborn的heatmap函數(shù)繪制出下圖變量相關(guān)性熱力圖后,我們發(fā)現(xiàn)部分變量呈現(xiàn)0.9高相關(guān)性

除了python,excel也可以繪制變量相關(guān)性熱力圖,下圖由excel生成。

變量相關(guān)性取值從0-1,值越接近0,兩個(gè)變量相關(guān)性越低;值越接近1,兩個(gè)變量相關(guān)性越高。下圖是變量相關(guān)性數(shù)據(jù)分布。

?
?市場(chǎng)借貸是可能存在歧視或不公平借貸行為的場(chǎng)所。我們研究了從1935年至40年的Redlining與當(dāng)今的對(duì)等2人同行貸款格局之間的空間相關(guān)性。
紅色-1930年代主要的Redlining城市| 綠色— 2012年Lending Club最高的貸款申請(qǐng)被拒絕| 洋紅色-Lending Club在2012年的最高利率
問(wèn)題表述
作為平等住房貸款人,對(duì)等2人貸款市場(chǎng)應(yīng)該
篩選貸款申請(qǐng),“不考慮種族,膚色,宗教,國(guó)籍,性別,殘障或家庭地位”。系統(tǒng)地拒絕使用特定郵政編碼的貸款可能會(huì)傷害少數(shù)群體申請(qǐng)人。這是一個(gè)名為做法圈閱1935年-1940之間,當(dāng)購(gòu)房者貸款公司或‘HOLC’創(chuàng)建的地圖,在近250個(gè)美國(guó)城市的顏色編碼信用和風(fēng)險(xiǎn)在附近的水平。這些地圖最近已被數(shù)字化,可以在MAPPING
INEQUALITY上查看。盡管有聯(lián)邦《公平住房法》,現(xiàn)代的Redlining最近在美國(guó)61個(gè)城市中被曝光。另一項(xiàng)調(diào)查確定了幾家銀行,這些銀行顯然從其客戶的投資組合中排除了少數(shù)群體。
我們使用Python,Pandas,Jupyter
Notebook和Geopandas庫(kù)來(lái)可視化Lending
Club(世界上最大的P2P借貸平臺(tái))的2400萬(wàn)筆貸款申請(qǐng)。目的是調(diào)查郵政編碼在1930年代“紅線”的申請(qǐng)人是否更可能被當(dāng)今的市場(chǎng)拒絕。如果不是,我們將核實(shí)此類貸款申請(qǐng)人的違約率是否更高。從2006年至2007年至今,我們還希望探討這些關(guān)系在Lending
Club整個(gè)生命周期中如何演變。
整理數(shù)據(jù)收集
該映射不等式的網(wǎng)站提供了一個(gè)選項(xiàng),以下載shapfiles這是“美國(guó)所有城市的紅線”,在20世紀(jì)30年代回來(lái)。shapefile包含描述每個(gè)城市中的鄰域(區(qū)域)的多邊形的經(jīng)緯度坐標(biāo),這些多邊形由HOLC界定。
?

圖1
每行代表一個(gè)具有以下特征的多邊形(區(qū)域):
州:美國(guó)州,
城市:美國(guó)城市,
looplat,looplng:多邊形的起始坐標(biāo),
名稱:地區(qū)名稱,
holc_id:區(qū)域nr,
holc_grade:HOLC(安全)等級(jí),
area_descr:區(qū)域描述,
geometry:構(gòu)建多邊形的所有坐標(biāo)的集合。
該HOLC等級(jí)描述了被分配到20世紀(jì)30年代的區(qū)域回信用,如下所示:
A-最佳
B-仍可取
C-絕對(duì)下降
D-危險(xiǎn)
我們清除那些HOLC等級(jí)無(wú)效的多邊形。
?
紅線功能工程
在深入分析之前,我們不但要查看HOLC分配的等級(jí)分布,不僅要在每個(gè)郵政編碼內(nèi),還要在州一級(jí)。這就需要對(duì)1930年代每個(gè)地區(qū)的人口進(jìn)行估算。天真的方法是使用每個(gè)HOLC等級(jí)的區(qū)域計(jì)數(shù)。由于相應(yīng)多邊形的大小相差很大,因此我們可能無(wú)法完全了解總體大小。因此,我們選擇使用區(qū)域面積(以km2為單位)作為基準(zhǔn)單位。
我們首先以平方公里為單位計(jì)算每個(gè)區(qū)域的面積及其地理中心(“質(zhì)心”)。
?

圖2
現(xiàn)在,我們將使用其質(zhì)心的坐標(biāo)添加每個(gè)區(qū)域的郵政編碼。為此,我們依靠免費(fèi)的Python庫(kù)uszipcode,該庫(kù)使用其自己的最新地理編碼數(shù)據(jù)數(shù)據(jù)庫(kù)對(duì)每100個(gè)區(qū)域進(jìn)行地理解碼。

圖3
計(jì)算每個(gè)郵政編碼的總紅線區(qū)域現(xiàn)在很簡(jiǎn)單。
?

圖4
現(xiàn)在,我們可以計(jì)算每個(gè)州的總紅線面積。
?
圖5
使用先前的計(jì)算,我們可以獲得每個(gè)州內(nèi)HOLC等級(jí)的百分比分布。

圖6
我們還可以為每個(gè)郵政編碼計(jì)算相似的值。

圖7
稍后我們將看到,一些有趣的可視化要求我們將等級(jí)值轉(zhuǎn)換為特征。這使我們能夠計(jì)算每個(gè)區(qū)域內(nèi)A,B,C和D子區(qū)域的面積比,如下所示。考慮到?jīng)]有HOLC區(qū)域的郵政編碼,我們用零填充缺失的比率值。
?這些比率有助于我們估算所謂的HOLC拒絕比率,該比率定義為1930年代由于Redlining而在郵政編碼內(nèi)被拒絕的貸款申請(qǐng)的百分比。假設(shè)A區(qū)申請(qǐng)人的比例為0%,C區(qū)和D區(qū)申請(qǐng)人的比例為100%,B區(qū)申請(qǐng)人的比例為90%。我們?yōu)锽區(qū)選擇90%,因?yàn)樗咏墨I(xiàn)中發(fā)現(xiàn)的平均拒絕率

圖8
紅線探索
下面的條形圖顯示,HOLC認(rèn)為的大多數(shù)區(qū)域在1930年代被列為危險(xiǎn)或絕對(duì)下降。

圖9
HOLC涂紅線的區(qū)域通常不是很大,小于5 km2。我們注意到很少有離群點(diǎn),其表面達(dá)到以下180 km2。


圖10
根據(jù)HOLC在1930年代分類,AL(阿拉巴馬州)和KS(堪薩斯州)的危險(xiǎn)區(qū)最大。NH(新罕布什爾州)和IN(印第安納州)州的區(qū)域大部分被分類為“絕對(duì)下降”。

貸款特征工程
在瀏覽Redlining數(shù)據(jù)之后,現(xiàn)在讓我們看一下今天的貸款。從Lending Club網(wǎng)站下載了2007年第一季度至2018年第二季度之間收到的所有貸款申請(qǐng)。合并和整理的數(shù)據(jù)由此處引用的項(xiàng)目的作者提供給我們。

圖12
每個(gè)貸款申請(qǐng)都由以下功能描述:
issue_d:收到申請(qǐng)的日期。
郵政編碼:申請(qǐng)人(借款人)的郵政編碼的3位數(shù)字。Lending Club不會(huì)出于隱私考慮而發(fā)布完整的郵政編碼。
被拒絕:如果申請(qǐng)被Lending Club拒絕,則標(biāo)記值為1,否則為0。
等級(jí):表示利率的類別(僅適用于未拒絕的申請(qǐng))。
“基于每筆貸款申請(qǐng)和信用報(bào)告,每筆貸款都被分配了從A到G的等級(jí)以及相應(yīng)的利率?!?每個(gè)貸款等級(jí)及其相應(yīng)的當(dāng)前利率都顯示在Lending Club網(wǎng)站上。
探索大型時(shí)間序列的一種常用方法是根據(jù)較大的時(shí)間單位(例如季度)匯總感興趣的特征。Lending Club數(shù)據(jù)的問(wèn)題是issue_d的格式,許多行的格式為YYYY-MM-DD,但是我們也可以找到格式為b-YYYY的日期。例如,我們看到帶有2007–05–26和2011年12月的行。將日期轉(zhuǎn)換為季度時(shí),希望以不同的方式處理每種格式。
具體來(lái)說(shuō),我們將數(shù)據(jù)分為兩組,每種日期格式一組。


圖14
現(xiàn)在,我們可以合并兩個(gè)數(shù)據(jù)集。
我們進(jìn)一步使用該數(shù)據(jù)計(jì)算Lending Club貸款拒絕率,該比率定義為每個(gè)季度每個(gè)郵政編碼拒絕的貸款申請(qǐng)的百分比。

圖15
上面的摘要表為每個(gè)季度和郵政編碼提供了以下數(shù)量:
lc_total_requested:收到的貸款申請(qǐng)數(shù)量,
lc_total_rejected:拒絕貸款申請(qǐng)的數(shù)量,
lc_total_accepted:已接受貸款申請(qǐng)的數(shù)量,
lc_reject_ratio:lc_total_rejected與lc_total_requested的比率。
同樣,我們計(jì)算Lending Club貸款等級(jí)比率(每個(gè)郵政編碼和季度具有特定利率的貸款百分比)。

圖16
例如,LC_A_accepted是已接受并分配了利率A的申請(qǐng)數(shù)。LC_A_ratio是相應(yīng)的百分比率。
貸款和紅線數(shù)據(jù)合并
現(xiàn)在,我們準(zhǔn)備合并貸款和Redlining數(shù)據(jù),使我們可以嘗試不同的可視化效果,并在研究2007-2018年的貸款與Redlining時(shí)提出有趣的問(wèn)題。
由于Lending Club僅從申請(qǐng)人的郵政編碼中披露了五分之三的數(shù)字,因此我們將必須匯總數(shù)據(jù)并根據(jù)123xx郵政編碼模式進(jìn)行合并。

圖17
上表顯示了1930年代以123xx郵政編碼模式表示的區(qū)域中按HOLC排序的A,B,C或D區(qū)域的總面積(km2),其中123是Lending公開(kāi)的郵政編碼數(shù)字的代表數(shù)字俱樂(lè)部。還提供了每個(gè)HOLC等級(jí)的總面積比以及HOLC的總拒收率。
繼續(xù)這個(gè)聚合的Redlining數(shù)據(jù)集,我們現(xiàn)在將添加貸款數(shù)據(jù)。對(duì)于缺少貸款數(shù)據(jù)或Redlining數(shù)據(jù)的123xx地區(qū),空比率被0代替。

圖18
結(jié)果
查看下面的線圖,我們可以看到,與1930年代相比,Lending Club似乎平均拒絕接受更多的貸款。我們可以預(yù)期,廢品率在未來(lái)還會(huì)進(jìn)一步增加。

圖19
下面的散點(diǎn)圖顯示Lending Club的貸款拒絕率與HOLC之間存在正相關(guān)。這提出了以下假設(shè):1930年代HOLC拒絕最多或幾乎所有貸款的區(qū)域與Lending Club今天可能拒絕很多貸款的區(qū)域相同。

圖20
如下圖所示,Lending Club的拒絕率分布似乎是在大面積區(qū)域復(fù)制HOLC拒絕率分布,這些地區(qū)在1930年代被劃分為“危險(xiǎn)”或“明顯下降”。

圖21
查看下面的熱圖,HOLC和Lending Club功能之間的相關(guān)性非常弱。通常,這可能意味著了解某個(gè)地區(qū)的HOLC等級(jí)并不能幫助我們自信地預(yù)測(cè)Lending Club的貸款拒絕或貸款利率。

Figure 22
以下分布圖表明,在紅線區(qū)域中幾乎沒(méi)有Lending Club申請(qǐng)人的最低利率(A)。大多數(shù)申請(qǐng)人獲得中等利率(B,C或D)。只有極少數(shù)的申請(qǐng)人需要處理非常高的利率(E,F(xiàn)或G)。這種分布表明,借貸俱樂(lè)部可能不會(huì)考慮圈閱獲得貸款撇賬的風(fēng)險(xiǎn)時(shí)。

圖23
結(jié)論1
我們的研究提供了Lending Club進(jìn)行現(xiàn)代Redlining的一些證據(jù)。假設(shè)1930年的紅線圖和當(dāng)今的Lending Club接受貸款請(qǐng)求和評(píng)估違約風(fēng)險(xiǎn)的政策之間存在內(nèi)在聯(lián)系,這一假設(shè)仍然有效。
Lending Club使用的數(shù)據(jù)有一些不公平的算法或歷史偏見(jiàn)的跡象。從我們的探索性數(shù)據(jù)分析,尤其是HOLC拒絕率和Lending Club拒絕率之間的正線性趨勢(shì)來(lái)看,這是顯而易見(jiàn)的。
?
之前,我們通過(guò)將當(dāng)今的貸款申請(qǐng)與舊的Redlining郵政編碼進(jìn)行交叉關(guān)聯(lián),研究了Redlining地圖與當(dāng)今信用狀況之間的相關(guān)性。在對(duì)等2對(duì)等借貸市場(chǎng)中,我們發(fā)現(xiàn)了一些算法不公平或歷史偏見(jiàn)的跡象。尤其是,我們對(duì)80年前被分類為危險(xiǎn)或絕對(duì)下降的相同Redlining地區(qū)的貸款申請(qǐng)拒絕率與今天的拒絕率之間呈正線性趨勢(shì)感到驚訝。
1930年在美國(guó)的Redlining為近一個(gè)世紀(jì)的房地產(chǎn)實(shí)踐制定了規(guī)則,種族不平等深深地影響著城市,以至于我們今天都感受到了他們的遺產(chǎn)。
早在20世紀(jì)30年代,日ē購(gòu)房者貸款公司或‘HOLC’創(chuàng)建地圖,彩色編碼的信用并使用以下等級(jí)在近250個(gè)美國(guó)城市在附近的風(fēng)險(xiǎn)水平:
A-最佳
B-仍可取
C-絕對(duì)下降
D-危險(xiǎn)
之前,我們從MAPPING INEQUALITY網(wǎng)站下載了相應(yīng)的Redlining?shapefile,并計(jì)算了每個(gè)HOLC路基的表面分布(比)。

我們還使用LendingClub網(wǎng)站(最大的對(duì)等2對(duì)等貸款市場(chǎng))上的2,400萬(wàn)筆貸款申請(qǐng),以估算每個(gè)季度每個(gè)郵政編碼的平均貸款申請(qǐng)拒絕率。
?

在LendingClub,每筆貸款都被指定從A到G的等級(jí)以及相應(yīng)的利率。我們計(jì)算了各個(gè)郵政編碼之間的成績(jī)分布。

在我們的故事的第二部分中,我們想在美國(guó)的地理地圖上可視化Redlining區(qū)域,貸款拒絕率和貸款利率分布。
基線圖
我們的可視化效果被構(gòu)建為多層地圖,并以美國(guó)等高線圖為背景。相應(yīng)的制圖邊界shapefile可從人口普查局獲得。

由于我們希望將最終地圖限制在美國(guó)本土,而不是夏威夷群島以及太平洋或加勒比海的美國(guó)島嶼領(lǐng)地,因此我們將這些州排除在外。
Redlining熱點(diǎn)地圖
我們地圖的下一層應(yīng)顯示1930年代的Redlining熱點(diǎn)。
因?yàn)槲覀冊(cè)诘?部分中對(duì)每個(gè)郵政編碼的Redlining數(shù)據(jù)進(jìn)行了匯總,所以我們需要使用美國(guó)郵政編碼的制圖邊界shapfile。該文件可從人口普查局網(wǎng)站下載。
?為了能夠?qū)⒚绹?guó)郵政編碼多邊形與Redlining摘要數(shù)據(jù)連接在一起,我們創(chuàng)建了一個(gè)新列,其中包含123xx郵政編碼模式。
我們使用免費(fèi)的Python庫(kù)uszipcode添加州和縣信息。

圖1
接下來(lái),我們將Redlining數(shù)據(jù)與郵政編碼多邊形合并。
我們將多邊形限制在美國(guó)本土。
我們通過(guò)在沒(méi)有HOLC?Redlining區(qū)域的情況下為郵政編碼填充零來(lái)處理丟失的數(shù)據(jù)。

圖2
現(xiàn)在,我們準(zhǔn)備使用Geopandas創(chuàng)建我們的第一張地圖。下圖顯示了具有兩層的地圖:
美國(guó)基線圖為淺藍(lán)色,
該紅線在紅色區(qū)。

圖2
為了更好地查看Redlining區(qū)域并區(qū)分危險(xiǎn)等級(jí),我們將使用每個(gè)區(qū)域的質(zhì)心而不是完整的多邊形向地圖添加另一層。
?現(xiàn)在,我們可以在Redlining區(qū)域繪制圓。圓圈越多,區(qū)域越暗,從而創(chuàng)建熱圖。

圖3
上面的地圖看起來(lái)像是由MAPPING INEQUALITY?(源)生成的地圖的精細(xì)復(fù)制,如下所示。

圖4
貸款與Redlining地圖
現(xiàn)在,我們將在地圖頂部添加一個(gè)新層,以可視化具有高LendingClub拒絕率的區(qū)域。我們選擇90%的閾值,該閾值比1930年代的HOLC拒絕率高一些。
?同樣,我們添加了一個(gè)新層以突出顯示LendingClub為一半以上的貸款分配高利率的區(qū)域。
?我們的目標(biāo)是可視化從2007年到2018年之間關(guān)于Redlining的對(duì)等2對(duì)等貸款的地理格局如何演變。我們可以通過(guò)如下為每個(gè)季度生成一個(gè)地圖來(lái)實(shí)現(xiàn)此目的。
?
在下面,我們可以看到為2007Q2創(chuàng)建的地圖。記錄了大量貸款申請(qǐng)拒絕的區(qū)域與以前的HOLC?Redlining區(qū)域之間似乎存在關(guān)聯(lián)。

圖5
地圖層0:美國(guó)基準(zhǔn)州的地圖-淺藍(lán)色的形狀顯示了美國(guó)各州,
圖層1:HOLC紅線地圖-紅色圓圈表示在最圈閱發(fā)生在20世紀(jì)30年代的地方,
地圖第2層:LendingClub拒絕率-綠色形狀,顯示LendingClub拒絕90%以上申請(qǐng)人的地方,
地圖層3:LendingClub利率-洋紅色形狀,顯示LendingClub平均分配最高利率的地方。
地圖上的顏色可以解釋如下:
綠色表示LendingClub的拒收率非常高(> 90%),
深紫色表明HOLC的紅線和LendingClub的廢品之間存在很強(qiáng)的相關(guān)性。當(dāng)紅色形狀(來(lái)自HOLC)被綠色形狀(來(lái)自LendingClub)覆蓋時(shí),可獲得紫羅蘭色。
深洋紅色表示HOLC紅線與LendingClub高利率之間的強(qiáng)烈相關(guān)性。
一年之后,即2008年,廢品在HOLC區(qū)域以外的地方散布開(kāi)來(lái)。但是,HOLC區(qū)仍然是那些利率最高的區(qū)。

圖6
在2012年第一季度之后,我們?cè)僖部床坏紿OLC與LendingClub之間的任何清晰鏈接。但是,與2012年之前相比,我們可以記錄更多的貸款申請(qǐng)拒絕,但是幾乎在所有州都發(fā)現(xiàn)了這些拒絕,不僅是在Redlining地區(qū)。

圖7
隨著LendingClub在2012年之后獲得更多的市場(chǎng)份額,我們可以看到其活動(dòng)在美國(guó)各地平均分配,如這張2016Q3圖表所示。

圖8
當(dāng)查看2018年第二季度地圖時(shí),似乎已忘記HOLC?Redlining,并且不會(huì)影響任何LendingClub統(tǒng)計(jì)數(shù)據(jù)。

地圖動(dòng)畫(huà)
使用plot.ly,Dash或類似工具的多層地圖動(dòng)畫(huà)是一項(xiàng)艱巨的任務(wù)。我們發(fā)現(xiàn)使用每個(gè)季度生成的45張地圖來(lái)構(gòu)建GIF,可以更容易地模擬Choropleth地圖動(dòng)畫(huà)。這是通過(guò)首先手動(dòng)裁剪Geopandas生成的每個(gè)地圖圖像周圍的空白來(lái)實(shí)現(xiàn)的。下一步是使用免費(fèi)軟件IrFanView的批量轉(zhuǎn)換功能將圖像的分辨率降低到500x500px。使用相同的工具,我們?cè)诿總€(gè)圖像上添加了一個(gè)疊加文本,顯示了年份和季度。最后,我們使用免費(fèi)的圖像編輯軟件Gimp來(lái)創(chuàng)建GIF動(dòng)畫(huà)。

圖10:紅色-1930年代主要的Redlining城市|?綠色— Lending Club在2007–2018年間最高的貸款申請(qǐng)被拒絕|?洋紅色-Lending Club在2007–2018年的最高利率
結(jié)論2
這項(xiàng)工作引起了一些問(wèn)題,可能需要進(jìn)一步調(diào)查:
LendingClub使用的數(shù)據(jù)是否包含某種與HOLC重排共線的偏差,例如FICO得分,就業(yè)時(shí)間,種族?
郵政編碼,性別和種族在哪些方面影響LendingClub的決策?
要考慮到HOLC?Redlining,必須對(duì)風(fēng)險(xiǎn)評(píng)估算法進(jìn)行哪些調(diào)整,而哪些顯然不屬于過(guò)去?
我們?cè)谠擁?xiàng)目中演示了探索性數(shù)據(jù)分析。使用Geopandas構(gòu)建了多層地圖,作為空間時(shí)間序列可視化的展示。我們引入了其他數(shù)據(jù)科學(xué)概念:算法公平性,Web爬網(wǎng),數(shù)據(jù)清理,功能工程和相關(guān)性分析。
希望本文能引起人們對(duì)數(shù)據(jù)科學(xué)中倫理考慮的認(rèn)識(shí),尤其是在對(duì)與人相關(guān)的數(shù)據(jù)使用機(jī)器學(xué)習(xí)時(shí)。
?
如果想了解更多相關(guān)知識(shí),歡迎各位朋友報(bào)名《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析微專業(yè)課》:
騰訊課堂報(bào)名入口
https://ke.qq.com/course/package/31250?tuin=dcbf0ba
網(wǎng)易云課堂報(bào)名入口
https://study.163.com/series/1202875601.htm?share=2&shareId=400000000398149