最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

金融現(xiàn)金貸用戶(hù)數(shù)據(jù)分析和用戶(hù)畫(huà)像(python代碼)

2020-07-17 11:57 作者:python風(fēng)控模型  | 我要投稿

python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析微專(zhuān)業(yè)課:http://dwz.date/b9vv

up主金融微專(zhuān)業(yè)課

博主介紹:

講師:持牌照消費(fèi)金融模型專(zhuān)家,和中科院,中科大教授保持長(zhǎng)期項(xiàng)目合作;和同盾,聚信立等外部數(shù)據(jù)源公司有項(xiàng)目對(duì)接。熟悉消費(fèi)金融場(chǎng)景業(yè)務(wù),線(xiàn)上線(xiàn)下業(yè)務(wù),包括現(xiàn)金貸,商品貸,醫(yī)美,反欺詐,汽車(chē)金融等等。模型項(xiàng)目200+,擅長(zhǎng)Python機(jī)器學(xué)習(xí)建模,對(duì)于變量篩選,衍生變量構(gòu)造,變量缺失率高,正負(fù)樣本不平衡,共線(xiàn)性高,多算法比較,調(diào)參等疑難問(wèn)題有良好解決方法。微信公眾號(hào):PythonEducation

文章概述:

此課程用python代碼對(duì)LendingClub平臺(tái)貸款數(shù)據(jù)分析和用戶(hù)畫(huà)像,我們發(fā)現(xiàn)2019年四季度時(shí)候,美國(guó)多頭借貸情況非常嚴(yán)重,為全球系統(tǒng)性金融危機(jī)埋下種子。

一、背景

公司背景

Lending Club 創(chuàng)立于2006年,主營(yíng)業(yè)務(wù)是為市場(chǎng)提供P2P貸款的平臺(tái)中介服務(wù),公司總部位于舊金山。

公司在運(yùn)營(yíng)初期僅提供個(gè)人貸款服務(wù),至2012年平臺(tái)貸款總額達(dá)10億美元規(guī)模。

2014年12月,Lending Club在紐交所上市,成為當(dāng)年最大的科技股IPO。

2014年后公司開(kāi)始為小企業(yè)提供商業(yè)貸款服務(wù)。

2015年全年Lending Club平臺(tái)新設(shè)貸款金額達(dá)到了83.6億美元。

2016年上半年Lending club爆出違規(guī)放貸丑聞,創(chuàng)始人離職,股價(jià)持續(xù)下跌,全年虧損額達(dá)1.46億美元。

2019-2020年公司業(yè)務(wù)被迫轉(zhuǎn)型,可能和美國(guó)高負(fù)債率,用戶(hù)違約率上升有關(guān)。

作為P2P界的鼻祖,Lending club跌宕起伏的發(fā)展歷史還是挺吸引人的。

此處介紹一下什么是P2P。概括起來(lái)可以這樣理解,“所有不涉及傳統(tǒng)銀行做媒介的信貸行為都是P2P”。簡(jiǎn)單點(diǎn)來(lái)說(shuō),P2P公司不會(huì)出借自有資金,而是充當(dāng)“中間人”的角色,連接借款人與出借人需求。

借款人高興的是拿到了貸款,而且過(guò)程快速便利,免遭傳統(tǒng)銀行手續(xù)眾多的折磨;出借人高興的是借出資金的投資回報(bào)遠(yuǎn)高于存款利率;那么中間人高興的是用服務(wù)換到了流水(拿的便是事成之后的抽成) 最后實(shí)現(xiàn)三贏。

P2P初衷是好的,但隨著諸多平臺(tái)建立蓄水池,違規(guī)操作和房貸,造成幾十萬(wàn)人被騙。2018-2019年國(guó)內(nèi)對(duì)P2P監(jiān)管越來(lái)越嚴(yán),到了2020年,P2P基本清退。只有持牌照的公司才能放貸。

貸款標(biāo)準(zhǔn)

借款人提交申請(qǐng)后,Lending Club 會(huì)根據(jù)貸款標(biāo)準(zhǔn)進(jìn)行初步審查。貸款人需要滿(mǎn)足以下標(biāo)準(zhǔn)才能借款:

1.FICO 分?jǐn)?shù)在660 分以上

FICO分?jǐn)?shù)等級(jí)劃分

2.債務(wù)收入比例低于40%

3.信用報(bào)告反應(yīng)以下情況:至少有兩個(gè)循環(huán)賬戶(hù)正在使用,最近6 個(gè)月不超過(guò)5 次被調(diào)查,至少36 個(gè)月的信用記錄

貸款等級(jí)grade

貸款分為A、B、C、D、E、F、G 7 個(gè)等級(jí),每個(gè)等級(jí)又包含了1、2、3、4、5 五個(gè)子級(jí)。

二、目的

研究影響貸款等級(jí)的相關(guān)因素,并探尋潛藏在數(shù)據(jù)背后的一些規(guī)律

三、數(shù)據(jù)集獲取

選取2018年第四季度數(shù)據(jù)集以及特征變量的說(shuō)明文檔。

官網(wǎng)上下載數(shù)據(jù)集

已翻譯的特征說(shuō)明文檔

說(shuō)明:部分重要的特征變量似乎缺失,多次下載的數(shù)據(jù)集中缺少fico分?jǐn)?shù)、fico_range_low、fico_range_high等與fico相關(guān)的特征,所以在形成結(jié)論進(jìn)行總結(jié)的時(shí)候,這些特征的結(jié)論將從相關(guān)的報(bào)告中獲取。

四、數(shù)據(jù)處理

在對(duì)數(shù)據(jù)進(jìn)行處理前,我們需要對(duì)數(shù)據(jù)有一個(gè)整體的認(rèn)識(shí)

從上述的信息中可以看出:

1.128412行數(shù)據(jù),23個(gè)特征變量(抽選比較重要的變量,原始變量有110多個(gè))

2.13個(gè)特征變量中有86個(gè)是浮點(diǎn)數(shù)類(lèi)型,5個(gè)是Object對(duì)象。

調(diào)用data.describe()函數(shù)對(duì)數(shù)據(jù)描述性統(tǒng)計(jì),觀察各個(gè)變量的計(jì)數(shù),平均值,標(biāo)準(zhǔn)差,最大值,最小值,1/4位數(shù)和3/4位數(shù)值,并觀察一下異常值。

Object基類(lèi)對(duì)象的數(shù)據(jù)分布情況

從圖表中可以得到部分信息:

1.貸款共7個(gè)等級(jí),占比最多的是B級(jí)

2.還款的形式有兩種,占比最多的是36個(gè)月

3.貸款人中大多數(shù)人工齡10+年

4.貸款人的房屋狀況大多是抵押貸款

5.大多數(shù)人貸款的目的是債務(wù)整合

6.id與desc特征的數(shù)據(jù)缺失率高達(dá)0.99,間接表明這兩個(gè)特征可以刪除掉。

同樣可以按照這種方式對(duì)浮點(diǎn)型的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)覽,得到均值、標(biāo)準(zhǔn)差、四分位數(shù)以及數(shù)據(jù)的缺失比重等信息。

我們調(diào)用hist函數(shù)可以對(duì)數(shù)據(jù)的所有維度繪制直方圖,一目了然觀察所有變量數(shù)據(jù)分布。

第四季度貸款等級(jí)變化趨勢(shì)

首先我們來(lái)看一下2018年第四季度業(yè)務(wù)開(kāi)展情況,主要是放款筆數(shù),金額,期限等情況。第四季度放款筆數(shù)和放款金額略有下降,業(yè)務(wù)上是有意義的,年底壞賬率會(huì)上升,平臺(tái)會(huì)收緊。特別是在國(guó)內(nèi),年底收緊幅度比較大。

?

貸款金額分析:

通過(guò)seaborn,scipy,pandas三個(gè)包,我們繪制了一個(gè)正太分布圖,觀察lendingclub平臺(tái)給個(gè)人貸款金額大多在1萬(wàn)-2萬(wàn)美金,較高金額的貸款數(shù)量較少,此平臺(tái)主要是小額貸為主。

貸款周期占比

通過(guò)繪制餅狀圖,我們得到lendingclub平臺(tái)貸款周期分為36個(gè)月與60個(gè)月,主要以36個(gè)月為主,60個(gè)月的比重31%左右。在p2p平臺(tái)上以短期貸款為主,長(zhǎng)期貸款也有,利率較高,但周期較長(zhǎng)。借出人收獲利息,承擔(dān)風(fēng)險(xiǎn),而借入人到期要償還本金。貸款周期越長(zhǎng),對(duì)借出人來(lái)說(shuō)風(fēng)險(xiǎn)越高。

在國(guó)內(nèi)的環(huán)境下,借出人不僅要承擔(dān)推遲還款的風(fēng)險(xiǎn),還要擔(dān)心平臺(tái)跑路、本息全無(wú)的高風(fēng)險(xiǎn);對(duì)借入人來(lái)說(shuō),因?yàn)閲?guó)內(nèi)缺少健全的征信體系,借款方違約及重復(fù)違約成本低。

對(duì)國(guó)內(nèi)的情況不再多說(shuō),話(huà)題繞回來(lái)。國(guó)外的部分國(guó)家已有健全的征信體系,一旦違約還款,違約率不斷上漲,個(gè)人征信也會(huì)保留記錄,對(duì)后序的貸款、買(mǎi)房有很大的影響。所以如果貸款周期較長(zhǎng),且如果沒(méi)有固定的工作和固定的收入的話(huà)(即使有未定收入也不一定如期償還),償還本金充滿(mǎn)變數(shù),很有可能違約。

?

接下來(lái)我們?cè)僭囍鴮?duì)貸款人進(jìn)行分析,形成一下用戶(hù)畫(huà)像吧。

貸款人工齡分布圖

從圖中可以看出,貸款人中工齡為10年以上頻率最多。那么,我們可以考慮一下,為什么工齡超過(guò)10年的人有貸款需求呢?且占比這么高?

那么可以猜測(cè)一下(個(gè)人意見(jiàn)),首先可能是工齡越長(zhǎng),貸款通過(guò)率越高(篩選后占比較高),這可能和lendingclub貸前審批策略有關(guān)。

貸款人收入水平

通過(guò)上圖發(fā)現(xiàn),美國(guó)貸款人收入水平中年收入在0-5萬(wàn)美元的占比最高,30.53%左右。其次是5萬(wàn)-10萬(wàn)區(qū)間,11萬(wàn)-30萬(wàn)年收入?yún)^(qū)間占比逐步變小。得到這張圖并不容易,是對(duì)數(shù)據(jù)進(jìn)行深度清洗后得到的。特別是調(diào)用了pandas的cut函數(shù),對(duì)收入變量進(jìn)行分箱處理。

貸款人年收入,貸款等級(jí),收入驗(yàn)證多因子分析

lending club會(huì)對(duì)客戶(hù)收入進(jìn)行驗(yàn)證,這非常值得國(guó)內(nèi)平臺(tái)學(xué)習(xí)。貸款人的收入水平信息分為三種情況:已經(jīng)過(guò)LC驗(yàn)證,收入來(lái)源已驗(yàn)證,未驗(yàn)證。這三種情況目前從圖中看出LC驗(yàn)證,收入來(lái)源已驗(yàn)證,未驗(yàn)證的收入數(shù)據(jù)還是有顯著區(qū)別。另外貸款等級(jí)與收入水平在整體上呈正相關(guān)的趨勢(shì)。上圖由seaborn的的factorplot函數(shù)生成。factorplot函數(shù)是用于多因子分析的,非常實(shí)用。

?

借款人住房狀況分布圖

一半用戶(hù)房屋狀態(tài)是抵押貸款,只有10%用戶(hù)擁有完全的產(chǎn)權(quán)。看來(lái)美國(guó)房奴大軍不小呀!接著用pandas的stack和unstack函數(shù)對(duì)grade和home_ownship兩個(gè)等級(jí)變量做數(shù)據(jù)深度清洗,然后繪制下圖。通過(guò)觀察貸款等級(jí)越高用戶(hù)按揭占比越高,租房占比越低,反之亦然。自有住房占比每個(gè)等級(jí)略有不同。

貸款用途分布

上圖中debt_consolidation(可以理解為債務(wù)整合,借新還舊)占比最高,占比第二高的credit_card也歸屬為同一類(lèi)。不同平臺(tái)新債還舊債屬于多頭借貸行為,多頭借貸會(huì)提升用戶(hù)負(fù)債率,而負(fù)債率會(huì)引發(fā)經(jīng)濟(jì)系統(tǒng)性危機(jī)。經(jīng)濟(jì)危機(jī)會(huì)進(jìn)一步提高社會(huì)基尼系數(shù),引發(fā)社會(huì)動(dòng)蕩。多頭借貸是一個(gè)非常敏感的指標(biāo),無(wú)論公司還是地方政府都應(yīng)該監(jiān)控此指標(biāo)。

從歷史經(jīng)驗(yàn)看,舉債發(fā)展導(dǎo)致住戶(hù)部門(mén)高杠桿和過(guò)快的債務(wù)增速,與債務(wù)危機(jī)顯著相關(guān)。如日本平成大蕭條,韓國(guó)信用卡危機(jī),美國(guó)次貸危機(jī),均是居民負(fù)責(zé)短期內(nèi)快速上漲,導(dǎo)致收入,儲(chǔ)蓄及資產(chǎn)價(jià)值無(wú)法償付債務(wù),從而造成金融系統(tǒng)系風(fēng)險(xiǎn)。

美國(guó)上個(gè)世紀(jì)開(kāi)始就提倡超前消費(fèi)觀念刺激經(jīng)濟(jì),傳統(tǒng)儲(chǔ)蓄觀念備受冷漠。但人有不愿意還錢(qián)傾向,債務(wù)越高,金融危機(jī)風(fēng)險(xiǎn)越大。2019年美國(guó)債務(wù)占GDP比重已經(jīng)高到106%,也就是說(shuō)美國(guó)創(chuàng)造的社會(huì)財(cái)富還不夠還債。1970年時(shí),債務(wù)只占GDP38%左右,由此可見(jiàn)華爾街貪欲程度,可以用too much, never enough來(lái)形容。很巧的是,我們?cè)趌ending club數(shù)據(jù)分析時(shí)就發(fā)現(xiàn)了這貓膩,發(fā)現(xiàn)大多借款人借款目的就是新債換舊債。無(wú)論新冠狀病毒是否爆發(fā),美國(guó)金融體系已經(jīng)存在嚴(yán)重系統(tǒng)風(fēng)險(xiǎn),而且其他國(guó)家也存在類(lèi)似問(wèn)題,只是負(fù)債程度不一樣。

專(zhuān)業(yè)人士預(yù)測(cè)到2025年,美國(guó)負(fù)債占GDP比重可能達(dá)到140%,負(fù)債呈現(xiàn)逐年上升趨勢(shì)。

居民負(fù)債率上升,富人卻通過(guò)房貸和貨幣寬松政策獲利,從而導(dǎo)致社會(huì)基尼系數(shù)不斷上升,社會(huì)貧富差距拉大,最后導(dǎo)致社會(huì)動(dòng)蕩和戰(zhàn)爭(zhēng)。下圖是幾年前全球基尼系數(shù),可以看到美國(guó)基尼系數(shù)在40-50,實(shí)際數(shù)據(jù)可能更大。

貸款目的與人均收入水平

綜合收入水平與貸款用途得到上圖,我們可以發(fā)現(xiàn)在第四季度中,人均收入水平較高的人群貸款用于小生意,家庭生活改善,房子等。而貸款為了債務(wù)整合(占比最高)的人群的人均收入水平在整體的中下。收入最低的一般用于醫(yī)療開(kāi)支或車(chē)輛相關(guān)。這也間接證明了多頭借貸的收入會(huì)越來(lái)越低,陷入貧困陷阱。

?

變量相關(guān)性分析:

數(shù)據(jù)分析和畫(huà)像后,我們可以用上述變量建模。建模型并非所有變量都使用,需要做變量篩選工作。變量相關(guān)性分析就是最基礎(chǔ)的變量篩選步驟。我們用seaborn的heatmap函數(shù)繪制出下圖變量相關(guān)性熱力圖后,我們發(fā)現(xiàn)部分變量呈現(xiàn)0.9高相關(guān)性

除了python,excel也可以繪制變量相關(guān)性熱力圖,下圖由excel生成。

變量相關(guān)性取值從0-1,值越接近0,兩個(gè)變量相關(guān)性越低;值越接近1,兩個(gè)變量相關(guān)性越高。下圖是變量相關(guān)性數(shù)據(jù)分布。

?

附錄:

征信記錄。包括征信查詢(xún)、貸款人的不良信用記錄等。征信記錄很重要,并且占據(jù)較大的權(quán)重。因?yàn)檫^(guò)去的信用記錄反映的是這個(gè)人潛在的壞賬率,本來(lái)嘛L(fēng)C必須要保障借出人與自身的利益。

參考
https://www.jianshu.com/p/a8037a38e219
https://zhuanlan.zhihu.com/p/21550547

?

up主教學(xué)主頁(yè)

?https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149

up主教學(xué)主頁(yè)


金融現(xiàn)金貸用戶(hù)數(shù)據(jù)分析和用戶(hù)畫(huà)像(python代碼)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
田东县| 偏关县| 武威市| 乐山市| 遵义市| 永泰县| 德惠市| 寿宁县| 莱西市| 项城市| 洪湖市| 高密市| 长宁区| 双辽市| 宁德市| 鹤岗市| 宁都县| 隆化县| 辽宁省| 景洪市| 衡阳县| 沂水县| 黔东| 应城市| 高州市| 五原县| 西乌珠穆沁旗| 阿坝| 漳平市| 神农架林区| 吉木萨尔县| 上高县| 固原市| 黄龙县| 资溪县| 巨鹿县| 黔西县| 定陶县| 兴安县| 巴林右旗| 图们市|