最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

美國Lending Club信貸平臺數(shù)據(jù)分析報告-截止至18年Q2

2022-07-21 21:05 作者:python風(fēng)控模型  | 我要投稿

前言

Lending Club是美國,同時也是世界最大的P2P互聯(lián)網(wǎng)金融平臺,于2014年12月31號在美國納斯達克上市,從2007年6月成立截止至2018年6月底,在該平臺共發(fā)生了200.41萬人次的P2P借貸業(yè)務(wù),借貸總金額為299.02億美元,業(yè)務(wù)范圍是美國的51個州,不良貸款率為10.99%。

本文以Kaggle平臺的Lending Club公司2007年6月-2018年Q2季度的2004091條貸款數(shù)據(jù)(151個特征)為研究對象,首先利用Python實現(xiàn)對數(shù)據(jù)的清洗整理,其次利用Tableau對數(shù)據(jù)進行快速探索分析,總結(jié)了Lending Club(正文簡稱LC)平臺上的貸款客戶特征、貸款業(yè)務(wù)特征,貸款違約影響因素。最后回到Python建立貸款違約預(yù)測模型,預(yù)測貸款違約率。

整篇報告的結(jié)構(gòu)如下:

一、客戶畫像分析

(1)、客戶基本信息分析

在客戶基本信息分析方面,我們將從客戶地域分布,客戶職業(yè)分布,客戶工作時間長度分布,客戶收入占比變化及客戶房產(chǎn)情況等5個角度進行切入。


1、客戶地域分布

圖1、2007-2018年Lending Club公司貸款客戶地域分布


從圖中可以看出,客戶占比最多的5個州分別是:加利福尼亞州(13.94%),紐約州(8.28%),德克薩斯州(8.24%),佛羅里達州(7.11%)和伊利諾斯州(4.38%)。而客戶占比最小的兩個州分別是:愛荷華州(0.001%,實際只有16個客戶),北達科他州(0.15%)?;究梢园l(fā)現(xiàn),一般東西部沿海,經(jīng)濟比較發(fā)達的地區(qū),人的貸款需求比較高,主要原因可能是,金融意識比較前衛(wèi),商業(yè)化水平高,消費水平高,資金需求比較大。也不難發(fā)現(xiàn),這些州的壞賬率也是比較高的,可能原因是,商業(yè)競爭比較激烈,導(dǎo)致收入的不穩(wěn)定造成的。


2、客戶職業(yè)分布

圖2、2007-2018年LC平臺Top10職業(yè)分布情況

根據(jù)數(shù)據(jù)可以看出,經(jīng)理在申請貸款的人數(shù)中,占有最高的比例,12.9%。因為這是客戶自己填寫的信息,經(jīng)理是比較容易想到,而且比較泛化的名詞,所以客戶比較傾向于寫經(jīng)理,也是隱藏自己身份的一種方式。第二高的是政府官員,占比3.68%,其次技術(shù)員占比2.91%。護士和教師也位居前列。


3、客戶工齡分布

圖3、2007-2018年LC平臺工齡分布情況

從圖中可以發(fā)現(xiàn),LC三成以上的客戶,都是工作年齡10年及以上的,說明LC為了防范信貸風(fēng)險,對于客戶的工齡篩選是很嚴(yán)格的。工齡在一年以下的客戶,只占到8.11%,而工齡在3年以下的客戶,占全部客戶總數(shù)的24%不到。LC客戶工齡中位數(shù)大概在6年。


4、客戶收入占比變化

圖4、2007-2018年LC平臺客戶收入占比變化

從圖4中可以發(fā)現(xiàn):

1、年收入在3萬到6萬美元的中低收入客戶占比最高,超過六成以上的客戶,收入都在3萬到9萬美元之間;

2、收入在6萬美元以下的客戶占比越來越低,尤其是3萬美元收入以下的客戶,而收入在6萬美元的客戶占比越來越高,可以看出LC為了控制借貸的風(fēng)險,對于收入的要求也在逐年增加;

3、從2016年開始,中低收入的人群占比出現(xiàn)了反彈,可能是因為LC上市后,一直處于虧損狀態(tài),迫于股東壓力,擴大業(yè)務(wù)量,而放低了對于客戶的審核要求。


5、客戶住房類型分布

圖5、2007-2018年LC平臺客戶住房類型分布

從數(shù)據(jù)可以看出,有將近一般的客戶,都是有住房的,不過同時也有著還房貸的經(jīng)濟壓力,比例在49.19%。將近四成的客戶(39.6%),是處于租房的狀態(tài),經(jīng)濟實力比較弱。只有11.17的客戶,是有住房,且沒有貸款壓力的,相對比例較小。


總結(jié):結(jié)合上面5個角度的分析,可以發(fā)現(xiàn),LC的客戶,大部分都在東西沿海地區(qū),且多為工作十年以上的經(jīng)理和公務(wù)員職業(yè),收入水平大部分集中在收入3-9萬美元之間,并且大部分客戶有償還按揭貸款的壓力。


(2)、用戶信用信息分析

在客戶信用分析方面,將按照Grade等級和FICO值的關(guān)系,客戶開戶時長,貶損類公共記錄和信用卡循環(huán)賬戶四個角度進行分析。


1、LC平臺信用等級和FICO值關(guān)系

圖6、LC平臺信用等級分布及與FICO值的關(guān)系

從比較中可以看出,

1、LC自己的信用評分體系Grade/Sub-Grade與FICO值具有很強的相關(guān)性,Grade值越高,對應(yīng)的FICO也是越高的;

2、LC平臺的客戶,大部分在信用B和C中,即FICO值在690-720之間;

3、信用級別最低的FICO值也在680左右,說明LC平臺對于客戶的信用程度是把關(guān)很嚴(yán)格的,而且也是必要的。


2、客戶開戶時長分布

圖7、LC平臺客戶信用賬戶開戶時長分布

從數(shù)據(jù)中可以看出,大部分的客戶的開戶時長都在10-31年,其中開戶時長在10-17年的客戶占比最高,比例達到40.16%,最短時長的客戶,開戶時間也有3年。時長超過38年以上的客戶,總體數(shù)量很少,說明老年人對于P2P貸款的需求不高。一般來說,信用賬戶的開戶時間,是銀行評估客戶信用度的重要指標(biāo)。


3、貶損類公共記錄

圖8、LC平臺貶損類記錄分布情況

從圖中可以看出,有83.70%的客戶,都是沒有不良的貶損類記錄的,說明LC平臺上大部分客戶的信用還是很好的。13.70%的客戶有過一次的不良記錄,總共有2.6%的客戶,其貶損記錄是超過2次的。


4、信用卡循環(huán)賬戶分布

圖9、LC平臺信用卡循環(huán)額度分布

同圖9中可以看出,

1、循環(huán)額度在5000-10000美元的客戶占比最大,占到24.61%。超過60%以上的客戶,額度都在15000美元以下;

2、隨著額度增大,用戶的占比數(shù)呈遞減的趨勢,到30000-35000美元區(qū)間時,只有1.58的客戶;

3、還是有相當(dāng)一部分的客戶(10.95%)的額度是大于35000美元的,這一批客戶需要特別觀察。


總結(jié):

1、LC的信用系統(tǒng)和FICO的信用系統(tǒng)是高度匹配的;

2、LC的客戶,F(xiàn)ICO分值大部分在(690-720之間),開戶時長在10年以上,大部分的客戶都沒有貶損類記錄,超過60%信用卡循環(huán)額度大部分在15000美元以下,說明LC的客戶信用水平處于偏高的;

3、需要注意的是,有將近11%的客戶,其信用卡循環(huán)額度在35000美元以上,是超支使用的,很可能導(dǎo)致P2P貸款償還不上的情況。

二、平臺借貸業(yè)務(wù)分析

在平臺借貸業(yè)務(wù)分析上,主要從平均貸款額度變化,貸款目的分布,各信用等級貸款利率變化,各信用等級不良貸款率變化和DTI(月償還額/月收入)的變化五個方面進行剖析LC的業(yè)務(wù)情況。


1、貸款額度明細

圖10、LC平臺貸款明細表

從圖10可以看出:

1、在2015年之前,LC不論在年貸款金額,貸款人數(shù),以及人均貸款金額上,都是快速發(fā)展的,在2015年,LC的累計貸款總額達到了130.9億美元;

2、從2015年開始,LC開始處于平穩(wěn)發(fā)展期,每年的貸款金額,人數(shù)以及人均貸款額度都變化不大。


2、貸款目的分布

圖11、LC平臺借款目的分布表

從分布中可以看出,有56.76%的客戶借款是用來債務(wù)整合,22.29%的客戶是用來償還信用卡欠款,也就是說,有79%的借款行為,都是用來新債填舊債的。另外還有6.26%的客戶是處于其他原因,這一塊也很有可能是新債還舊債。處于家庭改善的原因,也有不少家庭選擇P2P貸款的模式。


3、各信用等級貸款利率變化

圖12、貸款利率和信用等級的關(guān)系
圖13、利息率的變化情況

從上面兩張圖可以看出:

1、貸款利率在5-32%之間,主要依據(jù)是客戶的信用等級,信用度越好,貸款的利率越低;

2、這些年的平均貸款利率稍微有些波動,但是保持在11-13%之間。

3、從2014年開始,LC平臺的高利率貸款項目明顯增多,這一情況在2016年達到了最嚴(yán)重的情況,但是在之后的兩年,高利率貸款情況有明顯得到控制。


4、貸款狀態(tài)的分布

圖14、貸款狀態(tài)分布

從上面分布可以看出:

1、有55.32%的貸款正在進行中,所以無法判斷其中最后會有多少筆貸款拿不回來;

2、目前有33.59%的貸款順利完成了交易;

3、有8.52%的客戶,并沒有還款,注銷了賬戶,另外有1.38%的客戶已經(jīng)延遲了30天以上,并未償還貸款。


5、DTI(月償還額/月收入)的變化

圖15、LC平臺客戶DTI分布情況

從圖中可以看出,大部分的貸款客戶的DTI在35%以下,說明還款壓力不是很大,另外有0.67%的客戶,DTI大于45%,對其償還貸款形成了比較大的壓力。


總結(jié):

1、平臺的規(guī)模一直處于比較快速的發(fā)展,在2015年之后,發(fā)展速度趨緩;

2、超過79%的借貸目的,是為了償還舊的債務(wù),這對于平臺來說不是一件很好的事;

3、貸款的利率是和客戶信用呈正相關(guān)的,貸款利率在5-32%,這些年總體的利率穩(wěn)定在11-13%之間,是遠高于國債和企業(yè)債的收入的;

4、不良貸款率的水平在10.99%,而且還有55.32%的貸款還在進行中;

5、96%以上的客戶,DTI值都在35%以下,59%以上的客戶,DTI值都在20%以下,貸款客戶的整體還貸壓力不是很大。

三、不良貸款率相關(guān)性分析

從數(shù)據(jù)集中的151個特征中,選擇了17個作者自認為重要的特征,通過清洗,補缺,分箱,轉(zhuǎn)換后,進行了相關(guān)性分析,結(jié)果如下圖:

圖16、客戶特征相關(guān)性熱圖

從相關(guān)性熱圖中可以看出,

1、信用等級和不良貸款率的相關(guān)性最大(0.21),而利率是與信用等級直接相關(guān)的,所以它和不良貸款率之間也有著很大的相關(guān)性(0.19);

2、令人吃驚的是,信用開戶時間和不良貸款率之間完全不相關(guān),相關(guān)性為0,地域和不良貸款率之間也沒有顯而易見的相關(guān)性,也是0;

3、申請貸款的期限和不良貸款率之間是負相關(guān)(-0.08),可以理解為,申請貸款的時間越長,不確定性越大,貸款人拖欠貸款的可能性也越大;

4、DTI值(0.06)和收入(-0.05)也與不良貸款率存在一定關(guān)系,說明,月還款壓力越小,收入越多,最后還款的意愿也是越強的;

5、房屋持有情況和不良貸款率存在一定的相關(guān)性(0.05),顯然,有自有住房的客戶,更愿意償還貸款。


下面先從信用等級,利率,申請貸款期限,DTI值,收入和房屋持有情況五個方面進行二元分析。


(1)、二元相關(guān)性分析

1、信用等級和不良貸款率的關(guān)系

圖17、LC平臺不良貸款率和信用等級的分布關(guān)系

從上圖中可以看出,

1、隨著信用等級的降低,不良貸款率是明顯提升的,信用等級從F開始,不良貸款率高達31.54%,而信用等級G的不良貸款率更是高達32.14%;

2、信用等級為A時,不良貸款率明顯很低,但是還是存在,說明信用借貸的情況,確實存在很多不可抗的因素。


2、貸款利率與不良貸款率的關(guān)系

圖18、貸款利率與不良貸款率的關(guān)系

從圖中可以發(fā)現(xiàn),不良貸款率的利率水平,高于良性的貸款,但是并沒有想象的高,差值在3%以內(nèi),可能的原因是,低貸款利率的貸款基數(shù)大,而高貸款利率的貸款基數(shù)小,平均下來,拉低了不良貸款利率的均值。


3、申請貸款期限與不良貸款率的關(guān)系

圖19、貸款期限和不良貸款率的關(guān)系

從數(shù)據(jù)中可以看出,貸款期限長的貸款,不良貸款率越高,說明,時間越長,貸款的不確定性就越高,所以最后導(dǎo)致不良貸款的可能性也越大。


4、DTI值與不良貸款率的關(guān)系

圖20、DTI分布與不良貸款率關(guān)系

從數(shù)據(jù)中可以看出,隨著DTI的增大,不良貸款率也在增大,但是這一趨勢在DTI大于40%時,呈現(xiàn)出了反向的趨勢,甚至在DTI大于45%的區(qū)間,不良貸款率只有6.09%,比DTI小于5%的區(qū)間還低,進一步的原因,可能需要多方的相關(guān)性發(fā)挖掘出來。


5、房屋持有情況與不良貸款率的關(guān)系

圖21、房屋持有情況與不良貸款率的關(guān)系

從以上數(shù)據(jù)可以看出,不同的房屋持有情況對于不良貸款率是有一定影響的。令人驚訝的是,自己擁有住房的貸款客戶,不良貸款率居然比按揭還款用戶高1.12%。租房客戶的還款情況不容樂觀,高達12.74%。最嚴(yán)重的是填寫了other的客戶,不良還款率高達20.88%。出人預(yù)料的是,填寫了any的貸款客戶,不良貸款率是最低的,只有6.08%,不過因為數(shù)量太少,可參考的價值不是很高。


(2)、多元相關(guān)性分析

圖22、信用等級、貸款期限與DTI與不良貸款率的關(guān)系

從多元分析中可以發(fā)現(xiàn),

1、一般情況下,短期的貸款違約率要比長期的低,但是在高信用客戶中會發(fā)現(xiàn),短期貸款的違約率是比長期的要高的;

2、隨著DTI的增大,長期貸款的違約率,是逐漸比短期貸款的違約率要低的,而且仔細發(fā)現(xiàn),在DTI在30-40區(qū)間,A類客戶的不良貸款率下降特別明顯;

3、大部分的貸款客戶,都集中在DTI在30%以下,信用等級高于D級的范圍;


總結(jié):

1、從相關(guān)性分析來看,與不良貸款率相關(guān)性最大的是客戶的信用等級和貸款利率;

2、貸款期限越長的貸款,不良貸款率也相對更高;

3、DTI是一個比收入更能反應(yīng)與不良貸款率相關(guān)性的指標(biāo),但是當(dāng)DTI超過30%時,不良貸款率猛降,主要貢獻來自此區(qū)間的A類貸款客戶,可以進行進一步研究;

4、相對于自有住房者,按揭住房的客戶,按時還貸的可能性更高。

四、不良貸款預(yù)測模型

1、明確問題及評估體系的選擇,

這個預(yù)測模型是為了篩選出存量客戶中,有較強申請貸款業(yè)務(wù)的客戶,所以這類預(yù)測為二分類的監(jiān)督機器學(xué)習(xí)問題;

從已知的情況來看,不良貸款率是10.99%,屬于不均衡的二分類問題,所以評估的標(biāo)準(zhǔn)不能單單以準(zhǔn)確率為主,這里選擇AUC值來評估模型的好壞,再通過調(diào)節(jié)評估的閾值,來微調(diào)預(yù)測結(jié)果;

2、模型特征選擇,

通過前面的客戶畫像,平臺業(yè)務(wù)特征,二元及多元特征分析,我們將客戶的信用等級,貸款利率,貸款期限,DTI值,房屋持有情況,客戶收入等6個特征作為貸款營銷預(yù)測模型的特征值。

3、建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,

我們將截止至2018年Q2季度,通過清洗后的2004033個客戶信息作為數(shù)據(jù)集,拆分出75%訓(xùn)練數(shù)據(jù)集和25%測試數(shù)據(jù)集。

4、利用機器學(xué)習(xí)算法訓(xùn)練模型,通過選擇模型及調(diào)節(jié)超參數(shù),優(yōu)化結(jié)果,

本文先用Logistics回歸,隨機數(shù)森林樹,高斯等二分類模型進行初次預(yù)測。根據(jù)結(jié)果,選擇最佳模型進行調(diào)參優(yōu)化。

5、評估模型的準(zhǔn)確率,

最后通過比較,Logistics回歸模型結(jié)果最好,準(zhǔn)確率為88.73%,AUC值為0.6837,最后方案可以根據(jù)業(yè)務(wù)需要,調(diào)節(jié)評估的閾值,來達到最優(yōu)的業(yè)務(wù)目的。

轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/52458668


歡迎關(guān)注更多相關(guān)內(nèi)容《python風(fēng)控建模實戰(zhàn)lendingclub》



美國Lending Club信貸平臺數(shù)據(jù)分析報告-截止至18年Q2的評論 (共 條)

分享到微博請遵守國家法律
金溪县| 琼结县| 乐东| 迭部县| 汝南县| 洛扎县| 平乐县| 专栏| 赫章县| 金昌市| 珠海市| 申扎县| 祁连县| 乐都县| 鹤岗市| 绵阳市| 民县| 藁城市| 南召县| 富平县| 富锦市| 周口市| 永顺县| 临泉县| 庆元县| 晋中市| 谢通门县| 射洪县| 老河口市| 烟台市| 武胜县| 信丰县| 桓仁| 鹤山市| 泸水县| 青州市| 洪湖市| 玉田县| 济阳县| 舞钢市| 泾阳县|