美國Lending Club信貸平臺數(shù)據(jù)分析報告-截止至18年Q2
前言
Lending Club是美國,同時也是世界最大的P2P互聯(lián)網(wǎng)金融平臺,于2014年12月31號在美國納斯達克上市,從2007年6月成立截止至2018年6月底,在該平臺共發(fā)生了200.41萬人次的P2P借貸業(yè)務(wù),借貸總金額為299.02億美元,業(yè)務(wù)范圍是美國的51個州,不良貸款率為10.99%。
本文以Kaggle平臺的Lending Club公司2007年6月-2018年Q2季度的2004091條貸款數(shù)據(jù)(151個特征)為研究對象,首先利用Python實現(xiàn)對數(shù)據(jù)的清洗整理,其次利用Tableau對數(shù)據(jù)進行快速探索分析,總結(jié)了Lending Club(正文簡稱LC)平臺上的貸款客戶特征、貸款業(yè)務(wù)特征,貸款違約影響因素。最后回到Python建立貸款違約預(yù)測模型,預(yù)測貸款違約率。
整篇報告的結(jié)構(gòu)如下:

一、客戶畫像分析
(1)、客戶基本信息分析
在客戶基本信息分析方面,我們將從客戶地域分布,客戶職業(yè)分布,客戶工作時間長度分布,客戶收入占比變化及客戶房產(chǎn)情況等5個角度進行切入。
1、客戶地域分布

從圖中可以看出,客戶占比最多的5個州分別是:加利福尼亞州(13.94%),紐約州(8.28%),德克薩斯州(8.24%),佛羅里達州(7.11%)和伊利諾斯州(4.38%)。而客戶占比最小的兩個州分別是:愛荷華州(0.001%,實際只有16個客戶),北達科他州(0.15%)?;究梢园l(fā)現(xiàn),一般東西部沿海,經(jīng)濟比較發(fā)達的地區(qū),人的貸款需求比較高,主要原因可能是,金融意識比較前衛(wèi),商業(yè)化水平高,消費水平高,資金需求比較大。也不難發(fā)現(xiàn),這些州的壞賬率也是比較高的,可能原因是,商業(yè)競爭比較激烈,導(dǎo)致收入的不穩(wěn)定造成的。
2、客戶職業(yè)分布

根據(jù)數(shù)據(jù)可以看出,經(jīng)理在申請貸款的人數(shù)中,占有最高的比例,12.9%。因為這是客戶自己填寫的信息,經(jīng)理是比較容易想到,而且比較泛化的名詞,所以客戶比較傾向于寫經(jīng)理,也是隱藏自己身份的一種方式。第二高的是政府官員,占比3.68%,其次技術(shù)員占比2.91%。護士和教師也位居前列。
3、客戶工齡分布

從圖中可以發(fā)現(xiàn),LC三成以上的客戶,都是工作年齡10年及以上的,說明LC為了防范信貸風(fēng)險,對于客戶的工齡篩選是很嚴(yán)格的。工齡在一年以下的客戶,只占到8.11%,而工齡在3年以下的客戶,占全部客戶總數(shù)的24%不到。LC客戶工齡中位數(shù)大概在6年。
4、客戶收入占比變化

從圖4中可以發(fā)現(xiàn):
1、年收入在3萬到6萬美元的中低收入客戶占比最高,超過六成以上的客戶,收入都在3萬到9萬美元之間;
2、收入在6萬美元以下的客戶占比越來越低,尤其是3萬美元收入以下的客戶,而收入在6萬美元的客戶占比越來越高,可以看出LC為了控制借貸的風(fēng)險,對于收入的要求也在逐年增加;
3、從2016年開始,中低收入的人群占比出現(xiàn)了反彈,可能是因為LC上市后,一直處于虧損狀態(tài),迫于股東壓力,擴大業(yè)務(wù)量,而放低了對于客戶的審核要求。
5、客戶住房類型分布

從數(shù)據(jù)可以看出,有將近一般的客戶,都是有住房的,不過同時也有著還房貸的經(jīng)濟壓力,比例在49.19%。將近四成的客戶(39.6%),是處于租房的狀態(tài),經(jīng)濟實力比較弱。只有11.17的客戶,是有住房,且沒有貸款壓力的,相對比例較小。
總結(jié):結(jié)合上面5個角度的分析,可以發(fā)現(xiàn),LC的客戶,大部分都在東西沿海地區(qū),且多為工作十年以上的經(jīng)理和公務(wù)員職業(yè),收入水平大部分集中在收入3-9萬美元之間,并且大部分客戶有償還按揭貸款的壓力。
(2)、用戶信用信息分析
在客戶信用分析方面,將按照Grade等級和FICO值的關(guān)系,客戶開戶時長,貶損類公共記錄和信用卡循環(huán)賬戶四個角度進行分析。
1、LC平臺信用等級和FICO值關(guān)系

從比較中可以看出,
1、LC自己的信用評分體系Grade/Sub-Grade與FICO值具有很強的相關(guān)性,Grade值越高,對應(yīng)的FICO也是越高的;
2、LC平臺的客戶,大部分在信用B和C中,即FICO值在690-720之間;
3、信用級別最低的FICO值也在680左右,說明LC平臺對于客戶的信用程度是把關(guān)很嚴(yán)格的,而且也是必要的。
2、客戶開戶時長分布

從數(shù)據(jù)中可以看出,大部分的客戶的開戶時長都在10-31年,其中開戶時長在10-17年的客戶占比最高,比例達到40.16%,最短時長的客戶,開戶時間也有3年。時長超過38年以上的客戶,總體數(shù)量很少,說明老年人對于P2P貸款的需求不高。一般來說,信用賬戶的開戶時間,是銀行評估客戶信用度的重要指標(biāo)。
3、貶損類公共記錄

從圖中可以看出,有83.70%的客戶,都是沒有不良的貶損類記錄的,說明LC平臺上大部分客戶的信用還是很好的。13.70%的客戶有過一次的不良記錄,總共有2.6%的客戶,其貶損記錄是超過2次的。
4、信用卡循環(huán)賬戶分布

同圖9中可以看出,
1、循環(huán)額度在5000-10000美元的客戶占比最大,占到24.61%。超過60%以上的客戶,額度都在15000美元以下;
2、隨著額度增大,用戶的占比數(shù)呈遞減的趨勢,到30000-35000美元區(qū)間時,只有1.58的客戶;
3、還是有相當(dāng)一部分的客戶(10.95%)的額度是大于35000美元的,這一批客戶需要特別觀察。
總結(jié):
1、LC的信用系統(tǒng)和FICO的信用系統(tǒng)是高度匹配的;
2、LC的客戶,F(xiàn)ICO分值大部分在(690-720之間),開戶時長在10年以上,大部分的客戶都沒有貶損類記錄,超過60%信用卡循環(huán)額度大部分在15000美元以下,說明LC的客戶信用水平處于偏高的;
3、需要注意的是,有將近11%的客戶,其信用卡循環(huán)額度在35000美元以上,是超支使用的,很可能導(dǎo)致P2P貸款償還不上的情況。
二、平臺借貸業(yè)務(wù)分析
在平臺借貸業(yè)務(wù)分析上,主要從平均貸款額度變化,貸款目的分布,各信用等級貸款利率變化,各信用等級不良貸款率變化和DTI(月償還額/月收入)的變化五個方面進行剖析LC的業(yè)務(wù)情況。
1、貸款額度明細

從圖10可以看出:
1、在2015年之前,LC不論在年貸款金額,貸款人數(shù),以及人均貸款金額上,都是快速發(fā)展的,在2015年,LC的累計貸款總額達到了130.9億美元;
2、從2015年開始,LC開始處于平穩(wěn)發(fā)展期,每年的貸款金額,人數(shù)以及人均貸款額度都變化不大。
2、貸款目的分布

從分布中可以看出,有56.76%的客戶借款是用來債務(wù)整合,22.29%的客戶是用來償還信用卡欠款,也就是說,有79%的借款行為,都是用來新債填舊債的。另外還有6.26%的客戶是處于其他原因,這一塊也很有可能是新債還舊債。處于家庭改善的原因,也有不少家庭選擇P2P貸款的模式。
3、各信用等級貸款利率變化


從上面兩張圖可以看出:
1、貸款利率在5-32%之間,主要依據(jù)是客戶的信用等級,信用度越好,貸款的利率越低;
2、這些年的平均貸款利率稍微有些波動,但是保持在11-13%之間。
3、從2014年開始,LC平臺的高利率貸款項目明顯增多,這一情況在2016年達到了最嚴(yán)重的情況,但是在之后的兩年,高利率貸款情況有明顯得到控制。
4、貸款狀態(tài)的分布

從上面分布可以看出:
1、有55.32%的貸款正在進行中,所以無法判斷其中最后會有多少筆貸款拿不回來;
2、目前有33.59%的貸款順利完成了交易;
3、有8.52%的客戶,并沒有還款,注銷了賬戶,另外有1.38%的客戶已經(jīng)延遲了30天以上,并未償還貸款。
5、DTI(月償還額/月收入)的變化

從圖中可以看出,大部分的貸款客戶的DTI在35%以下,說明還款壓力不是很大,另外有0.67%的客戶,DTI大于45%,對其償還貸款形成了比較大的壓力。
總結(jié):
1、平臺的規(guī)模一直處于比較快速的發(fā)展,在2015年之后,發(fā)展速度趨緩;
2、超過79%的借貸目的,是為了償還舊的債務(wù),這對于平臺來說不是一件很好的事;
3、貸款的利率是和客戶信用呈正相關(guān)的,貸款利率在5-32%,這些年總體的利率穩(wěn)定在11-13%之間,是遠高于國債和企業(yè)債的收入的;
4、不良貸款率的水平在10.99%,而且還有55.32%的貸款還在進行中;
5、96%以上的客戶,DTI值都在35%以下,59%以上的客戶,DTI值都在20%以下,貸款客戶的整體還貸壓力不是很大。
三、不良貸款率相關(guān)性分析
從數(shù)據(jù)集中的151個特征中,選擇了17個作者自認為重要的特征,通過清洗,補缺,分箱,轉(zhuǎn)換后,進行了相關(guān)性分析,結(jié)果如下圖:

從相關(guān)性熱圖中可以看出,
1、信用等級和不良貸款率的相關(guān)性最大(0.21),而利率是與信用等級直接相關(guān)的,所以它和不良貸款率之間也有著很大的相關(guān)性(0.19);
2、令人吃驚的是,信用開戶時間和不良貸款率之間完全不相關(guān),相關(guān)性為0,地域和不良貸款率之間也沒有顯而易見的相關(guān)性,也是0;
3、申請貸款的期限和不良貸款率之間是負相關(guān)(-0.08),可以理解為,申請貸款的時間越長,不確定性越大,貸款人拖欠貸款的可能性也越大;
4、DTI值(0.06)和收入(-0.05)也與不良貸款率存在一定關(guān)系,說明,月還款壓力越小,收入越多,最后還款的意愿也是越強的;
5、房屋持有情況和不良貸款率存在一定的相關(guān)性(0.05),顯然,有自有住房的客戶,更愿意償還貸款。
下面先從信用等級,利率,申請貸款期限,DTI值,收入和房屋持有情況五個方面進行二元分析。
(1)、二元相關(guān)性分析
1、信用等級和不良貸款率的關(guān)系

從上圖中可以看出,
1、隨著信用等級的降低,不良貸款率是明顯提升的,信用等級從F開始,不良貸款率高達31.54%,而信用等級G的不良貸款率更是高達32.14%;
2、信用等級為A時,不良貸款率明顯很低,但是還是存在,說明信用借貸的情況,確實存在很多不可抗的因素。
2、貸款利率與不良貸款率的關(guān)系

從圖中可以發(fā)現(xiàn),不良貸款率的利率水平,高于良性的貸款,但是并沒有想象的高,差值在3%以內(nèi),可能的原因是,低貸款利率的貸款基數(shù)大,而高貸款利率的貸款基數(shù)小,平均下來,拉低了不良貸款利率的均值。
3、申請貸款期限與不良貸款率的關(guān)系

從數(shù)據(jù)中可以看出,貸款期限長的貸款,不良貸款率越高,說明,時間越長,貸款的不確定性就越高,所以最后導(dǎo)致不良貸款的可能性也越大。
4、DTI值與不良貸款率的關(guān)系

從數(shù)據(jù)中可以看出,隨著DTI的增大,不良貸款率也在增大,但是這一趨勢在DTI大于40%時,呈現(xiàn)出了反向的趨勢,甚至在DTI大于45%的區(qū)間,不良貸款率只有6.09%,比DTI小于5%的區(qū)間還低,進一步的原因,可能需要多方的相關(guān)性發(fā)挖掘出來。
5、房屋持有情況與不良貸款率的關(guān)系

從以上數(shù)據(jù)可以看出,不同的房屋持有情況對于不良貸款率是有一定影響的。令人驚訝的是,自己擁有住房的貸款客戶,不良貸款率居然比按揭還款用戶高1.12%。租房客戶的還款情況不容樂觀,高達12.74%。最嚴(yán)重的是填寫了other的客戶,不良還款率高達20.88%。出人預(yù)料的是,填寫了any的貸款客戶,不良貸款率是最低的,只有6.08%,不過因為數(shù)量太少,可參考的價值不是很高。
(2)、多元相關(guān)性分析

從多元分析中可以發(fā)現(xiàn),
1、一般情況下,短期的貸款違約率要比長期的低,但是在高信用客戶中會發(fā)現(xiàn),短期貸款的違約率是比長期的要高的;
2、隨著DTI的增大,長期貸款的違約率,是逐漸比短期貸款的違約率要低的,而且仔細發(fā)現(xiàn),在DTI在30-40區(qū)間,A類客戶的不良貸款率下降特別明顯;
3、大部分的貸款客戶,都集中在DTI在30%以下,信用等級高于D級的范圍;
總結(jié):
1、從相關(guān)性分析來看,與不良貸款率相關(guān)性最大的是客戶的信用等級和貸款利率;
2、貸款期限越長的貸款,不良貸款率也相對更高;
3、DTI是一個比收入更能反應(yīng)與不良貸款率相關(guān)性的指標(biāo),但是當(dāng)DTI超過30%時,不良貸款率猛降,主要貢獻來自此區(qū)間的A類貸款客戶,可以進行進一步研究;
4、相對于自有住房者,按揭住房的客戶,按時還貸的可能性更高。
四、不良貸款預(yù)測模型
1、明確問題及評估體系的選擇,
這個預(yù)測模型是為了篩選出存量客戶中,有較強申請貸款業(yè)務(wù)的客戶,所以這類預(yù)測為二分類的監(jiān)督機器學(xué)習(xí)問題;
從已知的情況來看,不良貸款率是10.99%,屬于不均衡的二分類問題,所以評估的標(biāo)準(zhǔn)不能單單以準(zhǔn)確率為主,這里選擇AUC值來評估模型的好壞,再通過調(diào)節(jié)評估的閾值,來微調(diào)預(yù)測結(jié)果;
2、模型特征選擇,
通過前面的客戶畫像,平臺業(yè)務(wù)特征,二元及多元特征分析,我們將客戶的信用等級,貸款利率,貸款期限,DTI值,房屋持有情況,客戶收入等6個特征作為貸款營銷預(yù)測模型的特征值。
3、建立訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,
我們將截止至2018年Q2季度,通過清洗后的2004033個客戶信息作為數(shù)據(jù)集,拆分出75%訓(xùn)練數(shù)據(jù)集和25%測試數(shù)據(jù)集。
4、利用機器學(xué)習(xí)算法訓(xùn)練模型,通過選擇模型及調(diào)節(jié)超參數(shù),優(yōu)化結(jié)果,
本文先用Logistics回歸,隨機數(shù)森林樹,高斯等二分類模型進行初次預(yù)測。根據(jù)結(jié)果,選擇最佳模型進行調(diào)參優(yōu)化。
5、評估模型的準(zhǔn)確率,
最后通過比較,Logistics回歸模型結(jié)果最好,準(zhǔn)確率為88.73%,AUC值為0.6837,最后方案可以根據(jù)業(yè)務(wù)需要,調(diào)節(jié)評估的閾值,來達到最優(yōu)的業(yè)務(wù)目的。
轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/52458668
歡迎關(guān)注更多相關(guān)內(nèi)容《python風(fēng)控建模實戰(zhàn)lendingclub》
