分享一個數分的領域,可能對你有用

大家好
前一段時間有參加過天池金融風控的比賽,感覺還挺有意思的。
自己抽空也對金融風控領域做了深入研究,這篇就主要是我自己對于這個領域的理解。
全文無代碼
先來看張圖

解釋一下:狡猾的狐貍信用不夠,貓老師拒絕向其記賬。
01 -?金融風控
先來說說什么是金融風控
金融風控與電商、廣告等場景的風控不同,金融風控主要是涉及到錢的安全,決定了公司的營收甚至是公司的生命線。
如果一家月放款額100億的公司違約率上升1個點,這個損失應該不算小吧。相反如果通過風控的手段將違約率降低,想必大家的工資也會有所上升。
目前金融領域有:傳統(tǒng)金融、互聯(lián)網金融和消費金融。
這三個金融場景的區(qū)域是什么???
是這樣的,傳統(tǒng)金融一般指的是國家的四大傳統(tǒng)金融機構,包括銀行、信托、保險和證券。
其中銀行負責存貸、理財;信托負責投資、融資;證券負責企業(yè)上市與股票相關;保險更多的是做人壽保障之類的。
互聯(lián)網金融則指的是通過互聯(lián)網技術實現(xiàn)資金流通的金融活動,包括互聯(lián)網理財公司、互聯(lián)網借貸公司和互聯(lián)網支付公司等。
因為互聯(lián)網金融在之前并沒有相關的正式金融牌照,所以像一些P2P之類的理財、借貸公司就比較瘋狂,經常有暴雷事件發(fā)生。
消費金融更多的是指能夠提供消費類貸款的持牌的非銀行類金融機構,比如像xxx唄xx白條等都屬于這種。你可以使用自己的個人信息擔保,承擔一定的利息進行透支消費。
消費金融更多的是使用用戶個人信用,例如芝麻信用等,根據用戶的歷史消費情況給予一定的透支額度。
可以看到,在上面三種金融機構都可以通過風控技術做到兩點:
「一是可以減少因違約等產生的壞賬,二是可以通過放貸促進消費,提高企業(yè)的利潤」。
風控技術這么厲害的嗎?它到底是怎么做到的?
先說說它的缺點,這個比較明顯
「首先,風險具有滯后性?!?/strong>
用戶借款后至少要一個月才能知道是否會違約,甚至很多用戶在還了半年甚至一年之后才違約。
再者,一般線上獲客成本較高且比較麻煩,所以為了提高轉化,在授信、申請、審核等環(huán)節(jié),線上的操作一般都是實時的。
比如當你在網上提交了自己的相關申請資料,可能幾分鐘之內后臺就會通過你的各項歷史數據對你的信用情況作出評價,或因為信用分太低而拒絕你,或通過審核并且給予你一個初始借貸額度。
「其次,風控的業(yè)務性復雜」
風控領域中,數據源是非常豐富的,包括有運營商、互聯(lián)網、征信等等各種數據,相當龐大。
而且,可以使用的正負樣本數據的占比及其不均衡的,違約的人總是極少一部分人,否則金融機構早都被騙破產了吧。
風控也是面向業(yè)務的,最終的特征、評分等都需要能夠和用戶對應上,需要較強的可解釋性。
總結一下
風控最原始的思路就是根據一個用戶的信息,得到這個人是 “會還錢” 還是 “不會還錢”。
到后面有了根據一個用戶的信息,判斷該不該給他借錢,借多少合適?
以及最后需要根據用戶的借貸記錄,判斷用戶會不會還款,應不應該提醒催收等。
02?-?什么是風控?
上面我們提到的會不會還錢,該不該借錢,要不要催收都是二分類問題。
而風控的目的主要通過監(jiān)督算法構建違約概率預測模型進行二分類,通常還使用無監(jiān)督學習、深度學習算法進行輔助工作。
而評分卡模型其實就是希望能將一系列的個人信息輸入模型,然后得到一個用戶的還款概率。
概率越大,評分越高,越容易還錢。概率越小,評分越低,越容易跑路。
典型例子就是芝麻信用分。
03?-?風控的整體流程
1. 數據采集
一般的數據采集都包括免費數據和付費數據,風控也是。
免費數據包括:運營商、開源數據、網站數據等可以直接拿到的數據,當然,爬蟲采集也算是免費數據。
付費數據包括:黑名單數據、征信數據、互聯(lián)網公司的數據等等
2. 反欺詐
反欺詐主要包括反欺詐規(guī)則和反欺詐模型。
反欺詐規(guī)則對應的是用戶在借貸之前系統(tǒng)會先進行準入規(guī)則的篩選以及PreA模型等進行有針對性的預過濾。
例如針對抵押借貸、白戶借貸等有相應的的數據分析方法和過濾規(guī)則。
而反欺詐模型也和一般模型一樣,通過用戶的特征屬性和欺詐標簽進行建模。
另外也有通過深度學習、社交網絡算法、在線學習等手段輔助提高反欺詐模型的準確率。
但是因為欺詐標簽不好得到,難以進行有監(jiān)督的模型訓練,所以反欺詐這一塊大多還是采用欺詐規(guī)則,也就類似于專家系統(tǒng)的專家規(guī)則一樣。
3. 策略挖掘
策略:通過相應的分析和挖掘手段,得到不同字段、區(qū)間之間的各項指標,并找到最佳分段區(qū)間,映射成相應的用戶信用分
對比芝麻信用分,我們知道用戶信用評分是有一個區(qū)間,如果是落在信用很好的區(qū)間,系統(tǒng)一般都會直接通過。
策略挖掘主要涉及到單變量分析和關鍵指標計算,例如Vintage、滾動率、遷移率、WOE值、IV值等
4. 風控模型
風控模型主要包A/B/C卡模型,根據發(fā)生的時間點不同進行劃分。
A卡【申請評分卡】主要部署在貸前階段,主要作用有3個:參與決策、授信額度、初始利率。
A卡是貸前審核的基礎模型,一般用到的指標包括兩方面:自身屬性(通訊錄,個人信息等)和第三方屬性(歷史信貸、運營商信息、消費記錄、信用記錄(芝麻分)、多頭借貸等),通常A卡建模會使用拒絕推斷
B卡【行為評分卡】主要部署在貸中階段,主要是對用戶貸中行為的評判,防控貸中風險,同時對用戶額度做合理的調整。
主要用到的指標除了A卡中指標外,還包括用戶的行為屬性(登錄、瀏覽、消費、借款、還款、逾期等)
C卡【催收評分卡】主要部署在貸后階段,是對逾期用戶預測催收反應的概率,從而采取相應的催收策略與措施
可以看到,三種模型產生y的方式不同。
A卡是根據用戶歷史逾期天數中最大的天數定義y;B卡通過多期借款中逾期最大的一次定義y;C卡一般根據業(yè)務不同而不同(例如內催、外催等)。
另外,風控模型主要是通過監(jiān)督算法構建違約概率預測模型
在實際的項目中會存在樣本不均衡、缺失值等各種問題,通常也會使用深度學習、無監(jiān)督學習等進行輔助處理。
5. 催收
催收作為風控的最終手段,可以通過催收記錄的文字描述、觸達率、欺詐標簽等產生很多對模型有幫助的數據,并且壞賬客戶會被拉入黑名單。
催收涉及的主要算法是催收模型相關的,可能是有監(jiān)督、無監(jiān)督算法,也有社交網絡算法構造的失聯(lián)模型等。
6. 部署與監(jiān)控
什么是模型部署?
評分卡模型部署可以根據模型變量生成對應評分表,業(yè)務人員根據相應的變量區(qū)間對應相應的評分值,最終的分值相加即為用戶得分。
集成模型因為并非所有變量具有可解釋性,并且部分變量無法直觀與評分值形成映射表,所以在部署的時候一般都會通過相應的參數設定閾值,在線生成用戶得分。
那什么又是模型監(jiān)控?
主要是檢測模型是否正常運行,比如,模型分數是否正確,分數以及變量值是否存儲,模型分數與利率(額度)策略是否匹配等。
模型分數(概率)分布是否與模型數據集偏差較大,模型拒絕率等。
在后期積累一定線上用戶后可評估線上模型的AUC、KS,并且與線下進行比較,衡量模型在線上的實際效果。
模型監(jiān)控也有很多指標可以進行衡量,例如:一致性監(jiān)控、PSI、CSI、排序性、區(qū)分度等等。
說點題外話
金融風控領域是數據分析領域更深入的一個應用,就好比于數據分析是樹干,金融分控只是其中的某片葉子。
具體一點,像數據采集、數據清洗、特征工程這些都是數據分析領域常用的技術,只不過分析的業(yè)務不同,對應的指標、規(guī)則也發(fā)生了變化。
最后,金融風控的整體流程圖如下:

-?END -
本文轉自:公眾號【小一的學習筆記】
作者:小一
二次轉載請聯(lián)系原作者