風控中英文術語手冊(銀行_消費金融信貸業(yè)務)_v4
1、風控系統(tǒng)部分
1.Blaze
blaze是FICO公司產(chǎn)品,用于規(guī)則管理,是模型ABC卡開發(fā)的前身。信貸公司開始放貸時,數(shù)據(jù)量少,申請用戶少,難以建立模型。因此前期一般會用到專家經(jīng)驗判斷好壞客戶,然后通過風控決策管理系統(tǒng)進行高效作業(yè),其中blaze就是一款應用多年,效率較高風控決策管理系統(tǒng)。但blaze屬于商業(yè)產(chǎn)品,一般多應用于大銀行,捷信等大型消費金融公司,收費可高于100萬RMB每年,如果需要更多定制業(yè)務,收費更高。
1.1 A card
釋義:Application scorecard 申請評分卡,對授信階段提交的資料賦值的規(guī)則。
舉例:
?
“進件”是傳統(tǒng)銀行的說法,指申請單。評分卡是對一系列用戶信息的綜合判斷。隨著可以收集到的用戶信息變多,授信決策者不再滿足于簡單的if、else邏輯,而是希望對各個資料賦予權重和分值,根據(jù)用戶最后綜合得分判斷風險,通過劃定分數(shù)線調(diào)整風險容忍度,評分卡應運而生。評分卡是邏輯回歸算法的一種衍生。
1.2 B card
釋義:Behavior scorecard 行為評分卡,對貸后可以收集到的用戶信息進行評分的規(guī)則。
舉例:與
?A ?
卡類似,B卡也是一套評分規(guī)則,在貸款發(fā)放后,通過收集用戶拿到錢后的行為數(shù)據(jù),推測用戶是否會逾期,是否可以繼續(xù)給該用戶借款。例如用戶在某銀行貸款后,又去其他多家銀行申請了貸款,那可以認為此人資金短缺,可能還不上錢,如果再申請銀行貸款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客戶模型,找出價值較高客戶,增加貸款額度模型等等。
1.3 C card
釋義:Collection scorecard 催收評分卡,對已逾期用戶未來出催能力做判斷的評分規(guī)則。
舉例:催收評分卡是行為評分卡的衍生應用,其作用是預判對逾期用戶的催收力度。對于信譽較好的用戶,不催收或輕量催收即可回款。對于有長時間逾期傾向的用戶,需要從逾期開始就重點催收。逾期天數(shù)越多,催收難度越大。
催收一般分為多個坐席,M1,M2,M3等不同坐席員工經(jīng)驗和業(yè)務能力相差甚大。AI人工智能常用于前期自動化催收。
申請評分卡、行為評分卡和催收評分卡常合并稱為“ABC卡”,應用在貸前、貸中和貸后管理。
1.4 MIS
釋義:Management Information System 管理信息系統(tǒng)。
舉例:MIS_weekly是MIS 系統(tǒng)出的周報,是從風控角度出發(fā),涵蓋當期重要數(shù)據(jù)和歷史用戶的風險表現(xiàn),是授信模塊需重點關注的報表。
1.5 Ser
釋義:service的簡寫?!?ser” 是決策引擎工具SMG3的工程文件格式,故用 ser代指決策引擎規(guī)則版本。
舉例:SMG3(Strategy
?Management Generation 3)是Experian提供的決策引擎工具,類 ?
似的工具還有FICO的Blaze。決策引擎是一系列規(guī)則的集合,可處理大量的入?yún)ⅲ罱K輸出結論。決策引擎規(guī)則是授信的核心構成之一,通常每個細分人群都會單獨配置一個Ser,同一個授信流程也可執(zhí)行多個Ser。
1.6 RBP
釋義:Risk-based Pricing,風險定價。
舉例:量化風險管理的一個核心就是風險定價,可以根據(jù)用戶人群、模型決策風險、外部征信數(shù)據(jù)等條件,給用戶授予額度和費率。
2、風控指標部分
2.1 Aging analysis
釋義:賬齡分析。顯示各期至觀察點為止的延滯率,其特點為結算終點一致,把分散于各個月的放貸合并到一個觀察時間點合并計算逾期比率。
2.2 Vintage analysis
釋義:統(tǒng)計每個月新增放款在之后各月的逾期情況,同樣也是賬齡分析。與aging analysis不同,vintage以貸款的賬齡為基礎,觀察貸后N個月的逾期比率。也可用于分析各時期的放貸后續(xù)質(zhì)量,觀察進件規(guī)則調(diào)整對債權質(zhì)量的影響。
舉例:Deliquency Vintage 30+:表現(xiàn)月逾期30+剩余本金/對應賬單生成月發(fā)放貸款金額。

2.3 C 、M
釋義:C和M是描述逾期期數(shù)bucket的專有名詞。M0為正常資產(chǎn),Mx為逾期
?x 期,Mx+為逾x期(含)以上。無逾期正常還款的bucket為M0,即C,M1即逾1期(1-29天) 。 M2+即逾2期及以上(30+)
。M2和M4是兩個重要的觀察節(jié)點,一般認為M1為前期,M2-M3為中期,M4以上為后期,大于M6的轉(zhuǎn)呆賬。
2.4 Delinquency
釋義:逾期率/延滯率。評價資產(chǎn)質(zhì)量的指標,可分為Coincident和Lagged兩種觀察方式。
2.5 Coincident
釋義:
?
即期指標。用于分析當期所有應收賬款的質(zhì)量,計算延滯率。計算方式是以當期各bucket延滯金額除以本期應收賬款(AR)總額。Coincident是在當前觀察點總覽整體,所以容易受到當期應收賬款的高低導致波動,這適合業(yè)務總量波動不大的情況下觀察資產(chǎn)質(zhì)量。
舉例:??吹囊粋€指標Coincident DPD 30+
2.6 Lagged
釋義: 遞延指標。與coincident相同也是計算延滯率的一個指標,區(qū)別是lagged的分母為產(chǎn)生逾期金額的那一期的應收賬款。Lagged觀察的是放貸當期所產(chǎn)生的逾期比率,所以不受本期應收賬款的起伏所影響。
舉例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6
月末資產(chǎn)余額M1(1-29天): 統(tǒng)計月份月末資產(chǎn)中滿足 1≤當前逾期天數(shù)≤29 的訂單剩余本金總和,當前逾期天數(shù)為訂單當前最大逾期天數(shù),不包含壞賬訂單。
Lagged M1 =月末M1的貸款余額/上個月底的貸款余額(M0~M6)

2.7.0 PD(Past Due)
例如FPD1,SPD7,TPD30...
前面的字母,F(xiàn):first,表示第一期逾期,同理 S,T,Q分別表示二 三 四, 后面會用數(shù)字表示。 如5PD30。
后面的數(shù)字, 指逾期天數(shù),如果一個客戶身上有FPD30的標記,那必然有FPD1 FPD7等小于30的標記。
dpd(days past due)逾期天數(shù),貸放型產(chǎn)品自繳款截止日(通常為次一關賬日)后一天算起。
?4期中,任意一期逾期天數(shù)超過30天就算壞客戶
需注意的一點,PD類指標通?;コ?,也就是說一個人如果有了FPD標志就不會有SPD標志,SPD表示第一期正常還款但是第二期才出現(xiàn)逾期的客戶。
2.7 DPD
釋義:Days Past Due 逾期天數(shù),自還款日次日起到實還日期間的天數(shù)。
舉例:DPD7+/30+,大于7天和30天的歷史逾期。業(yè)內(nèi)比較嚴格的逾期率計算公式為:在給定時間點,當前已經(jīng)逾期90天以上的借款賬戶的未還剩余本金總額除以可能產(chǎn)生90+逾期的累計合同總額。其分子的概念是,只要已經(jīng)產(chǎn)生90天以上逾期,那么未還合同剩余本金總額都視為有逾期可能,而分母則將一些借款賬齡時間很短的,絕對不可能產(chǎn)生90+逾期的合同金額剔除在外(比如只在2天前借款,無論如何都不可能產(chǎn)生90天以上逾期)。
2.8 FPD
釋義:First
?Payment ?
Deliquency,首次還款逾期。用戶授信通過后,首筆需要還款的賬單,在最后還款日后7天內(nèi)未還款且未辦理延期的客戶比例即為FPD ?
7,分子為觀察周期里下單且已發(fā)生7日以上逾期的用戶數(shù),分母為當期所有首筆下單且滿足還款日后7天,在觀察周期里的用戶數(shù)。常用的FPD指標還有FPD
?30。
舉例:假設用戶在10.1日授信通過,在10.5日通過分期借款產(chǎn)生了首筆分3期的借款,且設置每月8日為還款日。則11.08是第一筆賬單的還款日,出賬日后,還款日結束前還款則不算逾期。如11.16仍未還款,則算入10.1-10.30周期的

FPD7的分子內(nèi)。通常逾期幾天的用戶可能是忘了還款或一時手頭緊張,但FPD 7 指標可以用戶來評價授信人群的信用風險,對未來資產(chǎn)的健康度進行預估。
與FPD
?7 類似,F(xiàn)PD ?
30也是對用戶首筆待還賬單逾期情況進行觀察的指標。對于逾期30天內(nèi)的用戶,可以通過加大催收力度挽回一些損失,對于逾期30天以上的用戶,催收回款的幾率就大幅下降了,可能進行委外催收。如果一段時間內(nèi)的用戶FPD
?7較高,且較少催收回款大多落入了FPD 30 ?
內(nèi),則證明這批用戶群的non-starter比例高,借款時壓根就沒想還,反之則說明用戶群的信用風險更嚴重。
2.9 Cpd30mob4
cpd用于催收模型,是催收指標,還款表現(xiàn)第四個月月末時點逾期是否超過30天,不包括歷史
3.0 maxdpd30_mob4
四個觀察期(月)內(nèi),逾期是否超過30天,包括歷史
3.1 MOB在賬月份
放款后的月份
舉例:
MOB0,放款日至當月月底
MOB1,放款后第二個完整月份
MOB2,放款后第三個完整月份
mob3-3個月為短觀察期,mob6-6個月為長觀察期
3.2 Flow Rate
釋義:遷徙率。觀察前期逾期金額經(jīng)過催收后,仍未繳款而繼續(xù)落入下一期的幾率。
舉例:M0-M1=M月月末資產(chǎn)余額M1 / 上月末M0的在貸余額
8月M0-M1 :8月進入M1的貸款余額 / 8月月初即7月月末M0的在貸余額
補充信息:
宏觀經(jīng)濟中
短期風險可以使用FDP,SPD,TPD進行衡量;
中期風險可以使用30+@MOB4;
長期風險使用90+@MOB6等
To
?measure the short-term risk, FPD,SPD,TPD could be used; To measure the
?middle-term risk, 30+@MOB4 could be used; To measure the long-term
risk, ?90+@MOB6 could be used;
不同產(chǎn)品應用不同指標
Fpd30(現(xiàn)金貸產(chǎn)品)
maxdpd30_mob4 (存量客戶)
Cpd30mob4(催收客戶)
汽車貸壞客戶定義(僅做參考)

說明:由于場景細分,不同場景差異化較大,以上指標說明僅做參考。
3、風控模型部分
3.1 Benchmark
釋義:基準。每個版本的新模型都要與一個線上的基準模型或規(guī)則集做效果比對。
3.2 IV
釋義:information
?value 信息值,也稱VOI,value of ?
information,取值區(qū)間(0,1)。該值用來表示某個變量的預測能力,越大越好。金融風控篩選變量閾值為0.02。如果變量的iv低于0.02,那么變量就會被踢除。我作為模型專家提醒大家,iv值不能死記硬背,需要根據(jù)自己場景數(shù)據(jù)分布特點來定制閾值。不同場景變量iv值分布差異可能較大,例如放貸,車貸和現(xiàn)金貸。

3.3 K-S value
釋義:K-S指klmogrov-smirnov,這是一個區(qū)隔力指標。所謂區(qū)隔力,是指模型對于好壞客戶的區(qū)分能力。K-S值從0-1,越大越好,越小越差。真實場景中風控領域的模型ks能超過0.4的很少。

3.4 PSI
釋義:population
?stability ?
index,穩(wěn)定度指標,越低越穩(wěn)定。用于比較當前客群與模型開發(fā)樣本客群差異程度,評價模型的效果是否符合預期。PSI越接近0,模型穩(wěn)定性越好。當PSI小于0.1時表示模型比較穩(wěn)定,當psi在0.1和0.25之間時模型穩(wěn)定性出現(xiàn)波動,需要檢查模型,如果必要,需要重新開發(fā)模型。

3.6 Logloss
釋義:對數(shù)損失函數(shù)
當預測概率接近1時,對數(shù)損失緩慢下降。但隨著預測概率的降低,對數(shù)損失迅速增加。對數(shù)損失值越大時,模型精確度越差,反之亦然。

3.7 Training Sample
釋義:建模樣本,用來訓練模型的一組有表現(xiàn)的用戶數(shù)據(jù)。配合該樣本還有off-time sample(驗證樣本),兩個樣本都取同樣的用戶維度,通常要使用建模樣本訓練出的模型在驗證樣本上進行驗證。
3.8 WOE
釋義:weight
?of ?
ecidence,證據(jù)權重,取值區(qū)間(-1,1)。違約件占比高于正常件,WOE為負數(shù)。絕對值越高,表明該組因子區(qū)分好壞客戶的能力越強。評分卡模型的數(shù)據(jù)需要把原始數(shù)據(jù)轉(zhuǎn)換為woe數(shù)據(jù),從而減少變量的方差,使其平滑。IV值也是由woe值轉(zhuǎn)換而來。由于woe在評估變量時有一定缺陷,因此一般用iv值評估變量重要性。

3.9 Bad Capture Rate
釋義:壞用戶捕獲率。這是評價模型效果的一個指標,比率越高越好。
舉例:Top 10% Bad Capture Rate是指模型評估出的最壞用戶中的前10%用戶,在樣本中為壞用戶的比率。
3.10 Population
釋義:All Population,全體樣本用戶,包含建模樣本與驗證樣本。
3.11 Variable
釋義:變量名。每個模型都依賴許多的基礎變量和衍生變量作為入?yún)ⅰW兞康拿枰弦?guī)范,易于理解和擴充。建模前變量是需要篩選的。大數(shù)據(jù)模型中,百分之90%以上變量是噪音變量。真正有用變量是其中極少部分。
3.12 CORR
釋義:相關系數(shù)。Corr的絕對值越接近1,則線性相關程度越高,越接近0,則相關程度越低。相關系數(shù)計算要看數(shù)據(jù)分布,如果數(shù)據(jù)呈現(xiàn)正太分布,用皮爾森方法準確率較高;反之用斯皮爾曼方法更合適。
3.13 混淆矩陣confusion matrix
sensitivity:真陽性條件下,測試也是陽性
specificity:真陰性條件下,測試也是陰性
FALSE positive:真陰性條件下,測試卻是陽性
FALSE negative:真陽性條件下,測試卻是陰性


3.14 模型算法
邏輯回歸(logistic regression)
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數(shù)L將w‘x+b對應一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項式函數(shù)就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。

支持向量機(Support Vector Machine, SVM)
支持向量機(Support Vector Machine, SVM)是一類按監(jiān)督學習(supervised learning)方式對數(shù)據(jù)進行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-margin hyperplane)。SVM被提出于1964年,在二十世紀90年代后得到快速發(fā)展并衍生出一系列改進和擴展算法,在人像識別、文本分類等模式識別(pattern recognition)問題中有得到應用。支持向量機算法在小樣本數(shù)據(jù)效果較好,訓練大數(shù)據(jù)時耗時較長。

神經(jīng)網(wǎng)絡( Neural network )
邏輯性的思維是指根據(jù)邏輯規(guī)則進行推理的過程;它先將信息化成概念,并用符號表示,然后,根據(jù)符號運算按串行模式進行邏輯推理;這一過程可以寫成串行的指令,讓計算機執(zhí)行。然而,直觀性的思維是將分布式存儲的信息綜合起來,結果是忽然間產(chǎn)生的想法或解決問題的辦法。這種思維方式的根本之點在于以下兩點:1.信息是通過神經(jīng)元上的興奮模式分布存儲在網(wǎng)絡上;2.信息處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成的。
注意:計算機神經(jīng)網(wǎng)絡和人腦生物神經(jīng)網(wǎng)絡運作原理是不同的。
有點:處理大數(shù)據(jù)高效,可處理復雜和多維數(shù)據(jù),靈活快速
缺點:數(shù)據(jù)需要預處理

XGboost
XGBoost是一個優(yōu)化的分布式梯度增強庫,旨在實現(xiàn)高效,靈活和便攜。它在 Gradient Boosting 框架下實現(xiàn)機器學習算法。XGBoost提供并行樹提升(也稱為GBDT,GBM),可以快速準確地解決許多數(shù)據(jù)科學問題。相同的代碼在主要的分布式環(huán)境(Hadoop,SGE,MPI)上運行,并且可以解決數(shù)十億個示例之外的問題。XGboost是集成樹算法,由陳天奇發(fā)明,該算法在kaggle競賽多次奪冠


4、風控基礎詞匯部分
4.1 APR
釋義:Annual percentage rate,年度百分率,一年一次復利計息的利率。nominal APR名義利率,effective APR實際利率。
4.2 AR
釋義:accounts receivable,當期應收賬款。
4.3 Application fraud
釋義:偽冒申請
4.4 Transaction fraud
釋義:欺詐交易
4.5 Balance Transfer
釋義:余額代償,即信用卡還款業(yè)務。
4.6 Collection
釋義:
?催收。根據(jù)用戶入催時間由短到長,分為Early collection(早期催收)、Front end(前段催收)、Middle ?
range(中段催收)、Hot core(后段催收)Recovery(呆賬后催收/壞賬收入)這幾個階段,對應不同的催收手段和頻率。
4.7 DBR
釋義:debit burden ratio,負債比。通常債務人的在各渠道的總體無擔保負債不宜超過其月均收入的22倍。
4.8 Installment
釋義:分期付款
4.9 IIP
釋義: 計提的壞賬準備
4.10 PIP
釋義:資產(chǎn)減值損失
4.11 NCL
釋義:net credit loss,凈損失率。當期轉(zhuǎn)呆賬金額減去當期呆賬回收即為凈損失金額。
4.12 Loan Amount
釋義:在貸總額
4.13 MOB
釋義:month on book 賬齡
舉例:MOB0,放款日至當月月底。MOB1,放款后第二個完整月份
4.14 Non-starter
釋義:惡意逾期客戶
4.15 Payday Loan
釋義:發(fā)薪日貸款。無抵押的信用貸款,放款速度快,額度低,期限短但利率高。額度低和高利率是該模式的必要條件。
4.16 Revolving
釋義:循環(huán)信用。提錢樂信用錢包給用戶的就是循環(huán)額度,相對應的還有醫(yī)美、教育類的專項額度。
4.17 WO
釋義:Write-off ,轉(zhuǎn)呆賬,通常逾期6期以上轉(zhuǎn)呆賬。
5.金融風控建模實戰(zhàn)經(jīng)典教學案例
5.1 德國銀行信用數(shù)據(jù)集(German credit)
5.2 江蘇城投企業(yè)信用評級
https://ke.qq.com/course/3063615?tuin=dcbf0ba


5.3 美國金融科技公司lendingclub信貸數(shù)據(jù)集
5.4 消費者人群畫像—信用智能評分
舉辦單位福建省數(shù)字福建建設領導小組辦公室 & 福建省工業(yè)和信息化廳 & 福州市人民政府 & 中國電子信息產(chǎn)業(yè)發(fā)展研究院 & 數(shù)字中國研究院 & 中國互聯(lián)網(wǎng)投資基金
https://ke.qq.com/course/3063950?tuin=dcbf0ba


6、金融信息收集網(wǎng)站
6.1股票/債券市場輿情分析和預警相關網(wǎng)站
萬得,東方財富網(wǎng) ,訊數(shù)據(jù),彭博
6.2反洗錢調(diào)查
FATFhttp://www.fatf-gafi.org/
反洗錢金融行動特別工作組 ? 。西方七國為專門研究洗錢的危害、預防洗錢并協(xié)調(diào)反洗錢國際行動而于1989年在巴黎成立的政府間國際組織,是目前世界上最具影響力的國際反洗錢和反恐融資領域最具權威性的國際組織之一。目前包括36個成員管轄區(qū)和2個區(qū)域組織,代表全球各地的大多數(shù)主要金融中心。其制定的反洗錢四十項建議和反恐融資九項特別建議(簡稱 ?FATF 40+9項建議),是世界上反洗錢和反恐融資的最權威文件
銀行家年鑒(https://accuity.com/) 道瓊斯(https://www.dowjones.com/)
6.3企業(yè)理財公告信息智能提取,助力銀行客戶經(jīng)理營銷
巨潮資訊網(wǎng)
歡迎學習更多風控建模相關知識《python金融風控評分卡模型和數(shù)據(jù)分析微專業(yè)課》

