金融風(fēng)控模型開發(fā)SOP(標(biāo)準(zhǔn)操作流程)
平衡各方利益的模型才是最好模型
---Toby!2022 07 07
各位朋友大家好,我是Toby老師。之前有很多風(fēng)控朋友咨詢?nèi)绾未罱L(fēng)控模型。今天我拋磚引玉為大家講述金融風(fēng)控模型開發(fā)SOP(標(biāo)準(zhǔn)操作流程),供大家參考。

一.SOP標(biāo)準(zhǔn)操作流程
SOP,是 Standard Operating Procedure三個(gè)單詞中首字母的大寫 ,即標(biāo)準(zhǔn)作業(yè)程序,指將某一事件的標(biāo)準(zhǔn)操作步驟和要求以統(tǒng)一的格式描述出來,用于指導(dǎo)和規(guī)范日常的工作。SOP的精髓是將細(xì)節(jié)進(jìn)行量化,通俗來講,SOP就是對(duì)某一程序中的關(guān)鍵控制點(diǎn)進(jìn)行細(xì)化和量化。實(shí)際執(zhí)行過程中sop核心是符合本企業(yè)并可執(zhí)行,不流于形式。
模型開發(fā)SOP
模型開發(fā)sop即指“模型開發(fā)標(biāo)準(zhǔn)操作程序”,將開發(fā)過程統(tǒng)一為標(biāo)準(zhǔn)操作步驟和要求,用來指引模型開發(fā)日常的工作。
模型開發(fā)并非易事,需要平衡業(yè)務(wù)方,模型開發(fā)方,驗(yàn)證方,領(lǐng)導(dǎo)層等多方面需求。不同部門需求有可能發(fā)生沖突,因此模型開發(fā)需要照顧各方利益,平衡取舍。模型開發(fā)并非完全尊從教科書理論,真實(shí)大數(shù)據(jù)是不干凈的,無法完美滿足教科書上各條理論。
模型開發(fā)盡可能做到模型較高準(zhǔn)確性,較高區(qū)分能力,分?jǐn)?shù)穩(wěn)定,合理、維度合適。
模型開發(fā)SOP重要性
(1)標(biāo)準(zhǔn)化,流程化重復(fù)工作,提高建模效率和質(zhì)量
(2)便于模型驗(yàn)證和維護(hù)

二.模型開發(fā)立項(xiàng)需求
業(yè)務(wù)方或策略方(政策部)發(fā)起需求,確定模型開發(fā)方原因,使用場(chǎng)景,模型性能要求。
比如,A卡貸前審批模型主要是為了評(píng)估貸前用戶的違約概率;B卡用于預(yù)測(cè)用戶貸后違約概率;C卡用于催收。反欺詐模型預(yù)測(cè)黑產(chǎn),灰產(chǎn)用戶騙貸、薅羊毛行為;資本計(jì)量模型主要適用于 Basel 體系確定最低資本要求和進(jìn)行壓力測(cè)試。
模型立項(xiàng)可以通過郵件和會(huì)議形式確立,必要時(shí)做好會(huì)議紀(jì)要。

三.模型開發(fā)具體環(huán)節(jié)
是建模工作的主要過程,包括SQL取數(shù)、數(shù)據(jù)清洗、數(shù)據(jù)探索,變量篩選、模型建立、模型選擇,模型驗(yàn)證,模型部署,線上驗(yàn)證,模型監(jiān)控和模型迭代。

1.SQL取數(shù):
SQL取數(shù)是根據(jù)業(yè)務(wù)方需求,關(guān)聯(lián)若干表單,提取模型需要數(shù)據(jù)。公司數(shù)據(jù)量越大,基層表單越混亂,此步驟會(huì)越耗時(shí),SQL語句可能從幾十行到幾千行不等,需要熟悉公司數(shù)據(jù)庫和表單邏輯。新手寫的SQL語句還容易產(chǎn)生跑數(shù)據(jù)耗時(shí),卡死服務(wù)器等問題。
2.數(shù)據(jù)清洗:
數(shù)據(jù)清洗主要是對(duì)不能直接入模的數(shù)據(jù)做清洗處理,比如類型不對(duì)數(shù)據(jù),不合理異常值,缺失值,怪異字符串等等。入模數(shù)據(jù)必須是結(jié)構(gòu)化數(shù)據(jù),否則訓(xùn)練模型時(shí)會(huì)報(bào)錯(cuò)。對(duì)于類別變量,可以用one-hot編碼。但one-hot編碼消耗內(nèi)存,產(chǎn)生高維度變量。邏輯回歸建模時(shí)推薦WOE編碼方法。對(duì)于新一代集成樹算法catboost,可以直接申明類別變量,然后自動(dòng)處理。
3.數(shù)據(jù)探索
EDA探索性數(shù)據(jù)分析和描述性統(tǒng)計(jì),包括統(tǒng)計(jì)總體數(shù)據(jù)量大小,好壞客戶占比,數(shù)據(jù)類型有哪些,變量缺失率,變量頻率分析直方圖可視化,箱形圖可視化,變量相關(guān)性可視化等。
4.變量篩選:
從原始數(shù)據(jù)中篩選出重要變量,踢除噪音變量,相關(guān)性高變量。
常見的特征選擇方法:
IV? information value(信息價(jià)值),常用于邏輯回歸模型
Information gain(信息增益),常用于決策樹模型
Correlation coefficient scores(相關(guān)系數(shù)),通用所有模型
missing value (缺失率),刪除缺失率接近1的變量
unique value(唯一值),刪除唯一值占比接近1的變量
shap value,刪除shap值接近0的變量
5.模型建立:
模型建立就是用清洗后數(shù)據(jù),通過機(jī)器學(xué)習(xí)算法建立模型。給模型喂養(yǎng)數(shù)據(jù),訓(xùn)練數(shù)據(jù),最終讓模型生成預(yù)測(cè)能力,批量預(yù)測(cè)客戶違約率。
6.模型選擇:
根據(jù)業(yè)務(wù)方需求,通過多算法比較,擇優(yōu)選擇綜合性能最佳模型。
一般而言,金融風(fēng)控領(lǐng)域模型看重AUC,ks,accuracy,psi等指標(biāo),混淆矩陣等其他指標(biāo)也要附帶參考。不同模型指標(biāo)代表不同意義。
7.模型驗(yàn)證:
模型開發(fā)過程不可或缺的一部分。它有助于發(fā)現(xiàn)表達(dá)數(shù)據(jù)的最佳模型和所選模型將來工作的性能如何。
模型驗(yàn)證分為三個(gè)環(huán)節(jié),模型開發(fā)部門首先內(nèi)部評(píng)估模型質(zhì)量是否合格,如果沒問題會(huì)發(fā)生第三方模型驗(yàn)證團(tuán)隊(duì)。第三方模型驗(yàn)證團(tuán)隊(duì)必須保證獨(dú)立性,驗(yàn)證過程不受模型開發(fā)團(tuán)隊(duì)干擾,避免既當(dāng)裁判又當(dāng)球員的作弊行為。第三方模型驗(yàn)證團(tuán)隊(duì)可以是外包公司,也可以是公司內(nèi)部團(tuán)隊(duì)。如果擔(dān)心數(shù)據(jù)泄露,優(yōu)先推薦公司內(nèi)部團(tuán)隊(duì)獨(dú)立驗(yàn)證。最后模型驗(yàn)證報(bào)告會(huì)提交給各個(gè)團(tuán)隊(duì)領(lǐng)導(dǎo)審批。如果領(lǐng)導(dǎo)認(rèn)為模型質(zhì)量有問題,會(huì)郵件批注或駁回模型。

模型評(píng)估的常見的五個(gè)?法:
混淆矩陣
lift提升圖&洛倫茲圖
基尼系數(shù)
ks曲線
roc曲線
psi模型穩(wěn)定性
由于人員編制不穩(wěn)定,部分項(xiàng)目相關(guān)同事會(huì)離職。因此模型驗(yàn)證完后需要存檔,包括模型資料保存。存檔中要完整記錄驗(yàn)證人員,開發(fā)人員,業(yè)務(wù)方人員,開發(fā)時(shí)間,模型性能,模型缺陷等內(nèi)容,以便后續(xù)人員查閱和維護(hù)。
8.模型部署
通過模型驗(yàn)證后,配置好模型的包,文檔說明,變量表,準(zhǔn)備線上部署。
9、線上線下驗(yàn)證
完成模型線上部署后,進(jìn)行模型的線上線下部署驗(yàn)證。主要測(cè)試線上模型分和線下模型分是否一致。如果線上線下模型分不一致需要找出原因。一般情況下維度高的模型容易發(fā)生線上線下分?jǐn)?shù)不一致,因此保留合適模型維度有利于模型上線后維護(hù)。
10、模型監(jiān)控
完成模型的部署和線上驗(yàn)證后,對(duì)模型進(jìn)行各維度的監(jiān)控,確定是否迭代,形成模型工作閉環(huán)。
模型監(jiān)控需要每日生成報(bào)表,郵件發(fā)送相關(guān)同事查閱。對(duì)于數(shù)據(jù)量大的金融公司,需要整合大量表,模型監(jiān)控并不是容易的事。
11.模型迭代
如果監(jiān)控模型ks,AUC,psi等指標(biāo)變化太大,需要重新迭代模型
備注:上述模型開發(fā)sop只是為大家提供一個(gè)參考模板,由于各條業(yè)務(wù)方差異,不能滿足所有場(chǎng)景。希望大家因地制宜,建好最適合自己公司的模型開發(fā)sop。
如果大家對(duì)金融風(fēng)控建模感興趣,可了解《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析(加強(qiáng)版)》
