新網(wǎng)銀行模型競(jìng)賽點(diǎn)評(píng)-小微風(fēng)控算法大賽-早期風(fēng)險(xiǎn)識(shí)別

大賽背景
小微企業(yè)在經(jīng)濟(jì)發(fā)展過(guò)程中發(fā)揮著非常重要的作用、促進(jìn)小微企業(yè)普惠金融服務(wù)是國(guó)家政策大力支持的方向,如何充分運(yùn)用數(shù)字化風(fēng)險(xiǎn)評(píng)估手段解決小微企業(yè)面臨融的資難、融資慢、融資貴問(wèn)題,也是金融機(jī)構(gòu)關(guān)注的重要問(wèn)題,新網(wǎng)銀行以建設(shè)“新一代數(shù)字科技普惠銀行”為愿景, 始終堅(jiān)持技術(shù)立行,通過(guò)敏捷的信息科技體系和精準(zhǔn)的智能風(fēng)控體系,推動(dòng)數(shù)字普惠金融業(yè)務(wù)發(fā)展。本次大賽以小微風(fēng)控為主題,期待挑戰(zhàn)者利用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型,對(duì)小微企業(yè)數(shù)據(jù)充分探索,開(kāi)發(fā)出區(qū)分效果好,穩(wěn)定性高的風(fēng)控模型,助力小微風(fēng)控。
賽題描述
賽道A:小微風(fēng)控算法大賽-早期風(fēng)險(xiǎn)識(shí)別
此賽道僅在讀本科生可報(bào)名,若為在讀研究生及以上,請(qǐng)報(bào)名賽道B:小微風(fēng)控算法大賽-長(zhǎng)期風(fēng)險(xiǎn)識(shí)別
本賽道需要選手基于所提供的數(shù)據(jù)構(gòu)建模型準(zhǔn)確預(yù)測(cè)小微客戶早期風(fēng)險(xiǎn),數(shù)據(jù)既包含經(jīng)過(guò)脫敏處理的小微企業(yè)法人基本信息、歷史借貸信息、申請(qǐng)行為信息、工商司法信息以及貸款申請(qǐng)后的早期風(fēng)險(xiǎn)表現(xiàn)數(shù)據(jù),期望選手開(kāi)發(fā)模型,對(duì)客戶早期風(fēng)險(xiǎn)進(jìn)行識(shí)別,幫助金融機(jī)構(gòu)進(jìn)一步提升模型在小微企業(yè)信貸風(fēng)控中的信用風(fēng)險(xiǎn)識(shí)別和防范能力。
時(shí)間安排
報(bào)名(即日-11月2日)
報(bào)名方式:參賽選手于報(bào)名規(guī)定時(shí)間內(nèi)在DataCastle大數(shù)據(jù)競(jìng)賽平臺(tái)完成注冊(cè)和報(bào)名。
初賽(即日-11月8日)
(1)初賽于DataCastle平臺(tái)線上進(jìn)行,選手需在DataCastle平臺(tái)下載數(shù)據(jù),在本地進(jìn)行算法調(diào)試,并在DataCastle提交結(jié)果,提交數(shù)據(jù)文件為 .csv格式,utf-8編碼。
(2)客觀提交分公榜、私榜兩部分,公榜成績(jī)將在每次完成提交后,進(jìn)入評(píng)分系統(tǒng),并及時(shí)出分。公榜每天提交次數(shù)上限5次,提交文件格式錯(cuò)誤將不計(jì)入當(dāng)日成功提交次數(shù)內(nèi),當(dāng)日總提交次數(shù)不能超過(guò)20次(詳見(jiàn)“常見(jiàn)問(wèn)題”)。私榜成績(jī)將在團(tuán)隊(duì)選擇提交公榜文件后(如未選擇,則系統(tǒng)默認(rèn)選擇公榜最優(yōu)成績(jī)+最后提交文件提交至私榜),公榜截止后公布私榜排名。
????公榜客觀提交時(shí)間為:即日至2022-11-08 17:00:00;
????私榜選擇文件時(shí)間為:2022-11-07 17:00:00至2022-11-08 17:00:00。
復(fù)賽(11月15日-11月19日)
(1)各賽道私榜排名前20名參賽團(tuán)隊(duì)進(jìn)入復(fù)賽,進(jìn)入復(fù)賽的隊(duì)伍需在2022年11月14日24:00前提交選手身份證明材料和主觀評(píng)審材料。
(2)主觀評(píng)審材料提交。進(jìn)入復(fù)賽的隊(duì)伍需提交與私榜出分情況相同的模型和研究報(bào)告(包括報(bào)告正文、編程源代碼)至組委會(huì)郵箱 stat@swufe.edu.cn 。報(bào)告文件夾名為:隊(duì)號(hào)-隊(duì)長(zhǎng)姓名-比賽階段(第X隊(duì)-張三-復(fù)賽),組委會(huì)提供報(bào)告固定格式。
(3)報(bào)告正文統(tǒng)一為word或pdf格式,可附其余支撐材料。所有提交材料請(qǐng)打包壓縮成zip格式,壓縮包大小不超過(guò)300MB,壓縮包命名格式為:隊(duì)號(hào)-隊(duì)長(zhǎng)姓名-比賽階段。
(4)組織專家進(jìn)行線上評(píng)審,各賽道選拔5支隊(duì)伍進(jìn)入決賽。
(5)組委會(huì)將于11月19日公布進(jìn)入決賽的隊(duì)伍名單。
決賽(11月27日)
(1)各團(tuán)隊(duì)根據(jù)各自指導(dǎo)教師意見(jiàn)完善研究報(bào)告,并在2022年11月23日24:00之前將修改后的電子版研究報(bào)告提交到組委會(huì)郵箱。報(bào)告文件夾名為:隊(duì)號(hào)-隊(duì)長(zhǎng)姓名-比賽階段(第X隊(duì)-張三-決賽)。
(2)決賽以答辯的形式開(kāi)展,答辯主要包括對(duì)研究報(bào)告的陳述和答疑兩個(gè)環(huán)節(jié),團(tuán)隊(duì)推選1名隊(duì)員進(jìn)行研究報(bào)告的陳述。專家、觀眾提問(wèn),參賽選手答疑。
(3)決賽時(shí)間:2022年11月27日。
大賽獎(jiǎng)項(xiàng)
以進(jìn)入復(fù)賽的各賽道有效團(tuán)隊(duì)為基數(shù),設(shè)置獎(jiǎng)項(xiàng)如下
一等獎(jiǎng):10%/賽道
二等獎(jiǎng):20%/賽道
三等獎(jiǎng):30%/賽道
進(jìn)入決賽答辯的隊(duì)伍將角逐由新網(wǎng)銀行提供的競(jìng)賽獎(jiǎng)金:
數(shù)據(jù)菁英獎(jiǎng):12,000元,1隊(duì)/賽道
數(shù)據(jù)英才獎(jiǎng):6,000元,2隊(duì)/賽道
數(shù)據(jù)人才獎(jiǎng):3,000元,2隊(duì)/賽道
各獲獎(jiǎng)隊(duì)伍將獲得證書(shū)及獎(jiǎng)金,數(shù)據(jù)菁英獎(jiǎng)、數(shù)據(jù)英才獎(jiǎng)隊(duì)伍的指導(dǎo)教師獲得優(yōu)秀指導(dǎo)教師證書(shū)。證書(shū)由承辦單位蓋章,四川省教育廳發(fā)布獲獎(jiǎng)通知。
評(píng)分標(biāo)準(zhǔn)
初賽評(píng)分規(guī)則:
根據(jù)初始最終私榜隊(duì)伍排名(AUC)換算成績(jī),換算公式如下:
初賽評(píng)分 = MAX(100 - 初賽評(píng)分排名,0)
初賽設(shè)置公私榜,初賽結(jié)束后線上排名由公榜切換為私榜排名
復(fù)賽評(píng)分規(guī)則:
復(fù)賽評(píng)分 = 80%* MAX(100 - 初賽評(píng)分排名,0) + 20%*主觀評(píng)審成績(jī)
其中:主觀評(píng)審成績(jī)總分100,包含以下維度:報(bào)告完整性(20%) ,代碼規(guī)范性(20%) ,問(wèn)題分析和探索(30%),方案創(chuàng)新性(30%) ,每項(xiàng)維度打分,分為5個(gè)檔次,優(yōu)異-100分,優(yōu)秀-90分,良好-80分,中等-70分,中等以下60分。
決賽評(píng)分規(guī)則:
決賽評(píng)分 = 60%*復(fù)賽成績(jī) + 40%*答辯成績(jī)
答辯演示成績(jī)總分100,評(píng)價(jià)維度如下:現(xiàn)場(chǎng)陳述(20%) ,現(xiàn)場(chǎng)問(wèn)答(20%),問(wèn)題分析和探索(30%),方案創(chuàng)新性(30%) ,每項(xiàng)維度打分,分為5個(gè)檔次,優(yōu)異-100分,優(yōu)秀-90分,良好-80分,中等-70分,中等以下60分。
參賽與組隊(duì)規(guī)則
所有參賽人員及隊(duì)伍,視為已同意《DC競(jìng)賽作弊管理規(guī)則》及其他相關(guān)規(guī)定。隊(duì)長(zhǎng)對(duì)其隊(duì)員的參賽行為負(fù)責(zé)
參賽對(duì)象:大賽向在校學(xué)生開(kāi)放
本科生僅可選賽道A:小微風(fēng)控算法大賽-早期風(fēng)險(xiǎn)識(shí)別;
研究生及以上(碩士/博士)僅可選賽道B:小微風(fēng)控算法大賽-長(zhǎng)期風(fēng)險(xiǎn)識(shí)別。
全國(guó)在校大學(xué)生(本科、碩士/博士生)均可報(bào)名參加,本科生僅能參加本科生賽道,碩士/博士生僅能參加研究生賽道,每支隊(duì)伍由不超過(guò)4名參賽選手及1名指導(dǎo)老師組成,指導(dǎo)老師必須是參賽選手所屬院校在職教師,1名學(xué)生至多加入一支隊(duì)伍,鼓勵(lì)同學(xué)們跨學(xué)校、跨年級(jí)、跨專業(yè)組隊(duì)參賽。
每天提交次數(shù)上限:5次
目前有101個(gè)團(tuán)隊(duì)參賽,包括西南財(cái)經(jīng)大學(xué)等多個(gè)211院校。只要是全國(guó)高校學(xué)生都可以參加,分為研究生和本科生兩個(gè)賽道。研究生賽道難度要大些,需要關(guān)聯(lián)多個(gè)表單才能限制提升模型性能。本科生賽道可以直接對(duì)數(shù)據(jù)建模。

作者花半個(gè)小時(shí)實(shí)驗(yàn)了一下,線下AUC得分很高,本科生賽道可以達(dá)到0.819,研究生賽道可以達(dá)到0.826.


但提交數(shù)據(jù)后,效果不佳,只能達(dá)到0.76多,說(shuō)明這次新網(wǎng)銀行的驗(yàn)證數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集是不同時(shí)間段的,模型存在顯著的過(guò)度擬合。建議各位同學(xué)在選擇算法時(shí),采用避免過(guò)度擬合的算法。
這是目前排行榜,本科生賽道第一名已經(jīng)上了0.78,說(shuō)明目前部分高校學(xué)生已經(jīng)有專業(yè)建模能力。

這是關(guān)于模型競(jìng)賽的數(shù)據(jù)說(shuō)明:
100個(gè)風(fēng)險(xiǎn)特征(人口統(tǒng)計(jì)特征,貸款與查詢記錄,企業(yè)工商司法信息等),一個(gè)客戶對(duì)應(yīng)一行記錄;
風(fēng)險(xiǎn)標(biāo)簽:1個(gè),由客戶借款后是否出現(xiàn)首期逾期等特征加工,二分類(0、1);
樣本量:總計(jì)2.5萬(wàn);訓(xùn)練集數(shù)量17884,正樣本占比10%,測(cè)試集數(shù)量7116(公榜3522,私榜3594),正樣本占比5%;
說(shuō)明:相關(guān)數(shù)據(jù)經(jīng)過(guò)脫敏,分層抽樣、模擬轉(zhuǎn)換等處理,不涉及客戶隱私,不反映金融機(jī)構(gòu)真實(shí)業(yè)務(wù)數(shù)據(jù)指標(biāo)。

我們可以看出新網(wǎng)銀行可能出于合規(guī)考慮,把變量真實(shí)業(yè)務(wù)名稱都屏蔽了。其實(shí)這不利于模型競(jìng)賽,不方便大家衍生變量處理。lending club,home credit數(shù)據(jù)集都展示了真實(shí)變量。作者認(rèn)為我們通過(guò)建模和數(shù)據(jù)挖掘就是為了挖掘重要變量,然后反饋業(yè)務(wù)線。如果變量名被屏蔽了,模型競(jìng)賽沒(méi)有太大真實(shí)意義,期待主辦方可以有更開(kāi)放行為。
我方通過(guò)初步測(cè)試,發(fā)現(xiàn)query_13是最重要變量,可能是查詢記錄。

關(guān)于模型AUC提升,我建議大家在描述性統(tǒng)計(jì),變量選擇,衍生變量和調(diào)參上多做功夫。描述性統(tǒng)計(jì)不能忽略,有的變量是無(wú)意義的需要剔除。衍生變量可以略微提升模型。變量篩選和調(diào)參是重頭戲,也是最耗時(shí)部分。
如果有機(jī)器學(xué)習(xí)論文專利定制服務(wù),請(qǐng)聯(lián)系扣扣:231469242。

今年最新的新網(wǎng)銀行模型競(jìng)賽就為大家介紹到這里,如果大家對(duì)消費(fèi)金融的風(fēng)控模型技術(shù)感興趣,想在這次競(jìng)賽中提升模型性能,歡迎了解系列課《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析微專業(yè)課(加強(qiáng)版)》。課程對(duì)描述性統(tǒng)計(jì),變量選擇,衍生變量,調(diào)參,stacking融合模型,非平衡數(shù)據(jù)處理,評(píng)分卡,xgboost,lightgbm,catboost建模都有詳細(xì)描述。

版權(quán)聲明:文章來(lái)自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。