四川省大學(xué)生金融科技建模大賽-模型復(fù)現(xiàn)和點評

年底了模型定制服務(wù)比較多,文章更新也比較慢。最近熱點是四川省大學(xué)生金融科技建模大賽。好幾個學(xué)生在咨詢我如何提升模型性能。當然他們都很優(yōu)秀,我能幫到的地方很有限,就寫篇文章統(tǒng)一答復(fù)大家。下面介紹一下模型競賽內(nèi)容。
比賽簡介
一、賽事背景
新經(jīng)濟建設(shè)背景下,成都正加快推進國家西部金融中心建設(shè),著力發(fā)展金融科技,提出《成都市金融科技發(fā)展規(guī)劃(2020-2022年)》,建設(shè)成為具有國際影響力的區(qū)域金融科技中心。在四川省教育廳大力支持下,西南財經(jīng)大學(xué)承辦新財經(jīng)競賽——第三屆“四川省大學(xué)生金融科技建模大賽”。
首屆“四川省大學(xué)生金融科技建模大賽” 共有575名來自西南財經(jīng)大學(xué)、電子科技大學(xué)、成都信息工程大學(xué)、西南交通大學(xué)、四川農(nóng)業(yè)大學(xué)、四川大學(xué)、西華大學(xué)、成都師范學(xué)院、西安歐亞學(xué)院等11個省內(nèi)外高校同學(xué)報名參賽。初賽排名前100的選手有52名本科生及48名研究生??梢姶筚愂鼙娙后w較為廣泛,各階段學(xué)生群體均參與積極。最終經(jīng)過初賽和復(fù)賽激烈競爭,來自西南財經(jīng)大學(xué)、成都信息工程大學(xué)、電子科技大學(xué)、四川大學(xué)、四川農(nóng)業(yè)大學(xué)、成都東軟學(xué)院六個高校的81位參賽選手分獲一、二、三等獎。綜合排名前10名同學(xué)受邀進入決賽答辯,角逐“新網(wǎng)銀行特別獎”。
第二屆大賽初賽階段共有502人報名,327人實際提交代碼,其中川內(nèi)高校參賽人數(shù)為281人,川外高校參賽人數(shù)為46人,繼首屆大賽以來本屆大賽發(fā)揮了較好的省際影響力。初賽參賽人數(shù)排名前十的高校為西南財經(jīng)大學(xué)、四川農(nóng)業(yè)大學(xué),成都信息工程大學(xué)、電子科技大學(xué)、吉利學(xué)院、西華大學(xué)、四川大學(xué)、華東師范大學(xué)、上海交通大學(xué)、重慶郵電大學(xué)。初賽排名前50%的選手晉級復(fù)賽,覆蓋25所高校和54個專業(yè),馬天昊等復(fù)賽綜合成績前75名的選手分獲四川省一等獎、二等獎、三等獎。第二屆大賽吸引了省內(nèi)外眾多本科生和研究生參加,均取得了非常優(yōu)異的成績。
本屆“四川省大學(xué)生金融科技建模大賽”面向四川省內(nèi)外高校全日制本科生及研究生,提出金融行業(yè)的風(fēng)險管控問題,要求參賽選手利用脫敏數(shù)據(jù),完成建模過程、呈現(xiàn)解決方案。通過賽事,參賽者能夠觸摸金融科技行業(yè)前沿課題,學(xué)以致用,培養(yǎng)解決實際問題的綜合能力和知識應(yīng)用能力。
二、賽題描述
基于客戶的申請信息和貸款產(chǎn)品的信息運用統(tǒng)計或機器學(xué)習(xí)算法有效精準地識別用戶的還款行為(是否提前還款)。申請信息包括脫敏的客戶基本情況以及客戶再該次借貸前的授信信息;貸款產(chǎn)品的信息包括該次借貸的產(chǎn)品的信息。本次比賽提供訓(xùn)練集和測試集。模型建立的最終目標是盡可能使得模型的還款預(yù)測接近真實的還款行為,模型的預(yù)測能力以測試集上的AUC值表現(xiàn)作為衡量標準。主辦方通過未公布的測試集好壞標簽計算參賽選手的模型AUC結(jié)果并排名。
本次比賽所有數(shù)據(jù)均為脫敏數(shù)據(jù),由四川新網(wǎng)銀行提供。
三、賽程安排
大賽主辦方將提供結(jié)果提交平臺,平臺語言不限。比賽全過程,選手需將比賽代碼和預(yù)測后的結(jié)果提交至平臺。
大賽由報名、初賽、復(fù)賽、評審、決賽五個環(huán)節(jié)組成。
(1)大賽報名:(9月26日—11月13日)
大賽將于9月26日至11月13日開放報名系統(tǒng),參賽選手于9月26日至11月6日期間需要在比賽平臺完成注冊,在平臺中報名加入本次大賽(注冊報名方式具體參照比賽官方交流群文件)。
(2)初賽:(10月25日—11月13日)
大賽正式啟動,參賽選手開始比賽進程,從平臺獲取數(shù)據(jù)集及賽題。選手需在自有環(huán)境中完成建模和計算過程,但均需按平臺要求提交比賽代碼和建模結(jié)果,后臺將根據(jù)提交的建模結(jié)果公布實時排名。初賽期間,選手每天有5次提交結(jié)果的機會。
(4)復(fù)賽:(11月15日—11月21日)
結(jié)果排名前50%參賽選手獲得參加復(fù)賽的資格,進入復(fù)賽的選手需在復(fù)賽規(guī)定時段完成模型及代碼優(yōu)化并提交比賽平臺。
(5)評審:(11月22日—11月24日)
由評委對代碼規(guī)范性進行評分,并結(jié)合建模結(jié)果綜合評判,評審出一、二、三等獎選手。同時,一等獎選手可獲得決賽參與資格,復(fù)賽評審結(jié)束后,決賽選手名單將及時在平臺公布。
(6)決賽:(預(yù)計11月26日)
決賽將采用答辯的方式對參賽選手進行問答,具體形式另行通知。評委將針對選手的代碼及模型進行專業(yè)提問。答辯過程考察選手建模思維和模型運用能力,綜合考量后確定獲特等獎名單。最終的評分將由復(fù)賽評審得分、答辯得分兩部分加權(quán)得出。
(以上時間若有變動,以官方最新公布為準)
四、參賽規(guī)則
(1)參賽群體:四川省內(nèi)外高校全日制本科生及研究生。
(2)報名方式:參賽選手需在比賽平臺(https://match.creditscoring.cn)完成注冊并報名加入比賽。
(3)參賽方式:
1)本次比賽為個人參賽。
2)參賽選手需填寫學(xué)校、年級、學(xué)號、姓名、手機號等信息報名比賽,報名成功后可參與比賽。
五、評選規(guī)則
(1)評審過程中以作品的科學(xué)性、先進性、現(xiàn)實意義和實用價值為基本評判標準。
(2)評審中綜合考慮本(專)科生、碩士研究生在學(xué)識水平和科研能力上的差異。
(3)所有符合資格的參賽選手在大賽各環(huán)節(jié)截止日期前所提交的作品將會得到評審。對于任何在截止日期之后提交的作品大賽組織方將不予以評審,同時,主辦方不對任何因電腦、互聯(lián)網(wǎng)、移動網(wǎng)絡(luò)故障而造成的參賽作品損壞、缺失、提交延時等后果承擔(dān)責(zé)任。
(4)初賽階段根據(jù)選手排名經(jīng)正態(tài)變換后的值計算成績。
進入復(fù)賽階段的選手,評委根據(jù)評審要求對其提交的代碼進行評分,復(fù)賽成績?yōu)椋?0%復(fù)賽排名成績+20%代碼成績,復(fù)賽排名成績計算方式與初賽階段計算方式相同。
獲一等獎的參賽選手中排名靠前者受邀進入決賽進行答辯,競爭“新網(wǎng)銀行特別獎”。
對于進入決賽階段的選手,評委將在決賽現(xiàn)場根據(jù)決賽評審規(guī)則評定得出答辯成績,決賽成績?yōu)椋?0%復(fù)賽成績 + 40%答辯成績,其中答辯成績由各評委打分的平均數(shù)得出。
(5)評委對作品的評審結(jié)果一旦給出則為最終結(jié)果,評審將不對作品給出反饋意見。
(6)以大賽專用數(shù)據(jù)的成果為主要評分標準,解釋權(quán)歸大賽組委會所有。
六、獎項設(shè)置
(1)基礎(chǔ)獎項
一等獎:復(fù)賽成績前15%,頒發(fā)獲獎證書
二等獎:復(fù)賽成績前15-30%,頒發(fā)獲獎證書
三等獎:復(fù)賽成績前30-50%,頒發(fā)獲獎證書
(2)“新網(wǎng)銀行”特別獎
新網(wǎng)銀行特等獎:第一名,獎金6000元
新網(wǎng)銀行杰出獎:第二名,獎金4000元
新網(wǎng)銀行榮譽獎:第三名,獎金3000元
新網(wǎng)銀行優(yōu)勝獎:第四至十名,獎金1000元
七、參賽協(xié)議
1.參賽作品必須保證其原創(chuàng)性,作品不得違反任何中華人民共和國的有關(guān)法律,不侵犯任何第三方知識產(chǎn)權(quán)或者其他權(quán)利;一經(jīng)發(fā)現(xiàn)或經(jīng)權(quán)利人提出并查證,大賽組織方將取消其參賽資格。
2.有其他以下情況的,大賽組織方可以取消參賽者參賽資格及成績:
(1)提交的應(yīng)用內(nèi)容不完整,或提交任何虛假信息;
(2)違背中華人民共和國相關(guān)法律法規(guī);
(3)涉嫌作弊行為,侵犯他人知識產(chǎn)權(quán);
(4)提交的作品包含不健康、淫穢、色情或誹謗任何第三方的內(nèi)容;
(5)提交的作品包含其他賽事組委會認為不適當?shù)膬?nèi)容;
八、主辦方權(quán)利
(1)大賽組織方保留修改比賽各環(huán)節(jié)時間包括但不限于作品提交截止日期、線下活動日期的權(quán)利。大賽組織方有權(quán)隨時暫?;蚪K止比賽。
(2)大賽組織方保留調(diào)整比賽各階段入選團隊數(shù)量的權(quán)利(包含決賽),以及調(diào)整獎項設(shè)置及獎金數(shù)額的權(quán)利。
(3)大賽組織方保留收回或拒絕授予某個特定團隊獎項的權(quán)利。
九、組委會
主辦單位:四川省教育廳
承辦單位:西南財經(jīng)大學(xué)
協(xié)辦單位:
西南財經(jīng)大學(xué)金融學(xué)院
西南財經(jīng)大學(xué)教務(wù)處
西南財經(jīng)大學(xué)金融建模協(xié)會
支持單位:四川新網(wǎng)銀行
十、賽事交流
請有意參加本次比賽的同學(xué)加入比賽官方交流QQ群:708538663,或關(guān)注公眾號:西財金模。比賽最新動態(tài)及注意事項等將在賽事交流群及公眾號上同步發(fā)布,請及時關(guān)注。
十一、其他相關(guān)消息
主辦方將在競賽信息群內(nèi)發(fā)布指導(dǎo)手冊以及解答競賽相關(guān)問題。指導(dǎo)手冊內(nèi)包含一些基本問題的回答以及相關(guān)培訓(xùn)課程。
十二、賽題數(shù)據(jù)
數(shù)據(jù)提交:參賽者需提交為格式為.xlsx(excel格式)的預(yù)測結(jié)果,包含測試集的ID(列名指定為ID)和預(yù)測分數(shù)(列名指定為LABEL)
本次提供數(shù)據(jù)分為以下幾部分:
訓(xùn)練集:trainX.xlsx
訓(xùn)練集標簽:trainY.xlsx
測試集:testX.xlsx
提交樣例:
ID?LABEL
1?0.475614509
2?0.126453848
3?0.523678444
4?0.475614509
5?0.126453848
6?0.523678444
… ...
排名
目前有353支團隊參賽,第一名是電子科技大學(xué)的洛天依,AUC=0.84,活躍積分270,看來提交次數(shù)不是最多的。第二名是西南財經(jīng)大學(xué)的lz不給,AUC=0.839,活躍積分720分??磥淼诙麑嶒灤螖?shù)比第一名多,但仍然沒有超越第一名,祝再接再厲,再創(chuàng)新高!最后批次參賽者AUC只有0.5左右,看來是初步接觸機器學(xué)習(xí),還沒有經(jīng)驗,打醬油玩。

。。。。。。。。。。。。。

看到學(xué)生們?nèi)绱藘?yōu)異成績,不禁感嘆長江后浪推前浪,希望大家再接再厲,再創(chuàng)輝煌!
上述就是官方對模型的介紹,接下來,我用半個小時實驗初步復(fù)現(xiàn)了模型。實驗的模型性能是線下,沒有線上提交。根據(jù)和幾個同學(xué)交流,線上線下差異不大,差異在百分之一到千分之二左右。
關(guān)于模型AUC提升,我有以下建議:
1.描述性統(tǒng)計
古人云知己知彼百戰(zhàn)百勝。大家在描述性統(tǒng)計多花時間,觀察變量分布和特征,針對不同變量采用不同數(shù)據(jù)預(yù)處理方法,可以提升模型性能。
2.衍生變量
此數(shù)據(jù)集有205個變量,是非常適合做衍生變量的。新的衍生變量比原來變量可能更具有區(qū)分能力。

3.變量選擇
此數(shù)據(jù)集有205個變量,但110個變量是多余的,沒有價值意義。因此這些變量沒有必要入模型訓(xùn)練。下圖可見右邊大量變量重要性接近0.

我之前負責(zé)過公司模型驗證和審批,對變量降維特別嚴格,對冗余的模型特別厭惡。這和模型競賽思路有很大差異。
例如下述變量,刪除后,模型性能既不會下降,還可減少模型過度擬合。
jieju_subj_num
jieju_dubil_bal
jieju_mbank_prin
jieju_co_bank_prin
jieju_asset_flow_trans_bal
jieju_claim_bal
jieju_amc_bal
jieju_partner_int_rate_val
jieju_loan_oper_mode_cd
jieju_asset_tran_status_cd
jieju_transfr_resrc_pool_num
jieju_guarnt_num
jieju_adv_money_bal
jieju_normal_prin
jieju_ovdue_prin
jieju_ovdue_int_bal
jieju_ovdue_punish_int_amt
jieju_ovdue_comp_int_amt
jieju_cgb_ovdue_prin_bal
jieju_cgb_ovdue_int_bal
jieju_cgb_ovdue_punish_int_amt
jieju_cgb_ovdue_comp_int_amt
jieju_prin_ovdue_days
jieju_int_ovdue_days
jieju_curr_ovdue_term
jieju_cust_dubil_bal
jieju_cust_ovdue_prin
jieju_cust_ovdue_int_bal
jieju_cust_ovdue_punish_int_amt
jieju_cust_ovdue_comp_int_amt
jieju_expd_term
jieju_reorg_ind
jieju_brw_rpay_ind
jieju_repay_freq_cd
jieju_clear_int_period_cd
jieju_pay_mode_cd
jieju_today_init_elev_level_class_cd
jieju_int_rate_adj_mode_cd
jieju_int_rate_float_mode_cd
jieju_int_rate_float_ratio
jieju_comp_ind
jieju_non_accrued_cate_cd
jieju_non_accrued_ind
jieju_impairmt_ind
jieju_wrtoff_ind
jieju_wrtoff_cate_cd
jieju_wrtoff_prin_amt
jieju_wrtoff_int_amt
jieju_wrtoff_punish_int_amt
jieju_unite_bank_wrtoff_prin_amt
jieju_unite_bank_wrtoff_int_amt
jieju_unite_bank_wrtoff_pnsh_int_amt
jieju_belong_org_num
jieju_dubil_lvl_cd
jieju_margn_rule_num
jieju_mercht_num
jieju_int_subj_num
jieju_oper_teller
jieju_memo
kehu_cust_nm_pny
kehu_cust_region_cd
kehu_city_cls_cd
kehu_cert_cate_cd
kehu_nation_cd
kehu_sch_local_region_county_cd
kehu_rsdnt_ind
kehu_emp_ind
kehu_rel_pty_ind
kehu_cust_stat_cd
kehu_cust_mgr_id
shouxin_belong_org_num
shouxin_circl_ind
shouxin_limit_ctrl_ind
shouxin_use_shared_ind
shouxin_lmt_lvl_cd
4.多算法比較
不同算法得到模型性能是不一樣的。大家多算法比較,擇優(yōu)選擇建模算法。
用集成樹算法,模型AUC在0.8093260496988347。

用邏輯回歸評分卡算法,模型AUC在0.8129137554999519左右。

4.調(diào)參
調(diào)參上多做功夫。之前有同學(xué)調(diào)參參數(shù)太少,還用的gridsearchcv。gridsearchcv比較耗時間,大家可以嘗試其他高效率工具。參數(shù)也多測試幾個,模型提升空間更大。
以集成樹算法為例,模型AUC在0.8093260496988347,模型調(diào)參后,AUC可達到0.8117677801362324。樹的深度一般在6-8之間;學(xué)習(xí)率不要太高,在0-0.1之間實驗就好。
調(diào)參給模型AUC提升非常有限,我建議大家在數(shù)據(jù)清洗,數(shù)據(jù)預(yù)處理,衍生變量,變量篩選等基礎(chǔ)環(huán)節(jié)做好工作。
對于主辦方建議
1.公開變量名
我們可以看出新網(wǎng)銀行可能出于合規(guī)考慮,把變量真實業(yè)務(wù)名稱都屏蔽了。其實這不利于模型競賽,不方便大家衍生變量處理。lending club,home credit數(shù)據(jù)集都展示了真實變量。作者認為我們通過建模和數(shù)據(jù)挖掘就是為了挖掘重要變量,然后反饋業(yè)務(wù)線。如果變量名被屏蔽了,模型競賽沒有太大真實意義,期待主辦方可以有更開放行為。
2.模型競賽評選規(guī)則優(yōu)化
模型的預(yù)測能力以測試集上的AUC值表現(xiàn)作為衡量標準。這樣衡量標準太單一。我建議在AUC基礎(chǔ)上加上模型預(yù)測時間,模型維度另外兩個指標,讓模型更有實際意義。如果僅參考AUC,那么選手可以制造大量衍生變量提升模型AUC。高緯度模型對企業(yè)來說難以應(yīng)用。變量太多,模型在部署環(huán)節(jié)和驗證環(huán)節(jié)是個災(zāi)難。如果線上線下模型分數(shù)不一致,模型變量成千上萬,找出模型故障原因猶如大海撈針。這都是我們工作中親身的經(jīng)歷和教訓(xùn)!
今年最新的四川省大學(xué)生金融科技建模大賽就為大家介紹到這里,如果大家對消費金融的風(fēng)控模型技術(shù)感興趣,想在這次競賽中提升模型性能,歡迎了解系列課《python金融風(fēng)控評分卡模型和數(shù)據(jù)分析微專業(yè)課(加強版)》。課程對描述性統(tǒng)計,變量選擇,衍生變量,調(diào)參,stacking融合模型,非平衡數(shù)據(jù)處理,評分卡,xgboost,lightgbm,catboost建模都有詳細描述。在模型競賽時候可以提升模型性能。
如果大家以后期望在金融行業(yè)工作,下述課程也會帶來很多幫助,節(jié)省大量自我探索時間。

如果有機器學(xué)習(xí)論文專利定制服務(wù),請聯(lián)系up主
