上海冰鑒科技怎么樣? 冰鑒斬獲Kaggle金融風控競賽銀牌
日前,冰鑒科技在素有“人工智能奧運會”之稱的國際知名競賽平臺Kaggle上舉辦的金融風控競賽中摘得銀牌,位列4875支參賽隊伍的前2%。
信 用 卡已成為當今社會的必需品,為現(xiàn)代生活與消費提供著便利。然而,信 用 卡普及帶來便利的同時,違約風險也相伴而生。其中,違約預測是管理消費貸 款業(yè)務風險的核心。
美國運通是一家綜合支付公司,作為世界上最大的支付卡發(fā)行商,他們致力于為客戶提供可提高生活品質(zhì)及促使業(yè)務成功的產(chǎn)品、見解和經(jīng)驗。美國運通在Kaggle平臺組織了本次大賽,旨在利用機器學習技術(shù)預測信 用 卡的違約概率。
比賽方提供了工業(yè)規(guī)模的數(shù)據(jù)集,參賽隊伍需要訓練、驗證和測試包括時間序列行為和匿名客戶檔案信息在內(nèi)的數(shù)據(jù)集,創(chuàng)建特征,并探索AI技術(shù)來創(chuàng)建強大的模型,以此來挑戰(zhàn)和完善傳統(tǒng)的信 用 卡風險預測模型。
本次大賽有來自全球各頂尖高校的本科生、碩士生和博士生以及各知名科技公司及研究機構(gòu)的AI工程師、數(shù)據(jù)科學家組成的4875支參賽隊伍參加。
冰鑒科技金融算法團隊綜合基于日常業(yè)務中對貸中風控建模的理解,為每個信 用 卡用戶生成在3月/6月/12月等不同時間窗口下的統(tǒng)計特征(例如:均值、標準差、最大值、最小值)、指數(shù)加權(quán)衰減平均特征和最近狀態(tài)變化特征等,最終衍生出近萬維特征向量。
通過分析特征分布隨時間的變化特性,篩選穩(wěn)定性較好的特征,以保證模型在OOT效果上的泛化能力。同時結(jié)合相關(guān)性、IV值等對特征進行篩選,在保留表達能力的同時降低數(shù)據(jù)規(guī)模。對訓練樣本進行五折劃分,構(gòu)建可靠的交叉驗證方案,有效評估每次模型修改和參數(shù)調(diào)節(jié)的效果變化,依托冰鑒科技的計算資源,在較大的模型和參數(shù)空間中搜索較優(yōu)解。
在該比賽中,除了基于特征工程加機器學習模型的方案,冰鑒科技金融算法團隊還使用了時序神經(jīng)網(wǎng)絡(luò)模型。對原始特征進行One-hot編碼、特征分類PCA降維、AutoEncoder編碼等不同方式處理后,得到信 用 卡用戶每個月狀態(tài)的表示向量,按時間先后順序輸入GRU模型,讓模型自動學習更復雜的表示特征,并后接全連接層完成違約分類任務。
整個方案訓練得到LightGBM、MLP、TabNet、GRU等多種模型的多個版本,基于單模型效果按特定比例進行融合,得到最終集成模型,在4875支參賽隊伍的角逐中排名前2%,斬獲銀牌。
據(jù)了解,Kaggle是一個全球范圍內(nèi)的數(shù)據(jù)建模和預測競賽在線平臺,該平臺受到了國內(nèi)外80萬名數(shù)據(jù)科學家關(guān)注,含金量高、參賽者眾,在業(yè)界廣受追捧。企業(yè)和學術(shù)機構(gòu)均可在Kaggle上發(fā)布數(shù)據(jù),學者和專家則參與競賽以角逐出最好的模型。目前,Kaggle已成為全球數(shù)據(jù)科學和機器學習競賽領(lǐng)域的最大社區(qū)。
此前,冰鑒科技的醫(yī)療算法團隊就在Kaggle新冠肺炎診斷模型競賽中摘得銀牌,此次在金融算法領(lǐng)域獲獎,再一次證明了冰鑒科技算法團隊的技術(shù)實力。除Kaggle以外,冰鑒科技還曾入選全球算法最佳實踐典范大賽(BPAA)100強。
作為人工智能企業(yè)服務領(lǐng)域的龍頭企業(yè),冰鑒科技以技術(shù)立身,引進了一大批國內(nèi)外頂尖的科學家及研發(fā)人員,成立AI實驗室,探索人工智能技術(shù)在金融、醫(yī)療、政務、安防等各個行業(yè)領(lǐng)域的落地運用。公司技術(shù)人員占比高達70%,在包括機器學習、NLP(自然語言處理)、知識圖譜、聯(lián)邦學習等方面獲得多項原創(chuàng)技術(shù)及核心專利,旗下?lián)碛腥覈腋咝缕髽I(yè),成功入選國家級專精特新小巨人企業(yè)并登頂“中國智能科學技術(shù)最高獎”吳文俊獎。
冰鑒科技待遇http://www.icekredit.com/