銀行信用卡流失預(yù)測(cè)模型_基于ANN神經(jīng)網(wǎng)絡(luò)_金融培訓(xùn)_論文科研_畢業(yè)設(shè)計(jì)

業(yè)務(wù)背景
根據(jù)央行公布的數(shù)據(jù)顯示,全國(guó)性銀行信用卡和借貸合一卡的發(fā)卡量增速?gòu)?017年同比增速26.35%的高點(diǎn)逐年下降,截至2020年同比增速降至4.26%。銀行信用卡發(fā)卡增速明顯放緩的背景下,預(yù)防老客戶流失的問(wèn)題變得愈發(fā)重要。
假設(shè)一家消費(fèi)信用卡銀行的業(yè)務(wù)經(jīng)理正面臨客戶流失的問(wèn)題。經(jīng)理希望分析數(shù)據(jù),找出背后的原因,并利用這些數(shù)據(jù)來(lái)預(yù)測(cè)可能會(huì)流失的客戶。經(jīng)理還試圖找到流失客戶的主要特征,提出降低客戶流失的建議。

描述性統(tǒng)計(jì)
在這個(gè)項(xiàng)目中,我們將建立一個(gè)預(yù)測(cè)信用卡流失的人工神經(jīng)網(wǎng)絡(luò)模型。
此業(yè)務(wù)問(wèn)題的首要任務(wù)是確定正在流失的客戶。
即使我們將非流失客戶預(yù)測(cè)為流失,也不會(huì)損害我們的業(yè)務(wù)。
但是,將流失客戶預(yù)測(cè)為非流失客戶就可以了。
所以召回率(TP/TP+FN)需要更高。
該數(shù)據(jù)集由 10,000 個(gè)客戶(條目)組成,
他們提到了他們的年齡、薪水、婚姻狀況、信用卡限額、信用卡類別等。
因此,這 19 個(gè)屬性(特征)將是我們對(duì)神經(jīng)網(wǎng)絡(luò)的輸入。

下圖為變量相關(guān)性分析

下圖為變量的直方圖可視化

這是對(duì)單變量一年合同總數(shù)的KDE繪圖。

由于數(shù)據(jù)集具有多種格式的特征;主要是字符串和整數(shù),它需要準(zhǔn)備。
我們只有 16.07% 的客戶放棄了信用卡服務(wù)。
因此,我們有一個(gè)不平衡的數(shù)據(jù)集。
為了處理這種不平衡,我們將為兩類目標(biāo)變量分配權(quán)重以使其平衡。
我們通過(guò)將特征列中的字符串變量替換為整數(shù)來(lái)為 ANN 準(zhǔn)備數(shù)據(jù)集,
我們還刪除了“CLIENTNUM”列,因?yàn)樗皇菚?huì)影響目標(biāo)變量的特征。
預(yù)處理數(shù)據(jù)集
我們通過(guò)將數(shù)據(jù)集拆分為特征矩陣(x)和目標(biāo)變量(y)來(lái)開(kāi)始這個(gè)階段。由于數(shù)據(jù)的值變化很大,因此有必要對(duì)這些值進(jìn)行縮放以標(biāo)準(zhǔn)化這些值的范圍。Robust Scaler 移除中位數(shù)并根據(jù)分位數(shù)范圍(默認(rèn)為 IQR:Interquartile Range)縮放數(shù)據(jù)。IQR 是第一個(gè)四分位數(shù)(第 25 個(gè)分位數(shù))和第三個(gè)四分位數(shù)(第 75 個(gè)分位數(shù))之間的范圍。
構(gòu)建人工神經(jīng)網(wǎng)絡(luò)
由于數(shù)據(jù)集是不平衡的,我們需要為其分配類別權(quán)重。
這是通過(guò)計(jì)算流失客戶與客戶總數(shù)的比率來(lái)完成的。
接下來(lái),我們構(gòu)建一個(gè) 3 層神經(jīng)網(wǎng)絡(luò)。
輸入層包含的神經(jīng)元數(shù)量與特征矩陣中的列數(shù)相同。
輸出層由一個(gè)預(yù)測(cè)輸出的層組成,即 1 表示流失客戶,0 表示現(xiàn)有客戶。
隱藏層的神經(jīng)元數(shù)通常是介于輸入層和輸出層神經(jīng)元數(shù)之間的一個(gè)值。
將隱藏層中的神經(jīng)元數(shù)取為輸入層和輸出層中神經(jīng)元的平均值被認(rèn)為是安全的。
預(yù)測(cè)客戶流失
由于數(shù)據(jù)集是不平衡的,我們需要為其分配類別權(quán)重。
這是通過(guò)計(jì)算流失客戶與客戶總數(shù)的比率來(lái)完成的。
接下來(lái),我們構(gòu)建一個(gè) 3 層神經(jīng)網(wǎng)絡(luò)。
輸入層包含的神經(jīng)元數(shù)量與特征矩陣中的列數(shù)相同。
輸出層由一個(gè)預(yù)測(cè)輸出的層組成,即 1 表示流失客戶,0 表示現(xiàn)有客戶。
隱藏層的神經(jīng)元數(shù)通常是介于輸入層和輸出層神經(jīng)元數(shù)之間的一個(gè)值。
將隱藏層中的神經(jīng)元數(shù)取為輸入層和輸出層中神經(jīng)元的平均值被認(rèn)為是安全的。
通過(guò)模型驗(yàn)證,accuracy準(zhǔn)確率達(dá)到0.89,召回率達(dá)到0.9,這是非常不錯(cuò)模型性能。

預(yù)測(cè)銀行信用卡流失模型就為大家介紹到這里,《Python金融風(fēng)控模型案例實(shí)戰(zhàn)大全》更多實(shí)戰(zhàn)案例會(huì)定期更新,用于銀行培訓(xùn),大家點(diǎn)擊下面視頻了解,記得收藏課程。

我們公司提供一對(duì)一機(jī)器學(xué)習(xí)模型定制服務(wù),提供公司正規(guī)發(fā)票,如果你需要建模項(xiàng)目定制服務(wù),留言聯(lián)系,具體內(nèi)容可點(diǎn)擊下面視頻了解。

版權(quán)聲明:文章來(lái)自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。