金融風(fēng)控模型案例_電信客戶流失數(shù)據(jù)
1.研究背景
1、做好用戶流失預(yù)測(cè)
可以降低營(yíng)銷成本。老生常談,新客戶開(kāi)發(fā)成本
是老客戶維護(hù)成本
的5倍。2、獲得更好的用戶體驗(yàn)。并不是所有的增值服務(wù)都可以有效留住客戶。3、獲得更高的銷售回報(bào)。價(jià)格敏感型客戶和非價(jià)格敏感性客戶。
2.提出問(wèn)題
1、流失客戶有哪些顯著性特征?2、當(dāng)客戶在哪些特征下什么條件下比較容易發(fā)生流失?
3.數(shù)據(jù)集描述
該數(shù)據(jù)是datafountain上的《電信客戶流失數(shù)據(jù)》,這里提供一個(gè)下載地址。
數(shù)據(jù)下載地址:https://www.datafountain.cn/datasets/35guide

該數(shù)據(jù)集有21個(gè)變量,7043個(gè)數(shù)據(jù)點(diǎn)。變量可分為以下三個(gè)部分:用戶屬性、用戶行為、研究對(duì)象。
用戶屬性customerID
?:用戶IDgender
:性別(Female & Male)SeniorCitizen
?:老年人(1表示是,0表示不是)Partner
?:是否有配偶(Yes or No)Dependents
?:是否經(jīng)濟(jì)獨(dú)立(Yes or No)tenure
?:客戶的職位(0-72,共73個(gè)職位)用戶行為PhoneService
?:是否開(kāi)通電話服務(wù)業(yè)務(wù)(Yes or No)MultipleLines
?:是否開(kāi)通了多線業(yè)務(wù)(Yes 、No or No phoneservice 三種)InternetService
?:是否開(kāi)通互聯(lián)網(wǎng)服務(wù)(No, DSL數(shù)字網(wǎng)絡(luò),fiber optic光纖網(wǎng)絡(luò) 三種)OnlineSecurity
?:是否開(kāi)通網(wǎng)絡(luò)安全服務(wù)(Yes,No,No internetserive 三種)OnlineBackup
?:是否開(kāi)通在線備份業(yè)務(wù)(Yes,No,No internetserive 三種)DeviceProtection
?:是否開(kāi)通了設(shè)備保護(hù)業(yè)務(wù)(Yes,No,No internetserive 三種)TechSupport
?:是否開(kāi)通了技術(shù)支持服務(wù)(Yes,No,No internetserive 三種)StreamingTV
?:是否開(kāi)通網(wǎng)絡(luò)電視(Yes,No,No internetserive 三種)StreamingMovies
?:是否開(kāi)通網(wǎng)絡(luò)電影(Yes,No,No internetserive 三種)Contract
?:簽訂合同方式 (按月,一年,兩年)PaperlessBilling
?:是否開(kāi)通電子賬單(Yes or No)PaymentMethod
?:付款方式(bank transfer,credit card,electronic check,mailed check)MonthlyCharges
?:月費(fèi)用TotalCharges
?:總費(fèi)用研究對(duì)象Churn
:該用戶是否流失(Yes or No)

4.分析思路
分析視角
是分析方法
的靈魂。分析方法有上百種,但分析視角
只有四種:
對(duì)比視角
分類視角
相關(guān)視角
描述視角
一旦將業(yè)務(wù)需求
拆解成指標(biāo),接下來(lái)只需要針對(duì)每個(gè)指標(biāo)進(jìn)行分析視角
四選一即可。數(shù)據(jù)集描述,已經(jīng)將變量分為三個(gè)維度了:用戶屬性、用戶行為、研究對(duì)象(是否流失客戶),三個(gè)維度組合一下就得出了以下解題思路了:
哪些屬性的用戶比較容易流失?
哪些行為的用戶比較容易流失?
以上兩個(gè)分析思路運(yùn)用的是【對(duì)比視角】,該視角下具體的分析方法有:
數(shù)值型數(shù)據(jù):均值比較
分類型數(shù)據(jù):頻數(shù)分布比較(交叉分析)
以上的分析方法是統(tǒng)計(jì)分析,只能一個(gè)維度一個(gè)維度地去比較。但實(shí)際情況中,并不是每個(gè)維度的權(quán)重都一樣的,那如何去研究各個(gè)維度的權(quán)重?權(quán)重問(wèn)題
屬于分類視角
,故我們可以采用分類模型
,要用哪個(gè)分類模型
呢?不知道??梢匀坎捎?,看模型精度得分,然后選得分最高的模型進(jìn)行進(jìn)一步預(yù)測(cè)。
Random Forest 隨機(jī)森林
SVC 支持向量機(jī)
LogisticRegression 邏輯回歸
KNN 近鄰算法
Naive Bayes ?樸素貝葉斯
Decision Tree 決策樹(shù)
AdaBoost
GradientBoosting
XGB
CatBoost
5.分析結(jié)論及運(yùn)營(yíng)建議
5.1 分析結(jié)論

綜合統(tǒng)計(jì)分析
和XGB算法輸出特征重要性
得出流失客戶有以下特征(依特征重要性從大到小排列):
tenure :1-5號(hào)職位的用戶比較容易流失
PaymentMethod :使用
電子支票
支付的人MonthlyCharges 、TotalCharges : 總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失
PaperlessBilling : 開(kāi)通電子賬單
Partner : 單身
OnlineBackup : 沒(méi)開(kāi)通
在線備份業(yè)務(wù)
InternetService :開(kāi)通了
Fiber optic 光纖網(wǎng)絡(luò)
TechSupport :沒(méi)開(kāi)通“技術(shù)支持服務(wù)”
DeviceProtection :沒(méi)開(kāi)通
設(shè)備保護(hù)業(yè)務(wù)
OnlineSecurity :沒(méi)開(kāi)通
網(wǎng)絡(luò)安全服務(wù)
Contract :
按月
簽訂合同方式Dependents :無(wú)經(jīng)濟(jì)獨(dú)立
SeniorCitizen :青年人
TotalCharges :總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失
當(dāng)條件覆蓋得越多,人群越精確,但與此同時(shí),覆蓋的人群也會(huì)越少。業(yè)務(wù)方可直接在數(shù)據(jù)庫(kù)中,通過(guò)SQL檢索符合要求的客戶,然后做針對(duì)性的運(yùn)營(yíng)工作。
5.2 運(yùn)營(yíng)建議
如何留住客戶,可以從兩方面去思考:
增加用戶的沉沒(méi)成本(損失厭惡)
會(huì)員等級(jí)
積分制
充值贈(zèng)送
滿減券
其他增值服務(wù)
培養(yǎng)用戶的條件反射(習(xí)慣)
會(huì)員日
定期用戶召回
簽到
每日定時(shí)抽獎(jiǎng)
小游戲
電子賬單解鎖新權(quán)益
現(xiàn)象
:“開(kāi)通電子賬單”的人反而容易流失。基本假設(shè)
:價(jià)格敏感型客戶。電子賬單,讓客戶理性消費(fèi)。建議
:讓“電子賬單”變成一項(xiàng)“福利。跟連鎖便利店,聯(lián)名發(fā)"商品滿減券",每月的賬單時(shí)間,就將"商品滿減券“和賬單一起推送過(guò)去。文案:您上月消費(fèi)了XX元,解鎖了xx會(huì)員權(quán)益。底層規(guī)律
:增加沉沒(méi)成本。
“單身用戶”尊享親情網(wǎng)
現(xiàn)象
:“單身用戶”容易流失。基本假設(shè)
:社交欲望低。建議
:一個(gè)單身用戶擁有建立3個(gè)人以內(nèi)的“親情網(wǎng)”的權(quán)益。底層規(guī)律
:增加沉沒(méi)成本。
推廣“在線備份、設(shè)備保護(hù)、技術(shù)支持、網(wǎng)絡(luò)保護(hù)”等增值服務(wù)。
6.數(shù)據(jù)清洗
6.1 導(dǎo)入模塊
6.1.1 數(shù)據(jù)處理
6.1.2 可視化
6.1.3 特征工程
6.1.4 分類算法
6.1.5 分類算法--集成學(xué)習(xí)
6.1.6 模型評(píng)估
6.1.7 忽略警告
6.2 讀取數(shù)據(jù)
這里安利一下spyder
編輯器,下圖是這個(gè)編輯器的界面。編程過(guò)程中,有賦值
變量的操作,該編輯器都會(huì)在右上角呈現(xiàn),雙擊一下,就可以像在Execel上查看數(shù)據(jù),非常方便。

查看該數(shù)據(jù)集的詳情。

6.3 數(shù)據(jù)清洗
6.3.1 缺失值處理
注:缺失值的數(shù)據(jù)類型是 float 類型。一旦有變量的數(shù)據(jù)類型轉(zhuǎn)換成float 類型
,需再次查看缺失值。

6.3.2 重復(fù)值處理
【輸出】

6.3.3 數(shù)值類型轉(zhuǎn)換
【輸出】

TotalCharages
總費(fèi)用應(yīng)該跟MonthlvCharges
是同一個(gè)數(shù)據(jù)類型(float64)。故需將TotalCharages由object轉(zhuǎn)換成float64,且需要再次查看缺失值。
輸出如下:

再次查看缺失值:

TotalCharges列有11個(gè)缺失值,處理缺失值的原則是盡量填充,最后才是刪除。
缺失值填充的原則:
分類型數(shù)據(jù):眾數(shù)填充
數(shù)值型數(shù)據(jù):正態(tài)分布,均值/中位數(shù)填充;偏態(tài)分布,中位數(shù)填充。
TotalCharges列是數(shù)值型數(shù)據(jù),先畫(huà)直方圖查看數(shù)據(jù)分布形態(tài)。
結(jié)果如下:

從三個(gè)直方圖看,該列數(shù)據(jù)是偏態(tài)分布,故選擇中位數(shù)
填充。
結(jié)果如下:

6.4 查看樣本分布
研究對(duì)象'Churn'列重新編碼“Yes”=1,“No”=0。重新編碼有下面兩種方法。
方法一:replace
方法二:map函數(shù)
預(yù)覽數(shù)據(jù):
結(jié)果如下:

繪制餅圖,查看流失客戶占比。
結(jié)果如下:

【分析】:流失客戶樣本占比26.5%,留存客戶樣本占比73.5%,明顯的“樣本不均衡”。解決樣本不均衡有以下方法可以選擇:
分層抽樣
過(guò)抽樣
欠抽樣
7.特征選擇
提取特征
feature=df.iloc[:,1:20]
7.1 整數(shù)編碼
查看變量間的兩兩相關(guān)性
結(jié)果如下:

相關(guān)性矩陣可視化
結(jié)果如下:

【分析】:從熱力圖來(lái)看,互聯(lián)網(wǎng)服務(wù)、網(wǎng)絡(luò)安全、在線備份、設(shè)備維護(hù)服務(wù)、技術(shù)支持服務(wù)、開(kāi)通網(wǎng)絡(luò)電視服務(wù)、開(kāi)通網(wǎng)絡(luò)電影之間相關(guān)性很強(qiáng),且是正相關(guān)。電話服務(wù)和多線業(yè)務(wù)之間也存在很強(qiáng)的正相關(guān)關(guān)系。
7.2 獨(dú)熱編碼
查看研究對(duì)象"Churn"與其他變量下的標(biāo)簽相關(guān)性。獨(dú)熱編碼,可以將分類變量下的標(biāo)簽轉(zhuǎn)化成列
結(jié)果如下:

繪圖查看用戶流失('Churn')與各個(gè)維度之間的關(guān)系
結(jié)果如下:

【分析】:從圖看gender(性別)、PhoneService(電話服務(wù))相關(guān)性幾乎為0,故兩個(gè)維度可以忽略。
['SeniorCitizen','Partner','Dependents',
'Contract',MultipleLines,'InternetService', ?'OnlineSecurity',
'OnlineBackup', 'DeviceProtection','TechSupport', 'StreamingTV',
'StreamingMovies','PaperlessBilling','PaymentMethod']?等都有較高的相關(guān)性,將以上維度合并成一個(gè)列表kf_var,然后進(jìn)行頻數(shù)比較。
結(jié)果如下:

8.統(tǒng)計(jì)分析
8.1 頻數(shù)分布比較
8.1.1 卡方檢驗(yàn)
組間有顯著性差異,頻數(shù)分布比較才有意義,否則可能會(huì)做無(wú)用功。"卡方檢驗(yàn)",就是提高頻數(shù)比較結(jié)論可信度的統(tǒng)計(jì)方法。
kf_var的卡方檢驗(yàn)結(jié)果如下:
Churn by SeniorCitizen 的卡方臨界值是0.00,小于0.05,表明SeniorCitizen組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by Partner 的卡方臨界值是0.00,小于0.05,表明Partner組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by Dependents 的卡方臨界值是0.00,小于0.05,表明Dependents組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by MultipleLines 的卡方臨界值是0.99,大于0.05,表明MultipleLines組間無(wú)顯著性差異,不可進(jìn)行交叉分析Churn by InternetService 的卡方臨界值是0.00,小于0.05,表明InternetService組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by OnlineSecurity 的卡方臨界值是0.00,小于0.05,表明OnlineSecurity組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by OnlineBackup 的卡方臨界值是0.00,小于0.05,表明OnlineBackup組間有顯著性差異,可進(jìn)行【交叉分析】Churn by DeviceProtection 的卡方臨界值是0.00,小于0.05,表明DeviceProtection組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by TechSupport 的卡方臨界值是0.00,小于0.05,表明TechSupport組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by StreamingTV 的卡方臨界值是0.00,小于0.05,表明StreamingTV組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by StreamingMovies 的卡方臨界值是0.00,小于0.05,表明StreamingMovies組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by Contract 的卡方臨界值是0.00,小于0.05,表明Contract組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by PaperlessBilling 的卡方臨界值是0.00,小于0.05,表明PaperlessBilling組間有顯著性差異,可進(jìn)行【交叉分析】
Churn by PaymentMethod 的卡方臨界值是0.00,小于0.05,表明PaymentMethod組間有顯著性差異,可進(jìn)行【交叉分析】
從卡方檢驗(yàn)的結(jié)果,kf_var包含的特征,組間都有顯著性差異,可進(jìn)行頻數(shù)比較。
8.1.2 柱形圖
頻數(shù)比較--柱形圖
結(jié)果如下:


因?yàn)镻aymentMethod的標(biāo)簽比較長(zhǎng),影響看圖,所以單獨(dú)畫(huà)。

可以直接從柱形圖去判斷對(duì)哪個(gè)維度對(duì)流失客戶的影響大嗎?不能,因?yàn)椤皹颖静痪狻保魇Э蛻魳颖菊急?6.5%,留存客戶樣本占比73.5%),基數(shù)不一樣,故不能直接通過(guò)“頻數(shù)”的柱形圖去分析。解決辦法:交叉分析,且作同行百分比('Churn'作為“行”)
8.1.3 交叉分析
ka_var列表中的維度與Churn交叉分析結(jié)果如下:

【SeniorCitizen 分析】:年輕用戶 在流失、留存,兩個(gè)標(biāo)簽的人數(shù)占比都高。

【Parter 分析】:?jiǎn)紊碛脩舾菀琢魇А?/p>
【Denpendents 分析】:經(jīng)濟(jì)不獨(dú)立的用戶更容易流失。

【MultipleLines 分析】:是否開(kāi)通MultipleLines,對(duì)留存和流失都沒(méi)有明顯的促進(jìn)作用。

【InternetService 分析】:辦理了 “Fiber optic 光纖網(wǎng)絡(luò)”的客戶容易流失。

【OnlineSecurity 分析】:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”的客戶容易流失。

【OnlineBackup 分析】:沒(méi)開(kāi)通“在線備份服務(wù)”的客戶容易流失。

【DeviceProtection 分析】:沒(méi)開(kāi)通“設(shè)備保護(hù)業(yè)務(wù)”的用戶比較容易流失

【TechSupport 分析】:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”的用戶容易流失。

【StreamingTV 分析】:是否開(kāi)通“網(wǎng)絡(luò)電視”服務(wù),對(duì)用戶留存、流失,沒(méi)有明顯的促進(jìn)作用。

【StreamingMovies 分析】:是否開(kāi)通“網(wǎng)絡(luò)電影”服務(wù),對(duì)用戶留存、流失,沒(méi)有明顯的促進(jìn)作用。

【Contract 分析】逐月簽訂合同的用戶最容易流失。

因?yàn)?#34;Churn BY PaymentMethod"打印出來(lái)顯示不全,故我就從臨時(shí)表將“交叉表”給截圖出來(lái)了:

【分析】使用“電子支票”支付的人更容易流失。
8.2 均值比較
組間有顯著性差異,均值比較才有意義。顯著性檢驗(yàn),先通過(guò)了齊性檢驗(yàn),再通過(guò)方差分析,最后才能做均值比較。
8.2.0 齊性檢驗(yàn),方差分析
對(duì)MonthlyCharges、TotalCharges維度分別進(jìn)行齊性檢驗(yàn)和方差分析
【輸出】:MonthlyCharges、TotalCharges的齊性檢驗(yàn) 和方差分析結(jié)果如下:警告:Churn BY MonthlyCharges的P值為0.00,小于0.05,表明齊性檢驗(yàn)不通過(guò),不可作方差分析警告:Churn BY TotalCharges的P值為0.00,小于0.05,表明齊性檢驗(yàn)不通過(guò),不可作方差分析
8.3 總結(jié)
用戶出現(xiàn)以下特征比較容易流失:
SeniorCitizen:青年人
Partner :?jiǎn)紊?/p>
Dependents :無(wú)經(jīng)濟(jì)獨(dú)立
InternetService:開(kāi)通了 “Fiber optic 光纖網(wǎng)絡(luò)”
OnlineSecurity:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”
OnlineBackup:沒(méi)開(kāi)通“在線備份業(yè)務(wù)”
DeviceProtection:沒(méi)開(kāi)通通了“設(shè)備保護(hù)業(yè)務(wù)
TechSupport:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”
Contract:“按月”簽訂合同方式
PaperlessBilling:開(kāi)通電子賬單
PaymentMethod:使用“電子支票”支付的人
我們可以在SQL(數(shù)據(jù)庫(kù))上找有以上特征的客戶,進(jìn)行精準(zhǔn)營(yíng)銷,即可以降低用戶流失。雖然特征選得越多,越精確,但覆蓋的人群也會(huì)越少。故,我們還需要計(jì)算“特征”的【重要性】,將最為重要的幾個(gè)特征作為篩選條件。計(jì)算特征的【重要性】,是“分類視角”,接下來(lái)我們會(huì)挑選常見(jiàn)的分類模型,進(jìn)行批量訓(xùn)練,然后挑出得分最高的模型,進(jìn)一步計(jì)算“特征重要性”。
9.特征工程
9.1 提取特征
有前面的流失率與各個(gè)維度的相關(guān)系數(shù)柱狀圖可知:流失率與gender(性別)、PhoneService(電話服務(wù))相關(guān)性幾乎為0,可以篩選掉,而customerID是隨機(jī)數(shù),不影響建模,故可以篩選掉。最終得到特征 churn_var
結(jié)果如下:

9.2 處理“量綱差異大”
“MonthlyCharges"、"TotalCharges"兩個(gè)特征跟其他特征相比,量綱差異大。

處理量綱差異大,有兩種方法:
標(biāo)準(zhǔn)化
離散化
以上兩種方法,哪個(gè)能讓模型精度提高,就選哪個(gè)。根據(jù)模型的最后得分,我選了“離散化”來(lái)處理量綱差異大。
9.2.1 標(biāo)準(zhǔn)化
【輸出】

9.2.2 特征離散化
特征離散化后,模型易于快速迭代,且模型更穩(wěn)定。1、處理'MonthlyCharges':

離散操作 18.25=<churn_var['MonthlyCharges']<=35.5,標(biāo)記 “1” 35.5<churn_var['MonthlyCharges']<=70.35,標(biāo)記 “2” 70.35<churn_var['MonthlyCharges']<=89.85,標(biāo)記 “3” 89.85=<churn_varf['MonthlyCharges']<=118.75,標(biāo)記“4”
結(jié)果如下:

2、處理'TotalCharges':
結(jié)果如下:

離散操作:18=<churn_var['TotalCharges']<=402,標(biāo)記 “1” 402<churn_var['TotalCharges']<=1397,標(biāo)記 “2” 1397<churn_var['TotalCharges']<=3786,標(biāo)記 “3” 3786<churn_var['TotalCharges']<=8684,標(biāo)記 “4”
【輸出】

9.3 分類數(shù)據(jù)轉(zhuǎn)換成“整數(shù)編碼”
9.3.1 查看churn_var中分類變量的label(標(biāo)簽)
結(jié)果如下:


通過(guò)同行百分比的“交叉分析”發(fā)現(xiàn),label “No internetserive”的人數(shù)占比在以下特征[OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingTV]都是驚人的一致,故我們可以判斷l(xiāng)abel “No internetserive”不影響流失率。因?yàn)檫@6項(xiàng)增值服務(wù),都是需要開(kāi)通“互聯(lián)網(wǎng)服務(wù)”的基礎(chǔ)上才享受得到的。不開(kāi)通“互聯(lián)網(wǎng)服務(wù)”視為沒(méi)開(kāi)通這6項(xiàng)增值服務(wù),故可以將 6個(gè)特正中的“No internetserive” 并到 “No”里面。
而特征MultipleLines的“ No phoneservice”在流失客戶、留存客戶樣本中的人數(shù)占比幾乎接近,且比較少,故可以將“ No phoneservice”并到“No”。
結(jié)果如下:

9.3.2 整數(shù)編碼
整數(shù)編碼的方法有兩種:1、sklearn中的LabelEncoder()2、pandas中的factorize 此處選用 LabelEncoder()
結(jié)果如下:

9.4 處理“樣本不均衡”
分拆變量
【輸出】 抽樣前的數(shù)據(jù)特征 (7043, 17) 抽樣前的數(shù)據(jù)標(biāo)簽 (7043,)處理樣本不均衡常用的方式有三種:
分層抽樣
過(guò)抽樣
3.欠抽樣
筆者先后嘗試了“分層抽樣”和“欠抽樣”,前者最終得到的模型中精度最高的是0.63,而后者最終得到的模型中精度最低是0.78,最高是0.84。所以說(shuō)“抽樣方式”的選擇極為重要,大家要在這里多試錯(cuò)。
分層抽樣
“過(guò)抽樣”讓模型精度更高,故我選“過(guò)抽樣”。
輸出數(shù)據(jù)集大小
【輸出】過(guò)抽樣后數(shù)據(jù)特征:(10348, 17) 訓(xùn)練數(shù)據(jù)特征:(7243, 17) 測(cè)試數(shù)據(jù)特征:(3105, 17) 過(guò)抽樣后數(shù)據(jù)標(biāo)簽:(10348,) ? ?訓(xùn)練數(shù)據(jù)標(biāo)簽:(7243,) ? ?測(cè)試數(shù)據(jù)標(biāo)簽:(3105,)
10.數(shù)據(jù)建模
使用分類算法
訓(xùn)練模型
11.模型評(píng)估
【輸出】 特征工程,采用“標(biāo)準(zhǔn)化”處理量綱差異,采用“分層抽樣”處理樣本不均衡。最終模型精度得分,最高分是0.63,是“樸素貝葉斯”模型

特征工程,采用“離散化”處理量綱差異,采用“過(guò)抽樣”處理樣本不均衡。最終模型精度得分,最高分是0.84,是“XGB”模型

12.基于“XGB”模型輸出特征重要性
筆者嘗試了兩個(gè)算法分別輸出“特征重要性”:CatBoost算法 和 XGB 算法
CatBoost算法
【輸出】

-XGB 算法
【輸出】

由于 XGB算法精度得分最高,故我們以XGB得到的“特征重要性”進(jìn)行分析?!痉治觥?、第一重要特征:tenure
【輸出】

【分析】 由圖可知,流失客戶集中在1-5號(hào)職位,運(yùn)營(yíng)團(tuán)隊(duì)需要重點(diǎn)關(guān)注1-5號(hào)職位。2、第二重要特征:PaymentMethod【分析】 使用“電子支票”支付的人更容易流失。3、第三重要特征:MonthlyCharges 查看流失用戶、留存用戶在付費(fèi)方面的偏好:'MonthlyCharges'、'TotalCharges',離散化后,可進(jìn)行卡方檢驗(yàn),然后交叉分析。
卡方檢驗(yàn):'MonthlyCharges'、'TotalCharges'
【輸出】 kf_var的卡方檢驗(yàn)結(jié)果如下:Churn by MonthlyCharges 的卡方臨界值是0.00,小于0.05,表明MonthlyCharges組間有顯著性差異,可進(jìn)行【交叉分析】Churn by TotalCharges 的卡方臨界值是0.00,小于0.05,表明TotalCharges組間有顯著性差異,可進(jìn)行【交叉分析】
交叉分析
【輸出】

18.25=<churn_var['MonthlyCharges']<=35.5,標(biāo)記 “1” 35.5<churn_var['MonthlyCharges']<=70.35,標(biāo)記 “2” 70.35<churn_var['MonthlyCharges']<=89.85,標(biāo)記 “3” 89.85=<churn_varf['MonthlyCharges']<=118.75,標(biāo)記“4” 【分析】 月付費(fèi)70.35--118.75元的用戶更容易流失

18=<churn_var['TotalCharges']<=402,標(biāo)記 “1” 402<churn_var['TotalCharges']<=1397,標(biāo)記 “2” 1397<churn_var['TotalCharges']<=3786,標(biāo)記 “3” 3786<churn_var['TotalCharges']<=8684,標(biāo)記 “4” 【分析】 總付費(fèi)18--1397元的用戶更容易流失基于"MonthlyCharges"和“TotalCharges”畫(huà)四分圖:求兩個(gè)維度的均值
流失客戶四分圖:
【輸出】

【分析】 四分圖的右下區(qū)域,流失客戶比較集中,即總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失。留存客戶四分圖
【輸出】

【結(jié)論】?綜合“ 統(tǒng)計(jì)分析” 和 “XGB算法輸出特征重要性” 得出流失客戶有以下特征(依特征重要性從大到小排列):
tenure:1-5號(hào)職位的用戶比較容易流失
PaymentMethod:使用“電子支票”支付的人
MonthlyCharges 、TotalCharges:總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失
PaperlessBilling:開(kāi)通電子賬單
Partner:單身
OnlineBackup:沒(méi)開(kāi)通“在線備份業(yè)務(wù)”
InternetService:開(kāi)通了 “Fiber optic 光纖網(wǎng)絡(luò)”
TechSupport:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”
DeviceProtection:沒(méi)開(kāi)通通了“設(shè)備保護(hù)業(yè)務(wù)
OnlineSecurity:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”
Contract:“按月”簽訂合同方式
Dependents:無(wú)經(jīng)濟(jì)獨(dú)立
SeniorCitizen :青年人
TotalCharges:總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失
轉(zhuǎn)載:https://mp.weixin.qq.com/s/z0zFdHNsRCLAF3XNkwhm2A
實(shí)際建模流程并沒(méi)有這么復(fù)雜,有些統(tǒng)計(jì)學(xué)校驗(yàn)方法也不一定需要用,更多實(shí)戰(zhàn)相關(guān)風(fēng)控建模知識(shí)請(qǐng)參考:
