最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

金融風(fēng)控模型案例_電信客戶流失數(shù)據(jù)

2021-07-06 09:22 作者:python風(fēng)控模型  | 我要投稿

1.研究背景

1、做好用戶流失預(yù)測(cè)可以降低營(yíng)銷成本。老生常談,新客戶開(kāi)發(fā)成本老客戶維護(hù)成本的5倍。2、獲得更好的用戶體驗(yàn)。并不是所有的增值服務(wù)都可以有效留住客戶。3、獲得更高的銷售回報(bào)。價(jià)格敏感型客戶和非價(jià)格敏感性客戶。

2.提出問(wèn)題

1、流失客戶有哪些顯著性特征?2、當(dāng)客戶在哪些特征下什么條件下比較容易發(fā)生流失?

3.數(shù)據(jù)集描述

該數(shù)據(jù)是datafountain上的《電信客戶流失數(shù)據(jù)》,這里提供一個(gè)下載地址。

數(shù)據(jù)下載地址:https://www.datafountain.cn/datasets/35guide



該數(shù)據(jù)集有21個(gè)變量,7043個(gè)數(shù)據(jù)點(diǎn)。變量可分為以下三個(gè)部分:用戶屬性、用戶行為、研究對(duì)象。
用戶屬性customerID?:用戶ID
gender:性別(Female & Male)
SeniorCitizen?:老年人(1表示是,0表示不是)
Partner?:是否有配偶(Yes or No)
Dependents?:是否經(jīng)濟(jì)獨(dú)立(Yes or No)
tenure?:客戶的職位(0-72,共73個(gè)職位)用戶行為PhoneService?:是否開(kāi)通電話服務(wù)業(yè)務(wù)(Yes or No)
MultipleLines?:是否開(kāi)通了多線業(yè)務(wù)(Yes 、No or No phoneservice 三種)
InternetService?:是否開(kāi)通互聯(lián)網(wǎng)服務(wù)(No, DSL數(shù)字網(wǎng)絡(luò),fiber optic光纖網(wǎng)絡(luò) 三種)
OnlineSecurity?:是否開(kāi)通網(wǎng)絡(luò)安全服務(wù)(Yes,No,No internetserive 三種)
OnlineBackup?:是否開(kāi)通在線備份業(yè)務(wù)(Yes,No,No internetserive 三種)
DeviceProtection?:是否開(kāi)通了設(shè)備保護(hù)業(yè)務(wù)(Yes,No,No internetserive 三種)
TechSupport?:是否開(kāi)通了技術(shù)支持服務(wù)(Yes,No,No internetserive 三種)
StreamingTV?:是否開(kāi)通網(wǎng)絡(luò)電視(Yes,No,No internetserive 三種)
StreamingMovies?:是否開(kāi)通網(wǎng)絡(luò)電影(Yes,No,No internetserive 三種)
Contract?:簽訂合同方式 (按月,一年,兩年)
PaperlessBilling?:是否開(kāi)通電子賬單(Yes or No)
PaymentMethod?:付款方式(bank transfer,credit card,electronic check,mailed check)
MonthlyCharges?:月費(fèi)用
TotalCharges?:總費(fèi)用研究對(duì)象Churn:該用戶是否流失(Yes or No)


7044條數(shù)據(jù)


4.分析思路

分析視角分析方法的靈魂。分析方法有上百種,但分析視角只有四種:

  • 對(duì)比視角

  • 分類視角

  • 相關(guān)視角

  • 描述視角

一旦將業(yè)務(wù)需求拆解成指標(biāo),接下來(lái)只需要針對(duì)每個(gè)指標(biāo)進(jìn)行分析視角四選一即可。數(shù)據(jù)集描述,已經(jīng)將變量分為三個(gè)維度了:用戶屬性、用戶行為、研究對(duì)象(是否流失客戶),三個(gè)維度組合一下就得出了以下解題思路了:

  • 哪些屬性的用戶比較容易流失?

  • 哪些行為的用戶比較容易流失?

以上兩個(gè)分析思路運(yùn)用的是【對(duì)比視角】,該視角下具體的分析方法有:

  • 數(shù)值型數(shù)據(jù):均值比較

  • 分類型數(shù)據(jù):頻數(shù)分布比較(交叉分析)

以上的分析方法是統(tǒng)計(jì)分析,只能一個(gè)維度一個(gè)維度地去比較。但實(shí)際情況中,并不是每個(gè)維度的權(quán)重都一樣的,那如何去研究各個(gè)維度的權(quán)重?權(quán)重問(wèn)題屬于分類視角,故我們可以采用分類模型,要用哪個(gè)分類模型呢?不知道??梢匀坎捎?,看模型精度得分,然后選得分最高的模型進(jìn)行進(jìn)一步預(yù)測(cè)。

  • Random Forest 隨機(jī)森林

  • SVC 支持向量機(jī)

  • LogisticRegression 邏輯回歸

  • KNN 近鄰算法

  • Naive Bayes ?樸素貝葉斯

  • Decision Tree 決策樹(shù)

  • AdaBoost

  • GradientBoosting

  • XGB

  • CatBoost

5.分析結(jié)論及運(yùn)營(yíng)建議

5.1 分析結(jié)論

圖片

綜合統(tǒng)計(jì)分析XGB算法輸出特征重要性得出流失客戶有以下特征(依特征重要性從大到小排列):

  1. tenure :1-5號(hào)職位的用戶比較容易流失

  2. PaymentMethod :使用電子支票支付的人

  3. MonthlyCharges 、TotalCharges : 總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失

  4. PaperlessBilling : 開(kāi)通電子賬單

  5. Partner : 單身

  6. OnlineBackup : 沒(méi)開(kāi)通在線備份業(yè)務(wù)

  7. InternetService :開(kāi)通了Fiber optic 光纖網(wǎng)絡(luò)

  8. TechSupport :沒(méi)開(kāi)通“技術(shù)支持服務(wù)”

  9. DeviceProtection :沒(méi)開(kāi)通設(shè)備保護(hù)業(yè)務(wù)

  10. OnlineSecurity :沒(méi)開(kāi)通網(wǎng)絡(luò)安全服務(wù)

  11. Contract :按月簽訂合同方式

  12. Dependents :無(wú)經(jīng)濟(jì)獨(dú)立

  13. SeniorCitizen :青年人

  14. TotalCharges :總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失

當(dāng)條件覆蓋得越多,人群越精確,但與此同時(shí),覆蓋的人群也會(huì)越少。業(yè)務(wù)方可直接在數(shù)據(jù)庫(kù)中,通過(guò)SQL檢索符合要求的客戶,然后做針對(duì)性的運(yùn)營(yíng)工作。

5.2 運(yùn)營(yíng)建議

如何留住客戶,可以從兩方面去思考:

  • 增加用戶的沉沒(méi)成本(損失厭惡)

    • 會(huì)員等級(jí)

    • 積分制

    • 充值贈(zèng)送

    • 滿減券

    • 其他增值服務(wù)

  • 培養(yǎng)用戶的條件反射(習(xí)慣)

    • 會(huì)員日

    • 定期用戶召回

    • 簽到

    • 每日定時(shí)抽獎(jiǎng)

    • 小游戲

電子賬單解鎖新權(quán)益

  • 現(xiàn)象:“開(kāi)通電子賬單”的人反而容易流失。

  • 基本假設(shè):價(jià)格敏感型客戶。電子賬單,讓客戶理性消費(fèi)。

  • 建議:讓“電子賬單”變成一項(xiàng)“福利。跟連鎖便利店,聯(lián)名發(fā)"商品滿減券",每月的賬單時(shí)間,就將"商品滿減券“和賬單一起推送過(guò)去。文案:您上月消費(fèi)了XX元,解鎖了xx會(huì)員權(quán)益。

  • 底層規(guī)律:增加沉沒(méi)成本。

“單身用戶”尊享親情網(wǎng)

  • 現(xiàn)象:“單身用戶”容易流失。

  • 基本假設(shè):社交欲望低。

  • 建議:一個(gè)單身用戶擁有建立3個(gè)人以內(nèi)的“親情網(wǎng)”的權(quán)益。

  • 底層規(guī)律:增加沉沒(méi)成本。

推廣“在線備份、設(shè)備保護(hù)、技術(shù)支持、網(wǎng)絡(luò)保護(hù)”等增值服務(wù)。

6.數(shù)據(jù)清洗

6.1 導(dǎo)入模塊

6.1.1 數(shù)據(jù)處理

6.1.2 可視化

6.1.3 特征工程

6.1.4 分類算法

6.1.5 分類算法--集成學(xué)習(xí)

6.1.6 模型評(píng)估

6.1.7 忽略警告

6.2 讀取數(shù)據(jù)

這里安利一下spyder編輯器,下圖是這個(gè)編輯器的界面。編程過(guò)程中,有賦值變量的操作,該編輯器都會(huì)在右上角呈現(xiàn),雙擊一下,就可以像在Execel上查看數(shù)據(jù),非常方便。

圖片

查看該數(shù)據(jù)集的詳情。

圖片

6.3 數(shù)據(jù)清洗

6.3.1 缺失值處理

注:缺失值的數(shù)據(jù)類型是 float 類型。一旦有變量的數(shù)據(jù)類型轉(zhuǎn)換成float 類型,需再次查看缺失值。

圖片

6.3.2 重復(fù)值處理

【輸出】

圖片

6.3.3 數(shù)值類型轉(zhuǎn)換

【輸出】

圖片

TotalCharages總費(fèi)用應(yīng)該跟MonthlvCharges是同一個(gè)數(shù)據(jù)類型(float64)。故需將TotalCharages由object轉(zhuǎn)換成float64,且需要再次查看缺失值。

輸出如下:

圖片

再次查看缺失值:

圖片

TotalCharges列有11個(gè)缺失值,處理缺失值的原則是盡量填充,最后才是刪除。

缺失值填充的原則:

  • 分類型數(shù)據(jù):眾數(shù)填充

  • 數(shù)值型數(shù)據(jù):正態(tài)分布,均值/中位數(shù)填充;偏態(tài)分布,中位數(shù)填充。

TotalCharges列是數(shù)值型數(shù)據(jù),先畫(huà)直方圖查看數(shù)據(jù)分布形態(tài)。

結(jié)果如下:

圖片

從三個(gè)直方圖看,該列數(shù)據(jù)是偏態(tài)分布,故選擇中位數(shù)填充。

結(jié)果如下:

圖片

6.4 查看樣本分布

研究對(duì)象'Churn'列重新編碼“Yes”=1,“No”=0。重新編碼有下面兩種方法。

方法一:replace

方法二:map函數(shù)

預(yù)覽數(shù)據(jù):

結(jié)果如下:

圖片

繪制餅圖,查看流失客戶占比。

結(jié)果如下:

圖片

【分析】:流失客戶樣本占比26.5%,留存客戶樣本占比73.5%,明顯的“樣本不均衡”。解決樣本不均衡有以下方法可以選擇:

  • 分層抽樣

  • 過(guò)抽樣

  • 欠抽樣

7.特征選擇

提取特征

feature=df.iloc[:,1:20]

7.1 整數(shù)編碼

查看變量間的兩兩相關(guān)性

結(jié)果如下:

圖片

相關(guān)性矩陣可視化

結(jié)果如下:

圖片

【分析】:從熱力圖來(lái)看,互聯(lián)網(wǎng)服務(wù)、網(wǎng)絡(luò)安全、在線備份、設(shè)備維護(hù)服務(wù)、技術(shù)支持服務(wù)、開(kāi)通網(wǎng)絡(luò)電視服務(wù)、開(kāi)通網(wǎng)絡(luò)電影之間相關(guān)性很強(qiáng),且是正相關(guān)。電話服務(wù)和多線業(yè)務(wù)之間也存在很強(qiáng)的正相關(guān)關(guān)系。

7.2 獨(dú)熱編碼

查看研究對(duì)象"Churn"與其他變量下的標(biāo)簽相關(guān)性。獨(dú)熱編碼,可以將分類變量下的標(biāo)簽轉(zhuǎn)化成列

結(jié)果如下:

圖片

繪圖查看用戶流失('Churn')與各個(gè)維度之間的關(guān)系

結(jié)果如下:

圖片

【分析】:從圖看gender(性別)、PhoneService(電話服務(wù))相關(guān)性幾乎為0,故兩個(gè)維度可以忽略。


['SeniorCitizen','Partner','Dependents', 'Contract',MultipleLines,'InternetService', ?'OnlineSecurity', 'OnlineBackup', 'DeviceProtection','TechSupport', 'StreamingTV', 'StreamingMovies','PaperlessBilling','PaymentMethod']?等都有較高的相關(guān)性,將以上維度合并成一個(gè)列表kf_var,然后進(jìn)行頻數(shù)比較。

結(jié)果如下:

圖片


8.統(tǒng)計(jì)分析

8.1 頻數(shù)分布比較

8.1.1 卡方檢驗(yàn)

組間有顯著性差異,頻數(shù)分布比較才有意義,否則可能會(huì)做無(wú)用功。"卡方檢驗(yàn)",就是提高頻數(shù)比較結(jié)論可信度的統(tǒng)計(jì)方法。

kf_var的卡方檢驗(yàn)結(jié)果如下:

Churn by SeniorCitizen 的卡方臨界值是0.00,小于0.05,表明SeniorCitizen組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by Partner 的卡方臨界值是0.00,小于0.05,表明Partner組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by Dependents 的卡方臨界值是0.00,小于0.05,表明Dependents組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by MultipleLines 的卡方臨界值是0.99,大于0.05,表明MultipleLines組間無(wú)顯著性差異,不可進(jìn)行交叉分析Churn by InternetService 的卡方臨界值是0.00,小于0.05,表明InternetService組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by OnlineSecurity 的卡方臨界值是0.00,小于0.05,表明OnlineSecurity組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by OnlineBackup 的卡方臨界值是0.00,小于0.05,表明OnlineBackup組間有顯著性差異,可進(jìn)行【交叉分析】Churn by DeviceProtection 的卡方臨界值是0.00,小于0.05,表明DeviceProtection組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by TechSupport 的卡方臨界值是0.00,小于0.05,表明TechSupport組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by StreamingTV 的卡方臨界值是0.00,小于0.05,表明StreamingTV組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by StreamingMovies 的卡方臨界值是0.00,小于0.05,表明StreamingMovies組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by Contract 的卡方臨界值是0.00,小于0.05,表明Contract組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by PaperlessBilling 的卡方臨界值是0.00,小于0.05,表明PaperlessBilling組間有顯著性差異,可進(jìn)行【交叉分析】

Churn by PaymentMethod 的卡方臨界值是0.00,小于0.05,表明PaymentMethod組間有顯著性差異,可進(jìn)行【交叉分析】

從卡方檢驗(yàn)的結(jié)果,kf_var包含的特征,組間都有顯著性差異,可進(jìn)行頻數(shù)比較。

8.1.2 柱形圖

頻數(shù)比較--柱形圖

結(jié)果如下:

圖片
圖片

因?yàn)镻aymentMethod的標(biāo)簽比較長(zhǎng),影響看圖,所以單獨(dú)畫(huà)。

圖片

可以直接從柱形圖去判斷對(duì)哪個(gè)維度對(duì)流失客戶的影響大嗎?不能,因?yàn)椤皹颖静痪狻保魇Э蛻魳颖菊急?6.5%,留存客戶樣本占比73.5%),基數(shù)不一樣,故不能直接通過(guò)“頻數(shù)”的柱形圖去分析。解決辦法:交叉分析,且作同行百分比('Churn'作為“行”)

8.1.3 交叉分析

ka_var列表中的維度與Churn交叉分析結(jié)果如下:

圖片

【SeniorCitizen 分析】:年輕用戶 在流失、留存,兩個(gè)標(biāo)簽的人數(shù)占比都高。

圖片

【Parter 分析】:?jiǎn)紊碛脩舾菀琢魇А?/p>

圖片

【Denpendents 分析】:經(jīng)濟(jì)不獨(dú)立的用戶更容易流失。

圖片

【MultipleLines 分析】:是否開(kāi)通MultipleLines,對(duì)留存和流失都沒(méi)有明顯的促進(jìn)作用。

圖片

【InternetService 分析】:辦理了 “Fiber optic 光纖網(wǎng)絡(luò)”的客戶容易流失。

圖片

【OnlineSecurity 分析】:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”的客戶容易流失。

圖片

【OnlineBackup 分析】:沒(méi)開(kāi)通“在線備份服務(wù)”的客戶容易流失。

圖片

【DeviceProtection 分析】:沒(méi)開(kāi)通“設(shè)備保護(hù)業(yè)務(wù)”的用戶比較容易流失

圖片

【TechSupport 分析】:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”的用戶容易流失。

圖片

【StreamingTV 分析】:是否開(kāi)通“網(wǎng)絡(luò)電視”服務(wù),對(duì)用戶留存、流失,沒(méi)有明顯的促進(jìn)作用。

圖片

【StreamingMovies 分析】:是否開(kāi)通“網(wǎng)絡(luò)電影”服務(wù),對(duì)用戶留存、流失,沒(méi)有明顯的促進(jìn)作用。

圖片

【Contract 分析】逐月簽訂合同的用戶最容易流失。

圖片

因?yàn)?#34;Churn BY PaymentMethod"打印出來(lái)顯示不全,故我就從臨時(shí)表將“交叉表”給截圖出來(lái)了:

圖片

【分析】使用“電子支票”支付的人更容易流失。

8.2 均值比較

組間有顯著性差異,均值比較才有意義。顯著性檢驗(yàn),先通過(guò)了齊性檢驗(yàn),再通過(guò)方差分析,最后才能做均值比較。

8.2.0 齊性檢驗(yàn),方差分析

對(duì)MonthlyCharges、TotalCharges維度分別進(jìn)行齊性檢驗(yàn)和方差分析

【輸出】:MonthlyCharges、TotalCharges的齊性檢驗(yàn) 和方差分析結(jié)果如下:警告:Churn BY MonthlyCharges的P值為0.00,小于0.05,表明齊性檢驗(yàn)不通過(guò),不可作方差分析警告:Churn BY TotalCharges的P值為0.00,小于0.05,表明齊性檢驗(yàn)不通過(guò),不可作方差分析

8.3 總結(jié)

用戶出現(xiàn)以下特征比較容易流失:

  • SeniorCitizen:青年人

  • Partner :?jiǎn)紊?/p>

  • Dependents :無(wú)經(jīng)濟(jì)獨(dú)立

  • InternetService:開(kāi)通了 “Fiber optic 光纖網(wǎng)絡(luò)”

  • OnlineSecurity:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”

  • OnlineBackup:沒(méi)開(kāi)通“在線備份業(yè)務(wù)”

  • DeviceProtection:沒(méi)開(kāi)通通了“設(shè)備保護(hù)業(yè)務(wù)

  • TechSupport:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”

  • Contract:“按月”簽訂合同方式

  • PaperlessBilling:開(kāi)通電子賬單

  • PaymentMethod:使用“電子支票”支付的人

我們可以在SQL(數(shù)據(jù)庫(kù))上找有以上特征的客戶,進(jìn)行精準(zhǔn)營(yíng)銷,即可以降低用戶流失。雖然特征選得越多,越精確,但覆蓋的人群也會(huì)越少。故,我們還需要計(jì)算“特征”的【重要性】,將最為重要的幾個(gè)特征作為篩選條件。計(jì)算特征的【重要性】,是“分類視角”,接下來(lái)我們會(huì)挑選常見(jiàn)的分類模型,進(jìn)行批量訓(xùn)練,然后挑出得分最高的模型,進(jìn)一步計(jì)算“特征重要性”。

9.特征工程

9.1 提取特征

有前面的流失率與各個(gè)維度的相關(guān)系數(shù)柱狀圖可知:流失率與gender(性別)、PhoneService(電話服務(wù))相關(guān)性幾乎為0,可以篩選掉,而customerID是隨機(jī)數(shù),不影響建模,故可以篩選掉。最終得到特征 churn_var

結(jié)果如下:

圖片

9.2 處理“量綱差異大”

“MonthlyCharges"、"TotalCharges"兩個(gè)特征跟其他特征相比,量綱差異大。

圖片

處理量綱差異大,有兩種方法:

  1. 標(biāo)準(zhǔn)化

  2. 離散化

以上兩種方法,哪個(gè)能讓模型精度提高,就選哪個(gè)。根據(jù)模型的最后得分,我選了“離散化”來(lái)處理量綱差異大。

9.2.1 標(biāo)準(zhǔn)化

【輸出】

圖片

9.2.2 特征離散化

特征離散化后,模型易于快速迭代,且模型更穩(wěn)定。1、處理'MonthlyCharges':

圖片

離散操作 18.25=<churn_var['MonthlyCharges']<=35.5,標(biāo)記 “1” 35.5<churn_var['MonthlyCharges']<=70.35,標(biāo)記 “2” 70.35<churn_var['MonthlyCharges']<=89.85,標(biāo)記 “3” 89.85=<churn_varf['MonthlyCharges']<=118.75,標(biāo)記“4”

結(jié)果如下:

圖片

2、處理'TotalCharges':

結(jié)果如下:

圖片

離散操作:18=<churn_var['TotalCharges']<=402,標(biāo)記 “1” 402<churn_var['TotalCharges']<=1397,標(biāo)記 “2” 1397<churn_var['TotalCharges']<=3786,標(biāo)記 “3” 3786<churn_var['TotalCharges']<=8684,標(biāo)記 “4”

【輸出】

圖片

9.3 分類數(shù)據(jù)轉(zhuǎn)換成“整數(shù)編碼”

9.3.1 查看churn_var中分類變量的label(標(biāo)簽)

結(jié)果如下:

圖片
圖片

通過(guò)同行百分比的“交叉分析”發(fā)現(xiàn),label “No internetserive”的人數(shù)占比在以下特征[OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingTV]都是驚人的一致,故我們可以判斷l(xiāng)abel “No internetserive”不影響流失率。因?yàn)檫@6項(xiàng)增值服務(wù),都是需要開(kāi)通“互聯(lián)網(wǎng)服務(wù)”的基礎(chǔ)上才享受得到的。不開(kāi)通“互聯(lián)網(wǎng)服務(wù)”視為沒(méi)開(kāi)通這6項(xiàng)增值服務(wù),故可以將 6個(gè)特正中的“No internetserive” 并到 “No”里面。

而特征MultipleLines的“ No phoneservice”在流失客戶、留存客戶樣本中的人數(shù)占比幾乎接近,且比較少,故可以將“ No phoneservice”并到“No”。

結(jié)果如下:

圖片

9.3.2 整數(shù)編碼

整數(shù)編碼的方法有兩種:1、sklearn中的LabelEncoder()2、pandas中的factorize 此處選用 LabelEncoder()

結(jié)果如下:

圖片

9.4 處理“樣本不均衡”

分拆變量

【輸出】 抽樣前的數(shù)據(jù)特征 (7043, 17) 抽樣前的數(shù)據(jù)標(biāo)簽 (7043,)處理樣本不均衡常用的方式有三種:

  1. 分層抽樣

  2. 過(guò)抽樣

3.欠抽樣

筆者先后嘗試了“分層抽樣”和“欠抽樣”,前者最終得到的模型中精度最高的是0.63,而后者最終得到的模型中精度最低是0.78,最高是0.84。所以說(shuō)“抽樣方式”的選擇極為重要,大家要在這里多試錯(cuò)。

分層抽樣

“過(guò)抽樣”讓模型精度更高,故我選“過(guò)抽樣”。

輸出數(shù)據(jù)集大小

【輸出】過(guò)抽樣后數(shù)據(jù)特征:(10348, 17) 訓(xùn)練數(shù)據(jù)特征:(7243, 17) 測(cè)試數(shù)據(jù)特征:(3105, 17) 過(guò)抽樣后數(shù)據(jù)標(biāo)簽:(10348,) ? ?訓(xùn)練數(shù)據(jù)標(biāo)簽:(7243,) ? ?測(cè)試數(shù)據(jù)標(biāo)簽:(3105,)

10.數(shù)據(jù)建模

使用分類算法

訓(xùn)練模型

11.模型評(píng)估

【輸出】 特征工程,采用“標(biāo)準(zhǔn)化”處理量綱差異,采用“分層抽樣”處理樣本不均衡。最終模型精度得分,最高分是0.63,是“樸素貝葉斯”模型

圖片

特征工程,采用“離散化”處理量綱差異,采用“過(guò)抽樣”處理樣本不均衡。最終模型精度得分,最高分是0.84,是“XGB”模型

圖片


12.基于“XGB”模型輸出特征重要性

筆者嘗試了兩個(gè)算法分別輸出“特征重要性”:CatBoost算法 和 XGB 算法

  • CatBoost算法


【輸出】

圖片

-XGB 算法

【輸出】

圖片

由于 XGB算法精度得分最高,故我們以XGB得到的“特征重要性”進(jìn)行分析?!痉治觥?、第一重要特征:tenure

【輸出】

圖片

【分析】 由圖可知,流失客戶集中在1-5號(hào)職位,運(yùn)營(yíng)團(tuán)隊(duì)需要重點(diǎn)關(guān)注1-5號(hào)職位。2、第二重要特征:PaymentMethod【分析】 使用“電子支票”支付的人更容易流失。3、第三重要特征:MonthlyCharges 查看流失用戶、留存用戶在付費(fèi)方面的偏好:'MonthlyCharges'、'TotalCharges',離散化后,可進(jìn)行卡方檢驗(yàn),然后交叉分析。

  • 卡方檢驗(yàn):'MonthlyCharges'、'TotalCharges'


【輸出】 kf_var的卡方檢驗(yàn)結(jié)果如下:Churn by MonthlyCharges 的卡方臨界值是0.00,小于0.05,表明MonthlyCharges組間有顯著性差異,可進(jìn)行【交叉分析】Churn by TotalCharges 的卡方臨界值是0.00,小于0.05,表明TotalCharges組間有顯著性差異,可進(jìn)行【交叉分析】

  • 交叉分析


【輸出】

圖片

18.25=<churn_var['MonthlyCharges']<=35.5,標(biāo)記 “1” 35.5<churn_var['MonthlyCharges']<=70.35,標(biāo)記 “2” 70.35<churn_var['MonthlyCharges']<=89.85,標(biāo)記 “3” 89.85=<churn_varf['MonthlyCharges']<=118.75,標(biāo)記“4” 【分析】 月付費(fèi)70.35--118.75元的用戶更容易流失

圖片

18=<churn_var['TotalCharges']<=402,標(biāo)記 “1” 402<churn_var['TotalCharges']<=1397,標(biāo)記 “2” 1397<churn_var['TotalCharges']<=3786,標(biāo)記 “3” 3786<churn_var['TotalCharges']<=8684,標(biāo)記 “4” 【分析】 總付費(fèi)18--1397元的用戶更容易流失基于"MonthlyCharges"和“TotalCharges”畫(huà)四分圖:求兩個(gè)維度的均值

流失客戶四分圖:

【輸出】

圖片

【分析】 四分圖的右下區(qū)域,流失客戶比較集中,即總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失。留存客戶四分圖

【輸出】

圖片

【結(jié)論】?綜合“ 統(tǒng)計(jì)分析” 和 “XGB算法輸出特征重要性” 得出流失客戶有以下特征(依特征重要性從大到小排列):

  1. tenure:1-5號(hào)職位的用戶比較容易流失

  2. PaymentMethod:使用“電子支票”支付的人

  3. MonthlyCharges 、TotalCharges:總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失

  4. PaperlessBilling:開(kāi)通電子賬單

  5. Partner:單身

  6. OnlineBackup:沒(méi)開(kāi)通“在線備份業(yè)務(wù)”

  7. InternetService:開(kāi)通了 “Fiber optic 光纖網(wǎng)絡(luò)”

  8. TechSupport:沒(méi)開(kāi)通“技術(shù)支持服務(wù)”

  9. DeviceProtection:沒(méi)開(kāi)通通了“設(shè)備保護(hù)業(yè)務(wù)

  10. OnlineSecurity:沒(méi)開(kāi)通“網(wǎng)絡(luò)安全服務(wù)”

  11. Contract:“按月”簽訂合同方式

  12. Dependents:無(wú)經(jīng)濟(jì)獨(dú)立

  13. SeniorCitizen :青年人

  14. TotalCharges:總費(fèi)用在2281.92元以下,月費(fèi)用在64.76元以上的客戶比較容易流失

    轉(zhuǎn)載:https://mp.weixin.qq.com/s/z0zFdHNsRCLAF3XNkwhm2A


    實(shí)際建模流程并沒(méi)有這么復(fù)雜,有些統(tǒng)計(jì)學(xué)校驗(yàn)方法也不一定需要用,更多實(shí)戰(zhàn)相關(guān)風(fēng)控建模知識(shí)請(qǐng)參考:




金融風(fēng)控模型案例_電信客戶流失數(shù)據(jù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
迁西县| 延吉市| 隆尧县| 宣化县| 遵义县| 梁河县| 定襄县| 临潭县| 宣威市| 嵊泗县| 西城区| 通榆县| 营口市| 荣成市| 万山特区| 荣昌县| 敦化市| 泰州市| 绥阳县| 揭阳市| 津南区| 韶关市| 密山市| 永吉县| 金坛市| 休宁县| 通州市| 高安市| 肥城市| 吉木乃县| 高碑店市| 肥城市| 阿城市| 府谷县| 宁南县| 长海县| 阿巴嘎旗| 田东县| 观塘区| 张家港市| 台南市|