最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

汽車經銷商客戶流失預警:邏輯回歸(LR)、LASSO、逐步回歸

2023-03-29 23:41 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=32016

原文出處:拓端數據部落公眾號

分析師:Shufang Wei

隨著社會經濟的快速發(fā)展和交通基礎設施的不斷完善,我國汽車市場也得到了迅速增長。 與之配套的汽車售后服務市場成為龐大的黃金市場,發(fā)展?jié)摿@人。 在售后服務市場中,汽車 4S 店以其品牌優(yōu)勢,完整和規(guī)范的服務系統(tǒng)以及多種多樣的增值服務受到消費者的青睞。但汽車售后市場紛繁復雜, 汽車 4S 店仍 要面對競爭品牌對保有客戶的激烈爭奪,還有汽車維 修集團、甚至一些小型的汽車維修店對市場的蠶食。 而忠誠度越來越低的客戶,也讓汽車4S 店感到束手無 策。 因此客戶流失預警正成為汽車4S店售后服務領域 的一個重要研究問題。

解決方案

任務/目標

通過客戶歷史回廠維修車輛信息對客戶是否流失進行預警,幫助汽車經銷商建立流失預警得分機制,以此對不同得分的客戶采取針對性的措施。

數據源準備

此次分析的原始數據分為訓練集和測試集,包括客戶基礎信息數據和客戶回廠明細數據, 客戶基礎信息數據中為客戶的個人信息,即客戶特征,包含相同的 11個分類特征、 4 個連續(xù)特征和 1 個字符特征,共16 個變量。訓練集中有 51075 個樣本,測試有 10122個樣本;客戶回廠明細中包括客戶在各記錄回廠的具體信息,數據共包含從 2011 年到 2018 年 9 月份客戶回廠信息。

特征轉換

客戶年齡和流失率: 可以看出客戶隨年齡增大,呈現出流失率上升的情況。 為盡量保留連續(xù)型變量其獨有特征,僅對其做標準化(取對數)處理,降低連續(xù)變量量綱的影響。

車價和貸款金額: 都是對于價格的描述,將貸款金額轉變?yōu)橘J款比例,其信息量并無缺失,同時降低了量綱的影響。

分類型變量: 對每一個類別都單獨提出作為一個新的虛擬變量。例如:對于“車型 1”,“車型 2”和“缺失”就分為“是否車型 1”,“是否車型 2”和“是否缺失” , 即對一個 N 分類變量劃分為 N 個 2 分類變。以上例舉的只是部分特征。 最終得到得變量共 56 類,而后根據變量分組樣本量和 IV 將變量“車主性質”(BUYERPART)和顧客 ID 給剔除,剩余 54 個變量(53個自變量)。

構造

以上說明了如何抽取相關特征,我們大致有如下訓練樣本(只列舉部分特征)。

建模

邏輯回歸(LR)

邏輯回歸是在線性回歸的基礎上, 套用一個邏輯函數,以估計某種事物的可能性, 可用于解決分類問題。

模型優(yōu)化

1.上線之前的優(yōu)化: 變量篩選。

因為變量數目過多, 并且變量之間可能存在多重共線性, 因此在建模之前我們先對變量進行篩選比較在不同變量篩選方法下模型的效果。 在變量篩選過程中嘗試以下三種不同的變量篩選方法:

(1)基于模型 AIC 值的向后逐步回歸篩選;

(2)基于交叉檢驗 LASSO 回歸的變量篩選;

(3)在 LASSO 變量壓縮后再利用基于模型 AIC 值的向后逐步回歸篩選。

我們通過比較訓練集上的 AUC 值來判別各模型預測能力的強弱。這里的 AUC(Area under the Curve of ROC)是 ROC 曲線下方的面積,是判斷二分類預測模型優(yōu) 劣 的 標 準 之 一 。 ROC ( Receiver Operating Characteristic Curve),稱為接收者操作特征曲線,其橫坐標為偽陽性率(假正類率),即預測為正而實際非真的概率;縱坐標是真陽性率(真正類率),即預測為真且實際也為真的概率。

AUC 的值越大,說明模型能夠犧牲更少的錯誤預測換取更大的正確預測,模型的預測效果越好。

三種方法訓練出來的邏輯回歸模型在訓練集中的AUC 值比較如下表:

考慮到沒有進行 LASSO 變量壓縮的模型存在一定的多重共線性,許多變量不顯著,而基于 AIC 值的逐步回歸篩選方法能夠最大讓變量通過顯著性檢驗,為了保障模型的泛化能力和解釋性,我們選擇基于 LASSO和逐步回歸的變量篩選方法

項目結果

利用 LASSO 和逐步回歸進行變量篩選,以篩選后 的變量進行邏輯回歸,得到結果如下表所示。

基于以上模型結果我們對 4S 店提出以下建議:

(1) 4S 店應適當關注車價較低的客戶,對服務價格等客戶比較關心的因素及時做出調整,可利用適當降價等方式吸引低收入客戶;

(2)注重首次購買保險的客戶,盡可能為客戶留下好的印象以加深顧客的體驗,計算好損失和收益,可通過免費體驗及優(yōu)惠活動來引起首次購買保險顧客的注意。

得到模型之后, 繪制出流失預測模型在訓練集與測試集中的 ROC 曲線如下。 根據 ROC 圖中紅色曲線與對角線距離最大點處對應的分割作為判別是否流失的概率閾值,計算經過基于LASSO 和逐步回歸的變量篩選的邏輯回歸模型在訓練集和測試上預測結果的混淆矩陣見下表。其中,預測準確率定義為預測結果與實際結果一致的比例,流失客戶預測準確率為在所有流失客戶中被預測出為流失客戶的比例。

模型總的預測準確率在 65%以上,要優(yōu)于不用模型識別的情況, 并且可以反映出對客戶流失的敏感性。在該模型的指導下, 4S 店的店主會更加珍惜每一位客戶,愿意花更多的時間精力去采取挽回措施,從而保障更少的客戶流失率。

由于采用一個分割點對客戶進行二元分類的方法未能體現出客戶流失可能性之間的差異,我們需要對客戶流失傾向做進一步的區(qū)分。在邏輯回歸模型的基礎上,我們提出了基于流失勝率(odds)的評分機制設計, 將客戶流失得分劃分為 1-5 分,以此對不同得分的客戶采取針對性的措施。

在此機制下的模型預測能力監(jiān)控報表如下表。

在新的得分機制下,每個得分的流失概率和客戶占比較好地得到了預期的要求。根據預警得分, 4S 店的店主應該首先向占比僅 1.74%而流失比例超過 72.16%的得到 5 分預警的客戶采取挽回措施,有效減少了挽回成本和對流失傾向很低的客戶的打擾。其次, 4S店的店主應該關注占比6.54%的得到4分預警的客戶群體,此類客戶中有流失比例達到一半,若店主對客戶流失現象的回避傾向較高,對 4 分客戶群體采取挽回措施仍有不錯的針對性??傮w而言,新的得分機制設計下,更好地體現了不同預警水平下客戶流失傾向的區(qū)分度,店主依據此得分報表能夠更有針對性地完成流失客戶識別和挽回措施的制定,預測模型基本達到了指導售后服務的要求。

關于分析師

在此對Shufang Wei對本文所作的貢獻表示誠摯感謝,她在廈門大學完成了統(tǒng)計系專業(yè)的碩士學位,專注數據分析、數據挖掘。擅長R語言。


汽車經銷商客戶流失預警:邏輯回歸(LR)、LASSO、逐步回歸的評論 (共 條)

分享到微博請遵守國家法律
弥勒县| 平果县| 碌曲县| 弥渡县| 鹿邑县| 漾濞| 澄城县| 专栏| 纳雍县| 南安市| 镇雄县| 广灵县| 德阳市| 昌图县| 疏附县| 长葛市| 济阳县| 汉沽区| 塘沽区| 德阳市| 漯河市| 林甸县| 宣恩县| 车险| 周宁县| 苍山县| 沅陵县| 老河口市| 清远市| 霍林郭勒市| 汝城县| 滦南县| 会宁县| 米泉市| 交口县| 轮台县| 甘孜县| 甘谷县| 于都县| 加查县| 光山县|