最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

R語言邏輯回歸預(yù)測分析付費(fèi)用戶

2021-03-06 12:43 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=967

?

對于某企業(yè)新用戶,會利用大數(shù)據(jù)來分析該用戶的信息來確定是否為付費(fèi)用戶,弄清楚用戶屬性,從而針對性的進(jìn)行營銷,提高運(yùn)營人員的辦事效率。

對于付費(fèi)用戶預(yù)測,主要是思考收入由哪些因素推動,再對每個因素做預(yù)測,最后得出付費(fèi)預(yù)測。這其實(shí)不是一個財務(wù)問題,是一個業(yè)務(wù)問題。

流失預(yù)測。這方面會偏向于大額付費(fèi)用戶,提取額特征向量運(yùn)用到應(yīng)用場景的用戶流失和預(yù)測里面去。

方法

回歸是一種極易理解的模型,就相當(dāng)于y=f(x),表明自變量x與因變量y的關(guān)系。最常見問題有如醫(yī)生治病時的望、聞、問、切,之后判定病人是否生病或生了什么病,其中的望聞問切就是獲取自變量x,即特征數(shù)據(jù),判斷是否生病就相當(dāng)于獲取因變量y,即預(yù)測分類。

問題描述

我們嘗試并預(yù)測用戶是否可以根據(jù)數(shù)據(jù)中可用的人口信息變量使用邏輯回歸預(yù)測月度付費(fèi)是否超過 50K。

在這個過程中,我們將:

1.導(dǎo)入數(shù)據(jù)2.檢查類別偏差3.創(chuàng)建訓(xùn)練和測試樣本4.建立logit模型并預(yù)測測試數(shù)據(jù)5.模型診斷

檢查類偏差

理想情況下,Y變量中事件和非事件的比例大致相同。所以,我們首先檢查因變量ABOVE 50K中的類的比例。

  1. 0 1

  2. 24720 7841

顯然,不同付費(fèi)人群比例 有偏差 。所以我們必須以大致相等的比例對觀測值進(jìn)行抽樣,以獲得更好的模型。

構(gòu)建Logit模型和預(yù)測

確定模型的最優(yōu)預(yù)測概率截止值默認(rèn)的截止預(yù)測概率分?jǐn)?shù)為0.5或訓(xùn)練數(shù)據(jù)中1和0的比值。但有時,調(diào)整概率截止值可以提高開發(fā)和驗(yàn)證樣本的準(zhǔn)確性。InformationValue :: optimalCutoff功能提供了找到最佳截止值,減少錯誤分類錯誤。

  1. optCutOff <-optimalCutoff(testData$ABOVE50K, predicted)[1] => 0.71


模型診斷

錯誤分類錯誤

錯誤分類錯誤是預(yù)測與實(shí)際的不匹配百分比 。錯誤分類錯誤越低,模型越好。

  1. misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)


  2. [1] 0.0892

ROC曲線

ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計(jì)算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。

上述型號的ROC曲線面積為89%,相當(dāng)不錯。

一致性

簡單來說,在1-0 的所有組合中,一致性是預(yù)測對的百分比 ,一致性越高,模型的質(zhì)量越好。

  1. $Concordance [1] 0.8915107 $Discordance [1] 0.1084893 $Tied [1] -2.775558e-17 $Pairs [1] 45252896


上述型號的89.2%的一致性確實(shí)是一個很好的模型。

混淆矩陣

在人工智能中,混淆矩陣(confusion matrix)是可視化工具,特別用于監(jiān)督學(xué)習(xí),在無監(jiān)督學(xué)習(xí)一般叫做匹配矩陣。其每一列代表預(yù)測值,每一行代表的是實(shí)際的類別。這個名字來源于它可以非常容易的表明多個類別是否有混淆(也就是一個class被預(yù)測成另一個class)。

  1. confusionMatrix(testData$ABOVE50K, predicted, threshold = optCutOff)


  2. 0 1 0 18849 1543 1 383 810

結(jié)論

這里僅僅介紹了模型的建立和評估。通過模型的結(jié)論,我們可以得到一些已經(jīng)為公眾所接受和熟知的現(xiàn)象是:付費(fèi)和受教育程度、智力、年齡以及性別等相關(guān)。 基于此用戶規(guī)模預(yù)測模型,結(jié)合用戶的人口信息,即可粗略預(yù)估產(chǎn)品在一般情況下的收入情況, 從而判斷就得到了付費(fèi)用戶預(yù)測模型,如果把收入分類轉(zhuǎn)換成流失用戶和有效用戶,就得到了流失用戶預(yù)測模型。


R語言邏輯回歸預(yù)測分析付費(fèi)用戶的評論 (共 條)

分享到微博請遵守國家法律
双柏县| 涿鹿县| 余姚市| 五家渠市| 尚志市| 马山县| 宜宾县| 绵竹市| 汝城县| 商河县| 喀喇沁旗| 满城县| 五家渠市| 厦门市| 临泉县| 阳曲县| 安塞县| 阳新县| 新巴尔虎左旗| 蕲春县| 霍林郭勒市| 塔城市| 神农架林区| 常州市| 乌鲁木齐市| 台山市| 鹤峰县| 竹北市| 河源市| 舒兰市| 策勒县| 平湖市| 成都市| 昔阳县| 株洲市| 邹城市| 且末县| 宜丰县| 云安县| 合水县| 安新县|