R語言回歸、anova方差分析、相關(guān)性分析 《精品購物指南》調(diào)研數(shù)據(jù)可視化
全文鏈接:http://tecdat.cn/?p=30990
原文出處:拓端數(shù)據(jù)部落公眾號
第一節(jié) 研究背景與目的
《精品購物指南》是中國本土經(jīng)營規(guī)模最大、最具影響力的時尚媒體品牌,1999年《精品購物指南》即進入全國報業(yè)廣告十強,2005~2007連續(xù)三年獲得國家新聞出版總署頒布的“全國生活服務(wù)類報紙競爭力10強”,并蟬聯(lián)第一。2013年,《精品購物指南》被國家新聞出版廣電總局評為“全國百強報紙”。
在分析時,我們向客戶演示了用R語言回歸、anova方差分析、相關(guān)性分析可以提供的內(nèi)容。
本研究使用對《精品購物指南》所做的一次調(diào)查結(jié)果作為本次案例分析的數(shù)據(jù)。試圖分析目前閱讀《精品購物指南》的群體特征,以及影響閱讀《精品購物指南》的時間的因素,從而更好地對受眾群體和市場做出分析。
第二節(jié)描述性統(tǒng)計
1. 數(shù)據(jù)預(yù)處理

##變量賦值colnames(data)=c( ?"編號", ?"性別", ?"年齡", ?"婚姻狀況", ?"受教育程度", ?"職業(yè)或身份", ?"個人月平均收入", ?"報攤購買", ?"個人訂閱", ?"單位訂閱", ?"贈閱", ?"借閱他人", ?"其他", ?"上班途中", ?"下班途中", ?"午休時間", ?"逛銜購物時", ?"不定時", ?"對《精品購物指南》的零購情況", ?"家人是否會提醒購買《精品》", ?"是第幾選擇", ?"家人是否閱讀《精品》", ?"", ?"", ?"一直購買(或訂閱)本報(習(xí)慣)", ?"豪華版內(nèi)容吸引人", ?"普通版文章吸引人", ?"查找廣告信息", ?"參加讀者樂園版的活動", ?"逛商場購物需要", ?"價格便宜", ?"沒有什么原因想起來就買", ?"其他", ?"住所", ?"工作場所", ?"車站或乘車路途", ?"娛樂場所", ?"其他場所", ?"多少人閱讀同一份報紙", ?"閱讀《精品》的時間", ?"每天讀報時間", ?"對我消費有指導(dǎo)", ?"提高我的生活品位和檔次", ?"信息實用性強", ?"關(guān)注社會新聞", ?"信息量大", ?"信息質(zhì)量高", ?"報道領(lǐng)域全面", ?"內(nèi)容貼近市場", ?"尋找有用的信息和廣告", ?"放松自我", ?"通俗易懂", ?"廣告信息豐富", ?"版面編排合理", ?"售價合理", ?"訂閱或零購方便", ?"其他", ?"平均每月閱讀幾期《精品》", ?"首先欣賞豪華版", ?"先看標(biāo)題,再揀有意思的看", ?"我只看自己喜歡的固定欄目", ?"看完喜歡的文章,再瀏覽其他內(nèi)容", ?"只查找對自己有用的信息", ?"無目的地翻閱報紙", ?"如果未能看到某一期《精品》", ?"能夠閱讀完《精品》內(nèi)容", ?"封面要聞", ?"百姓生活新聞", ?"北京都市新聞", ?"消費新聞", ?"讀者樂園", ?"體壇新聞", ?"關(guān)注足球", ?"籃球時空", ?"綠茵評說", ?"精品回顧", ?"文化資訊", ?"影視介紹", ?"讀書生活", ?"音樂欣賞", ?"外企專遞", ?"留學(xué)必備", ?"充電課堂", ?"人才聚焦", ?"處世情感", ?"健康", ?"美食", ?"休閑旅游", ?"保險", ?"律師", ?"百貨新品", ?"休閑寵物", ?"戶外休閑", ?"美食", ?"家庭保健", ?"超市SHOPPER"
?,"新品試驗"
?,"樣品透視"
?,"汽車時代"
?,"電腦"
?,"市場行情"
?,"通訊網(wǎng)絡(luò)"
?,"樓市了望"
?,"房產(chǎn)金融"
?,"政策掃描"
?,"家具世界"
?,"家裝熱點"
?,"選材指南"
?,"飾品快遞"
?,"非常男人"
?,"特別女人"
?,"新新人類"
?,"網(wǎng)絡(luò)家庭"
?,"扮美家居"
?,"今日媽咪"
?,"選題大眾化"
?,"信息實用性強"
?,"可讀性強"
?,"幫助我消費選擇"
?,"趣味性強"
?,"報道領(lǐng)域全面"
?,"幫助我了解市場行情"
?,"放松自我"
?,"文字優(yōu)美"
?,"觀點新穎"
?,"版式活潑"
?,"品位高雅"
?,"風(fēng)格突出"
?,"廣告內(nèi)容豐富"
?,"其他"
?,"招商展覽"
?,"電腦"
?,"通訊"
?,"汽車"
?,"房地產(chǎn)"
?,"家電"
?,"食品酒類"
?,"旅游娛樂"
?,"商場飯店"
?,"服裝服飾"
?,"美容用品"
?,"保健品"
?,"醫(yī)療器械"
?,"家居用品"
?,"航空訂票"
?,"招生"
?,"人才招聘"
?,"公益廣告"
?,"文化用品"
?,"房屋祖賃"
?,"金融證券"
?,"發(fā)行廣告"
?,"其他"
?,"廣告對于消費是否有幫助"
?,"廣告數(shù)量適中"
?,"廣告信息豐富"
?,"廣告信息及時"
?,"廣告設(shè)計新穎"
?,"廣告內(nèi)容屬實"
?,"其他"
?,"是否了解精品的訂閱服務(wù)"
?,"零購者"
?,"訂戶"
?," "
," v14")


刪除缺失
data=complete.cases(data)
2.繪制不同變量之間的關(guān)系
?geom_point() +
? ?geom_smooth(method=method, ...)

從每個變量的直方圖可以看到變量的大概分布情況。繪制各個變量的餅圖可以看到基本人口信息的各個取值的所占的百分比。

第三節(jié) 回歸,方差分析與模型比較
1.相關(guān)性分析
for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])
#數(shù)據(jù)歸一化
data=scale(datacor)
查看性別和閱讀《精品》的時間之間是否有相關(guān)關(guān)系
cor.test(datacor$"性別", ?
???????? datacor$"閱讀《精品》的時間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$性別 and datacor$"閱讀《精品》的時間" ?## t = 0.63616, df = 1995, p-value = 0.5247 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.02964101? 0.05806894 ?## sample estimates: ?##??????? cor ?## 0.01424136
檢驗的結(jié)果是,由于P =0.5247> 0.05,因此在0.05的顯署性水平下,接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系。
查看婚姻狀況和閱讀《精品》的時間之間是否具有相關(guān)關(guān)系
cor.test(datacor$"婚姻狀況", ?
???????? datacor$"閱讀《精品》的時間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$婚姻狀況 and datacor$"閱讀《精品》的時間" ?## t = -1.7215, df = 1995, p-value = 0.08531 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.082238962? 0.005358859 ?## sample estimates: ?##???????? cor ?## -0.03851404
檢驗的結(jié)果是,由于P =0.08531> 0.05,因此在0.05的顯署性水平下,所以接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系
查看受教育程度和閱讀《精品》的時間之間是否具有相關(guān)關(guān)系
cor.test(datacor$"受教育程度", ?
???????? datacor$"閱讀《精品》的時間")## ?##? Pearson's product-moment correlation ?## ?## data:? datacor$受教育程度 and datacor$"閱讀《精品》的時間" ?## t = -0.71111, df = 1995, p-value = 0.4771 ?## alternative hypothesis: true correlation is not equal to 0 ?## 95 percent confidence interval: ?##? -0.05974084? 0.02796468 ?## sample estimates: ?##??????? cor ?## -0.0159187
檢驗的結(jié)果是,由于P =0.4771>0.05,因此在0.05的顯署性水平下,接受原假設(shè),認(rèn)為兩者之間不具有相關(guān)關(guān)系。
2.回歸分析
查看共線性關(guān)系
which(abs(cormatrix)>0.6,arr.ind = T)##????????????????????????????? row col ?## 編號?????????????????????????? 1?? 1 ?## 性別?????????????????????????? 2?? 2 ?## 年齡?????????????????????????? 3?? 3
從結(jié)果看,沒有相關(guān)系數(shù)大于0.6的不同變量。因此,變量間不存在共線性問題。
回歸分析
summary(model)





從回歸模型的結(jié)果來看,可以看被調(diào)查者的職業(yè)或身份,家人是否閱讀《精品》`,以及豪華版內(nèi)容是否吸引人等因素對被調(diào)查對象否閱讀《精品》的時間有比較大的影響,p值小于0.05,因此該變量對被調(diào)查者選擇去看報紙有顯著的影響 。
3.模型篩選與比較
無常數(shù)項模型擬合





回歸模型校正
利用qqPlot()函數(shù)提供的正態(tài)假設(shè)檢驗方法,它畫出了在n-p-1個自由度的t分布下的學(xué)生化殘差圖形,再配合Shapiro檢驗得出檢測結(jié)果,而Shapiro樣本量的大小范圍 配合下圖可以發(fā)現(xiàn)除了Providence,所有的點都離直線很近,都落在置信區(qū)間內(nèi),這表明與正態(tài)性假相符。
library(car) ?qqPlot(model2,labels = row.names(datacor))

方差齊性
利用殘差繪制曲線圖并配合Durbin-Watson檢驗,此檢驗方法能夠檢測誤差的序列相關(guān)性,再配合下表檢驗結(jié)果顯著性為0.7604表示接受原假設(shè),因此誤差項獨立性檢驗通過。
dwtest(model2)## ?##? Durbin-Watson test ?## ?## data:? model2 ?## DW = 2.0242, p-value = 0.7604 ?## alternative hypothesis: true autocorrelation is greater than 0
方差分析

所有變量的p值都小于0.05,說明在0.05的顯著水平上,不同特征的被調(diào)查對象的閱讀精品時間之間有明顯差別

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價格
9.R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進行分類預(yù)測