R語言對(duì)airbnb數(shù)據(jù)nlp文本挖掘、地理、詞云可視化、回歸GAM模型、交叉驗(yàn)證分析
全文鏈接:http://tecdat.cn/?p=27976
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
作者:Guojiang Zhao
數(shù)據(jù)量大,數(shù)據(jù)要進(jìn)行清洗以及預(yù)處理,同時(shí)要多方面可視化,要探索多變量對(duì)因變量的影響。
解決方案
用R語言讀取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗合并以及預(yù)處理,數(shù)據(jù)可視化,特征工程以及變量選擇,建模,交叉驗(yàn)證,模型評(píng)價(jià)。
任務(wù)/目標(biāo)
對(duì)價(jià)格進(jìn)行預(yù)測(cè)并且比較
特征轉(zhuǎn)換
處理缺失值(對(duì)缺失值進(jìn)行插值以及取均值進(jìn)行處理,同時(shí)去掉一些缺失較少的數(shù)據(jù)行)
將因子變量變?yōu)閿?shù)值型變量好做best subset selection來進(jìn)行特征選擇等等
可視化



?

運(yùn)用nlp以及詞云可視化
構(gòu)造
以上說明了如何抽取相關(guān)特征,我們大致有如下訓(xùn)練樣本(只列舉部分特征)。

劃分訓(xùn)練集和測(cè)試集
訓(xùn)練集70%和測(cè)試集30%
變量選擇:best subset selection
?

選取5個(gè)最佳的變量?
建模
預(yù)測(cè)價(jià)格
多元回歸分析
GAM模型(平滑樣條,多項(xiàng)式回歸,三次樣條)
不同變量通過cross-validation來選擇哪一種模型是cv.error最小的
如圖:

最后得到最終的一個(gè)模型
?

回歸決策樹

剪枝后

預(yù)測(cè)
三個(gè)模型中分別對(duì)price預(yù)測(cè)
模型比較:
比較預(yù)測(cè)值和實(shí)際值的RMSE,選取最優(yōu)模型
三個(gè)模型price預(yù)測(cè)值與實(shí)際值

比較:

?可以看出,GAM模型是三個(gè)模型中最適合的,然后可以依據(jù)該模型對(duì)price進(jìn)行預(yù)測(cè)。
關(guān)于作者

在此對(duì)Guojiang Zhao對(duì)本文所作的貢獻(xiàn)表示誠摯感謝,他在卡耐基梅隆大學(xué)完成了碩士學(xué)位,擅長(zhǎng)機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)理統(tǒng)計(jì),數(shù)據(jù)分析。
最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對(duì)LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測(cè)心臟病
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語言用邏輯回歸、決策樹和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)