【視頻】R語言機器學習高維數據應用:Lasso回歸和交叉驗證預測房屋市場租金價格
全文鏈接:http://tecdat.cn/?p=32646
原文出處:拓端數據部落公眾號
分析師:Junjun Li
在這篇文章中,我們將著重探討高維數據下的機器學習應用,以房屋市場租金價格預測為例。在實際生活中,房屋租金作為一個重要的經濟指標,被廣泛應用于城市規(guī)劃、財務投資等方面的決策中。然而,如何準確地預測房屋租金價格卻一直是一個具有挑戰(zhàn)性的問題。
本文將介紹如何使用Lasso回歸和交叉驗證方法來解決高維數據下的房屋市場租金價格預測問題,并詳細闡述R語言在此過程中的應用技巧和實現方法。
背景
Goal: 利用主體物業(yè)和租戶的各種特征來預測房屋市場租金價格
Data: 在Inter-University Consortium for Politicaland Social Research(ICPSR)數據庫中找到的2007年美國住房調查(全國微觀數據)有65,000個觀測值和超過500個變量
Limitation: 某些特征的不可觀測
有部分特征在超過80%的觀測值中沒有數據的,導致沒有辦法配合預測模型進行變量的篩選
Model used:
Regularization: 10.fold Lasso & AICc Lasso
適合于大量數據處理(高維度多變量)

數據清理
使用R語言處理無法觀測到的變量︰ 1.觀測codebook去除無關的變量2.選擇去除50%以上失蹤的變量(可以反復對比去除了不同變量后的模型) 3.對于剩下的變量去除含有NA的觀測值
visualize部分重要變量是否合理

觀測數據
大多數租金集中在一千美元左右,其平均租金(由紅線標示)為1025美元(直方圖呈現出略微右偏的近似正態(tài)分布)。
觀測一些關鍵特征的信息,這些特征有助于預測公平市場租金,包括臥室數量、樓層數量、地塊面積和主體單位的平方英尺面積。

模型分析
Regularization - Lasso Model

使用K-Fold cross validation確定最佳的入值:
數據被分成K個相等的部分,除了第k個折疊之外的所有數據都用于訓練模型,第k個折疊用于測試模型,記錄離樣本外的偏差。
重復此過程,以至每個折疊都有機會成為測試集。導致離樣本外偏差最小的入是最優(yōu)入值,在案例中我采用K-10:
最終計算最小deviance中的樣本內R^2與通過10.Fold cross validation計算出的樣本外R^2。

左側是套索正則化路徑的繪圖。我們可以看到隨著lamda的增加,系數逐漸趨近于零。
右側的圖表顯示了10.Fold crossvalidation的離樣本外偏差誤差估計。最優(yōu)入由最左邊的垂直虛線表示。圖表上的最低點實際上位于圖表的最左側,lamda的值最小。
·與典型的圖表不同,這個圖表不是呈“u形
在這種情況下,這意味著選擇了最復雜的模型作為最優(yōu)解。

模型分析
右圖的值表示非零系數及其值,取重要變量進行合理性分析: 臥室數量:每增加—個臥室,月租金價格天約增加143.51美元,其他變量和特征保持不變。 這個值是合理的,因為2個臥室的單位的租金價格很可能大于1個臥室的單位的租金價格。 樓層數的系數是負數:對于每增加個樓層的單位或物業(yè),月租金價格將減少約10.55美元,其他變量和系數保持不變。這個負系數是合理的,因為樓層數較多的物業(yè)更有可能是緊湊型的。

模型分析
與10-Fold cross validation相比,我還使用了一個計算上較為簡便的替代方法是Akaike Information Criterion(AICc)
在高維數據中,AICc傾向于產生過于復雜的模型,導致過擬合。然而,AICc得到的非零系數及其值與之前相同
·在右圖中,我們展示了在我們的情況下,由AIC 、 AICc和10-Fold cross validation選擇的最優(yōu)lamda是相同的,即黑色、橙色和藍色虛線重疊的部分.

總結
在執(zhí)行Lasso Regularization后,我們看到模型從數據集中選擇了186個變量中的76個變量。但有一些重要變量地沒有包含在模型中,例如主體物業(yè)的建造年份和浴室數量,因為其中缺失了大量的觀測值。
因為數據缺失較多所以模型只能用作客觀預測,不能很好的反應各個變量之間的相關性, 在數據清理方面,選擇去除含50%及以上數據缺失的變量也是一個需要權衡的方向,因為這個門檻選擇太低又可能導致數據少無法正確反應變量之間的關系作用,而門檻太高就會出現沒辦法選擇到一些比較重要的變量。
此模型不具備自適應性,所以需要新數據的更新支持才能更好的保證其預測的準確性。

關于分析師

在此對Junjun Li對本文所作的貢獻表示誠摯感謝,他在加州大學圣克魯茲完成了應用經濟與金融專業(yè)的碩士學位,專注機器學習、數理金融、應用(計量)經濟學領域。擅長R語言、Python。
?最受歡迎的見解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實例
4.R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸
5.使用LASSO回歸預測股票收益數據分析
6.r語言中對lasso回歸,ridge嶺回歸和elastic-net模型
7.r語言中的偏最小二乘回歸pls-da數據分析
8.R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數據并高維可視化
9.R語言主成分分析(PCA)葡萄酒可視化:主成分得分散點圖和載荷圖