R語言交互可視化分析房屋市場:arima、VAR時間序列、XGBoost、主成分分析、LASSO可視
全文鏈接:http://tecdat.cn/?p=32427
原文出處:拓端數據部落公眾號
分析師:Xueyan Liu
在當前海量數據和資源的情況下,面對客戶需求,如何找準需求標的和問題核心,并圍繞該目標問題挖掘數據、確定市場重要關聯因素、分層分類篩選可能關聯因素,是當前數據分析運用的關鍵。
解決方案
任務/目標
此項目根據全美房地產相關多源數據,旨在用數據創(chuàng)建一個報告, 全方面多維度展示美國房屋市場現狀。以房屋售價為核心,梳理主要相關指標,并挖掘其他可能相關性指標,通過對單一或多個指標,精準選擇合理算法建模,對房屋市場未來發(fā)展作出預測,用以更好的展現市場的全貌。
數據準備:
前期數據來源:通過搜過官方或者新聞媒體的行業(yè)報告中的數據來源,初始數據包括:月度房地產相關數據
后期數據來源:根據探索性分析后的結果,有針對性的在開源數據庫進行關鍵詞搜索,包括
探索性數據分析(EDA):
通過對數據進行清洗,將數據可視化;從統(tǒng)計分布,地域分布,時間分布等多維度進行分析、尋找數據之間的關系,并由此分析出更多可能相關因素,以進一步深入挖掘。
為了更清晰的表現數據,采用R中flexdashboard制作可互動性報告,并盡可能采用多種不同的圖表,以最大效用可視化數據。例如:創(chuàng)建條形圖,對比房屋掛牌價和實際售價的分布;或者創(chuàng)建地圖,以示不同地區(qū)房屋售價或者租金分布的差異。
?
創(chuàng)建預測模型:
使用預測模型,以更好的了解行業(yè)未來的發(fā)展趨勢:
SARIMA?時間序列模型
基于arima時間序列模型之上,考慮了季節(jié)性因素。把過去的值(AR)、過去的預測誤差(MA)、過去值之間的差異(I)和季節(jié)長度(S)作為預測參數。通過對PACF和ACF的分析,找到最優(yōu)參數,來進行預測。
VAR?時間序列模型
VAR也稱為向量自回歸模型, 是一種在自回歸模型的基礎上擴展模型。VAR模型即將內生滯后值,也將同期的外生滯后項視為回歸量,可在單個模型中同時預測多個時間序列相關變量。
XGBoost?模型
是一種常見的決策樹算模型,他通過不對的已有的樹修正再創(chuàng)建新書,直到最優(yōu)結果。當用于時間序列預測時,需要把時間序列數據轉化為監(jiān)督數據:把需要預測目標數據為因變量,把時間點拆分為年份和月,作為啞變量。
?
其他可能性因素相關性驗證:
除去房屋市場自身產業(yè)指標對房價的影響,再挖掘其他可能性影響因素后,需要驗證這些指標是否相關。
相關系數矩陣
直觀的表現出不同指標關聯性的強弱。
特征提取模型
通過建模型,降低數據維度,挑選出重要指標。既可以為日后預測建模提供統(tǒng)計學的數據參考,也可以側面說明該指標對房價有很大的影響
1.?PCA?主成分分析
通常用于減少維數。它用于將具有許多列的數據集減少到較少的列數,而不會丟失數據的本質。作為附帶結果,它還提供了變量之間的相關性。PCA將24個指標縮減為能解釋90%的主要成分數,并將特征在降維方面起了作用的重要程度排名篩選出最重要的五個特征。
2.?LASSO
Lasso算法是一種監(jiān)督算法,嘗試找出所有獨立變量與目標變量之間的相關性。Lasso變量的系數逼近零,實現收縮。通過交叉驗證找到最佳約束參數。
EDA?結果:
下圖僅為報告的可交互式dashboard部分截圖,涵蓋了部分EDA結果。
通過EDA的分析,我發(fā)現房價展現出較為穩(wěn)定的周期性和增長趨勢,并和部分其他指標有著關聯性,因此挑選了三種不同的模型可能適用的模型(VAR,SARIMA,XGBOOST),在下一部分進行預測分析。
同時EDA也展示房屋市場各類指標表現出較強的地域差異,由此展開深入挖掘,通過二次數據搜索和調查,進行相關性分析。


預測模型結果:

三個模型中最精確的是SARIMA模型。但是從圖像來看該模型沒有很好的計算出季節(jié)性,經過再次嘗試在去掉季節(jié)性因素后SARIMA模型的準確率又有了進一步提升。
而從Var 模型的系數p值結果來看,相關外生因素并沒有顯著性差異。XGBoost模型在面對有明顯趨勢的時間序列數據并不占優(yōu)。
?
以三個預測模型作為參考,但是基本上都預示了房價在未來會穩(wěn)定上漲的趨勢。
?
其他可能性因素相關性分析結果:
下圖從左至右分別是相關系數矩陣、PCA和LASSO算法結果的可視化

額外的24個因素中,雖然不同的方法結果有所不同,總的來說教育產業(yè)相關的指標均表現出較高的相關性,可以得出結論,房屋市場和教育產業(yè)高度相關。同時這些高度相關的指標也可以作為一個特征選擇的參考,以便日后做進一步研究。
?
總結
以上展現所有的結果,包括:數據可視化,算法應用等都是研究房屋市場現狀的一個手段不是目的。
想要用數據分析全方面的了解一個行業(yè),不能僅限于行業(yè)里的數字研究,還需要發(fā)散性思考,結合市場調查或者行業(yè)領域專家的意見,對分析角度進行增補。 這樣才能更好的將數據分析運用到實際中去。
關于分析師

最受歡迎的見解
1.在python中使用lstm和pytorch進行時間序列預測
2.python中利用長短期記憶模型lstm進行時間序列預測分析
3.Python用RNN循環(huán)神經網絡:LSTM長期記憶、GRU門循環(huán)單元、回歸和ARIMA對COVID-19新冠疫情新增人數時間序列
4.Python TensorFlow循環(huán)神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準確性
5.r語言copulas和金融時間序列案例
6.R 語言用RNN循環(huán)神經網絡 、LSTM長短期記憶網絡實現時間序列長期利率預測
7.Matlab創(chuàng)建向量自回歸(VAR)模型分析消費者價格指數 (CPI) 和失業(yè)率時間序列
8.r語言k-shape時間序列聚類方法對股票價格時間序列聚類
9.R語言結合新冠疫情COVID-19股票價格預測:ARIMA,KNN和神經網絡時間序列分析