PYTHON鏈家租房數據分析:嶺回歸、LASSO、隨機森林、XGBOOST、KERAS神經網絡、KMEANS
全文下載鏈接:http://tecdat.cn/?p=29480
作者:Xingsheng Yang
1 利用 python 爬取鏈家網公開的租房數據;
2 對租房信息進行分析,主要對房租相關特征進行分析,并搭建模型用于預測房租(點擊文末“閱讀原文”獲取完整代碼數據)。
任務/目標
利用上海鏈家網站租房的公開信息,著重對月租進行數據分析和挖掘。
上海租賃數據
此數據來自 Lianjia.com.csv文件包含名稱,租賃類型,床位數量,價格,經度,緯度,陽臺,押金,公寓,描述,旅游,交通,獨立浴室,家具,新房源,大小,方向,堤壩,電梯,停車場和便利設施信息。
屬性:
名稱:列表名稱
類型:轉租或全部租賃(全部)
床:臥室號碼
價格
經度/緯度:坐標
陽臺,押金(是否有押金政策),公寓,描述,旅游可用性,靠近交通,獨立浴室,家具
新房源:NO-0,YES-1
面積:平方米
朝向:朝向窗戶,南1,東南2,東-3,北4,西南-5,西-6,西北-7,東北8,未知-0
級別:房源層級, 地下室-0, 低層(1-15)-1, 中層(15-25)-2, 高層(>25)-3
停車場:無停車場-0,額外收費-1,免費停車-2
設施:設施數量
import?pandas?as?pd
import?numpy?as?np
import?geopandas?
df?=?pd.read\_csv('lighai.csv',?sep?=',',?encoding='utf\_8\_sig',?header=None)
df.head()
數據預處理
ETL處理,清理數據幀。
df_clean.head()

探索性分析 - 數據可視化
plt.figure(figsize=(8,?6))
sns.distplot(df_clean.price,?bins=500,?kde=True)
plt.xscale('log')?#?Log?transform?the?price

讀取地理數據

plt.figure(figsize=(12,?12))
sns.heatmap(df_clean.corr(),?square=True,?annot=True,?fmt?=?'.2f',?cmap?=?'vla
點擊標題查閱往期內容
線性回歸和時間序列分析北京房價影響因素可視化案例
左右滑動查看更多
01

02
03

04

模型構建
嘗試根據特征預測價格。
y?=?df\_clean.log\_price
X?=?df\_clean.iloc\[:,?1:\].drop(\['price',?'log\_price'\],?axis=1)
嶺回歸模型
ridge?=?Ridge()
alphas?=?\[0.0001,?0.001,?0.001,?0.01,?0.1,?0.5,?1,?2,?3,?5,?10\]

Lasso回歸

coef.sort_values(ascending=False).plot(kind?=?'barh')

Random forest隨機森林
rf\_cv.fit(X\_train,?y_train)

XGBoost
xgb_model.loc\[30:,\['test-rmse-mean',?'train-rmse-mean'\]\].plot();
xgb\_cv.fit(X\_train,?y_train)

Keras神經網絡
model.add(Dense(1,?kernel_initializer='normal'))
#?Compile?model
model.compile(loss='mean\_squared\_error',?optimizer='Adam')
model.summary()
kmeans聚類數據
??kmeanModel?=?KMeans(n_clusters=k).fit(X)?
????kmeanModel.fit(X)?????
????inertias.append(kmeanModel.inertia_)?
plt.plot(K,?inertias,?'bx-')

gpd.plot(figsize=(12,10),?alpha=0.3)
scatter\_map?=?plt.scatter(data=df\_clean,?x='lon',?y='lat',?c='label',?alpha=0.3,?cmap='tab10',?s=2)

點擊文末“閱讀原文”
獲取全文完整代碼數據資料。
本文選自《python嶺回歸、Lasso、隨機森林、XGBoost、Keras神經網絡、kmeans聚類鏈家租房數據地理可視化分析》。

點擊標題查閱往期內容
R語言貝葉斯廣義線性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級影響因素數據
Python中的Lasso回歸之最小角算法LARS
高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據
Python高維變量選擇:SCAD平滑剪切絕對偏差懲罰、Lasso懲罰函數比較
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
R使用LASSO回歸預測股票收益
廣義線性模型glm泊松回歸的lasso、彈性網絡分類預測學生考試成績數據和交叉驗證
貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構建貝葉斯線性回歸模型分析職業(yè)聲望數據
r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現
R語言高維數據懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網絡elastic net分析基因數據(含練習題)
Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數據實例
R語言Bootstrap的嶺回歸和自適應LASSO回歸可視化
R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預測模型
R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析
基于R語言實現LASSO回歸分析
R語言用LASSO,adaptive LASSO預測通貨膨脹時間序列
R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現
R語言實現LASSO回歸——自己編寫LASSO回歸算法
R使用LASSO回歸預測股票收益
python使用LASSO回歸預測股票收益
Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數據實例
R語言Bootstrap的嶺回歸和自適應LASSO回歸可視化
R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預測模型
R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析
基于R語言實現LASSO回歸分析
R語言用LASSO,adaptive LASSO預測通貨膨脹時間序列
R語言自適應LASSO 多項式回歸、二元邏輯回歸和嶺回歸應用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網絡Elastic Net模型實現
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現
R語言實現LASSO回歸——自己編寫LASSO回歸算法
R使用LASSO回歸預測股票收益
python使用LASSO回歸預測股票收益
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
數據分享|R語言邏輯回歸、線性判別分析LDA、GAM、MARS、KNN、QDA、決策樹、隨機森林、SVM分類葡萄酒交叉驗證ROC
MATLAB隨機森林優(yōu)化貝葉斯預測分析汽車燃油經濟性
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
R語言中貝葉斯網絡(BN)、動態(tài)貝葉斯網絡、線性模型分析錯頜畸形數據
R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
Python貝葉斯回歸分析住房負擔能力數據集
R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析
Python用PyMC3實現貝葉斯線性回歸模型
R語言用WinBUGS 軟件對學術能力測驗建立層次(分層)貝葉斯模型
R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
R語言和STAN,JAGS:用RSTAN,RJAG建立貝葉斯多元線性回歸預測選舉數據
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言貝葉斯線性回歸和多元線性回歸構建工資預測模型
R語言貝葉斯推斷與MCMC:實現Metropolis-Hastings 采樣算法示例
R語言stan進行基于貝葉斯推斷的回歸模型
R語言中RStan貝葉斯層次模型分析示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
WinBUGS對多元隨機波動率模型:貝葉斯估計與模型比較
R語言實現MCMC中的Metropolis–Hastings算法與吉布斯采樣
R語言貝葉斯推斷與MCMC:實現Metropolis-Hastings 采樣算法示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
視頻:R語言中的Stan概率編程MCMC采樣的貝葉斯模型
R語言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數據并高維可視化