PYTHON鏈家租房數(shù)據(jù)分析:嶺回歸、LASSO、隨機(jī)森林、XGBOOST、KERAS神經(jīng)網(wǎng)絡(luò)、KMEANS
全文下載鏈接:http://tecdat.cn/?p=29480
作者:Xingsheng Yang
最近我們被客戶要求撰寫關(guān)于租房數(shù)據(jù)的研究報告,包括一些圖形和統(tǒng)計輸出。
1 利用 python 爬取鏈家網(wǎng)公開的租房數(shù)據(jù);
2 對租房信息進(jìn)行分析,主要對房租相關(guān)特征進(jìn)行分析,并搭建模型用于預(yù)測房租
任務(wù)/目標(biāo)
利用上海鏈家網(wǎng)站租房的公開信息,著重對月租進(jìn)行數(shù)據(jù)分析和挖掘。
上海租賃數(shù)據(jù)
此數(shù)據(jù)來自 Lianjia.com.csv文件包含名稱,租賃類型,床位數(shù)量,價格,經(jīng)度,緯度,陽臺,押金,公寓,描述,旅游,交通,獨立浴室,家具,新房源,大小,方向,堤壩,電梯,停車場和便利設(shè)施信息。
屬性:
名稱:列表名稱
類型:轉(zhuǎn)租或全部租賃(全部)
床:臥室號碼
價格
經(jīng)度/緯度:坐標(biāo)
陽臺,押金(是否有押金政策),公寓,描述,旅游可用性,靠近交通,獨立浴室,家具
新房源:NO-0,YES-1
面積:平方米
朝向:朝向窗戶,南1,東南2,東-3,北4,西南-5,西-6,西北-7,東北8,未知-0
級別:房源層級, 地下室-0, 低層(1-15)-1, 中層(15-25)-2, 高層(>25)-3
停車場:無停車場-0,額外收費-1,免費停車-2
設(shè)施:設(shè)施數(shù)量
import?pandas?as?pdimport?numpy?as?npimport?geopandas?
df?=?pd.read_csv('lighai.csv',?sep?=',',?encoding='utf_8_sig',?header=None)
df.head()
數(shù)據(jù)預(yù)處理
ETL處理,清理數(shù)據(jù)幀。
df_clean.head()
?
探索性分析 - 數(shù)據(jù)可視化
plt.figure(figsize=(8,?6))
sns.distplot(df_clean.price,?bins=500,?kde=True)
plt.xscale('log')?#?Log?transform?the?price
讀取地理數(shù)據(jù)
plt.figure(figsize=(12,?12))
sns.heatmap(df_clean.corr(),?square=True,?annot=True,?fmt?=?'.2f',?cmap?=?'vla
點擊標(biāo)題查閱往期內(nèi)容
線性回歸和時間序列分析北京房價影響因素可視化案例
左右滑動查看更多
01
02
03
04
模型構(gòu)建
嘗試根據(jù)特征預(yù)測價格。
y?=?df_clean.log_priceX?=?df_clean.iloc[:,?1:].drop(['price',?'log_price'],?axis=1)
嶺回歸模型
ridge?=?Ridge()alphas?=?[0.0001,?0.001,?0.001,?0.01,?0.1,?0.5,?1,?2,?3,?5,?10]
?
Lasso回歸
coef.sort_values(ascending=False).plot(kind?=?'barh')
Random forest隨機(jī)森林
rf_cv.fit(X_train,?y_train)
XGBoost
xgb_model.loc[30:,['test-rmse-mean',?'train-rmse-mean']].plot();
xgb_cv.fit(X_train,?y_train)
?
Keras神經(jīng)網(wǎng)絡(luò)
model.add(Dense(1,?kernel_initializer='normal'))#?Compile?modelmodel.compile(loss='mean_squared_error',?optimizer='Adam')
model.summary()
kmeans聚類數(shù)據(jù)
??kmeanModel?=?KMeans(n_clusters=k).fit(X)?
????kmeanModel.fit(X)?????
????inertias.append(kmeanModel.inertia_)?
plt.plot(K,?inertias,?'bx-')
gpd.plot(figsize=(12,10),?alpha=0.3)scatter_map?=?plt.scatter(data=df_clean,?x='lon',?y='lat',?c='label',?alpha=0.3,?cmap='tab10',?s=2)
?
點擊文末?“閱讀原文”
本文選自《python嶺回歸、Lasso、隨機(jī)森林、XGBoost、Keras神經(jīng)網(wǎng)絡(luò)、kmeans聚類鏈家租房數(shù)據(jù)地理可視化分析》。
點擊標(biāo)題查閱往期內(nèi)容
R語言貝葉斯廣義線性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級影響因素數(shù)據(jù)
Python中的Lasso回歸之最小角算法LARS
高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)
Python高維變量選擇:SCAD平滑剪切絕對偏差懲罰、Lasso懲罰函數(shù)比較
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
R使用LASSO回歸預(yù)測股票收益
廣義線性模型glm泊松回歸的lasso、彈性網(wǎng)絡(luò)分類預(yù)測學(xué)生考試成績數(shù)據(jù)和交叉驗證
貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析免疫球蛋白、前列腺癌數(shù)據(jù)
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構(gòu)建貝葉斯線性回歸模型分析職業(yè)聲望數(shù)據(jù)
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
R語言高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)(含練習(xí)題)
Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數(shù)據(jù)實例
R語言Bootstrap的嶺回歸和自適應(yīng)LASSO回歸可視化
R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預(yù)測模型R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
基于R語言實現(xiàn)LASSO回歸分析
R語言用LASSO,adaptive LASSO預(yù)測通貨膨脹時間序列
R語言自適應(yīng)LASSO 多項式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
R語言實現(xiàn)LASSO回歸——自己編寫LASSO回歸算法
R使用LASSO回歸預(yù)測股票收益
python使用LASSO回歸預(yù)測股票收益Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數(shù)據(jù)實例
R語言Bootstrap的嶺回歸和自適應(yīng)LASSO回歸可視化
R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預(yù)測模型R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
基于R語言實現(xiàn)LASSO回歸分析
R語言用LASSO,adaptive LASSO預(yù)測通貨膨脹時間序列
R語言自適應(yīng)LASSO 多項式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
R語言實現(xiàn)LASSO回歸——自己編寫LASSO回歸算法
R使用LASSO回歸預(yù)測股票收益
python使用LASSO回歸預(yù)測股票收益R語言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測心臟病數(shù)據(jù)和可視化分析
數(shù)據(jù)分享|R語言邏輯回歸、線性判別分析LDA、GAM、MARS、KNN、QDA、決策樹、隨機(jī)森林、SVM分類葡萄酒交叉驗證ROC
MATLAB隨機(jī)森林優(yōu)化貝葉斯預(yù)測分析汽車燃油經(jīng)濟(jì)性
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數(shù)
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機(jī)森林算法預(yù)測心臟病
R語言中貝葉斯網(wǎng)絡(luò)(BN)、動態(tài)貝葉斯網(wǎng)絡(luò)、線性模型分析錯頜畸形數(shù)據(jù)
R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
Python貝葉斯回歸分析住房負(fù)擔(dān)能力數(shù)據(jù)集
R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
Python用PyMC3實現(xiàn)貝葉斯線性回歸模型
R語言用WinBUGS 軟件對學(xué)術(shù)能力測驗建立層次(分層)貝葉斯模型
R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
R語言和STAN,JAGS:用RSTAN,RJAG建立貝葉斯多元線性回歸預(yù)測選舉數(shù)據(jù)
R語言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語言貝葉斯線性回歸和多元線性回歸構(gòu)建工資預(yù)測模型
R語言貝葉斯推斷與MCMC:實現(xiàn)Metropolis-Hastings 采樣算法示例
R語言stan進(jìn)行基于貝葉斯推斷的回歸模型
R語言中RStan貝葉斯層次模型分析示例
R語言使用Metropolis-Hastings采樣算法自適應(yīng)貝葉斯估計與可視化
R語言隨機(jī)搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
WinBUGS對多元隨機(jī)波動率模型:貝葉斯估計與模型比較
R語言實現(xiàn)MCMC中的Metropolis–Hastings算法與吉布斯采樣
R語言貝葉斯推斷與MCMC:實現(xiàn)Metropolis-Hastings 采樣算法示例
R語言使用Metropolis-Hastings采樣算法自適應(yīng)貝葉斯估計與可視化
視頻:R語言中的Stan概率編程MCMC采樣的貝葉斯模型
R語言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計R語言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級調(diào)查數(shù)據(jù)
R語言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測心臟病數(shù)據(jù)和可視化分析
R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化