手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » Spss用K均值聚類Kmeans、決策樹、邏輯回歸和T檢驗研究不同因素對通勤出行交通方式選擇

Spss用K均值聚類Kmeans、決策樹、邏輯回歸和T檢驗研究不同因素對通勤出行交通方式選擇

2022-07-24 11:27 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：http://tecdat.cn/?p=27587

原文出處：拓端數(shù)據(jù)部落公眾號

某交通工程專業(yè)博士生想要研究不同因素對通勤交通方式選擇的影響，對成都兩個大型小區(qū)（高端和普通）居民分別進行了出行調(diào)查，各調(diào)查了300人。

其中

Distance：居住地離上班地的距離（公里）

Pincome：個人年收入（萬元）

Hincome：家庭年收入（萬元）

Age：年齡

Gender：性別（0：女；1：男）

Car：家庭擁有汽車的數(shù)量

Education：教育水平（1：初中及以下；2：高中；3：?？?；4：本科；5：研究生）

Job：工作類型（1：公司職員；2：工廠工人；3：公務(wù)員；4：個體；5：事業(yè)單位；6：其他）

People：家里人口數(shù)量

Children：家里未成年人數(shù)量

Housing：房屋擁有類型（0：租房；1：買房）

Area：房屋居住面積（平方米）

Mode：主要通勤出行方式（1：汽車；2：公共交通；3：電動自行車；4：其他）

但是小區(qū)的編號忘記記錄下來。

任務(wù)：

判斷每個變量時數(shù)值型變量還是分類型變量，數(shù)組型的計算其均值和方差，分類型的列出每類的頻率。

數(shù)值型變量為：

Distance：居住地離上班地的距離（公里）

Pincome：個人年收入（萬元）

Hincome：家庭年收入（萬元）

Age：年齡

Car：家庭擁有汽車的數(shù)量

People：家里人口數(shù)量

Children：家里未成年人數(shù)量

Area：房屋居住面積（平方米）

分類型變量為：

Gender：性別（0：女；1：男）

Education：教育水平（1：初中及以下；2：高中；3：?？疲?：本科；5：研究生）

Job：工作類型（1：公司職員；2：工廠工人；3：公務(wù)員；4：個體；5：事業(yè)單位；6：其他）

Housing：房屋擁有類型（0：租房；1：買房）

Mode：主要通勤出行方式（1：汽車；2：公共交通；3：電動自行車；4：其他）

分類型變量為：

Gender：性別（0：女；1：男）

Education：教育水平（1：初中及以下；2：高中；3：?？疲?：本科；5：研究生）

Job：工作類型（1：公司職員；2：工廠工人；3：公務(wù)員；4：個體；5：事業(yè)單位；6：其他）

Housing：房屋擁有類型（0：租房；1：買房）

Mode：主要通勤出行方式（1：汽車；2：公共交通；3：電動自行車；4：其他）

判斷每個受訪者所在的小區(qū)。

根據(jù)居住地距離，我們使用kmean聚類將樣本分成2個類別，并保存結(jié)果到小區(qū)變量中。

結(jié)果如圖所示。

聚類中心結(jié)果如下

?

每個樣本的聚類信息：?

分析不同小區(qū)居民的平均出行距離、平均家庭收入、年齡分布、性別分布、家庭人口數(shù)和受教育程度有什么區(qū)別嗎？

從均值比較的結(jié)果來來看，第1個類別的工作里小區(qū)工作距離較短，第三個類別年齡較小，第一個小區(qū)家庭人口較大，教育水平第四個小區(qū)較低。

然后對不同聚類類別的數(shù)據(jù)進行獨立樣本t檢驗。

由上表中的結(jié)果： distance的sig>0.05，可知： distance無顯著區(qū)別。

對每個小區(qū)分別建模（邏輯回歸和決策樹），看哪個模型對出行方式選擇的擬合更好（比較模型在檢驗樣本里的表現(xiàn)，而不是訓(xùn)練樣本），并分析各個變量如何影響通勤交通方式的選擇。

首先對1區(qū)的樣本進行決策樹模型

可以看到距離收入、家庭人口數(shù)和性別對出行方式有較大的影響，男性出行以電動車為主，女性也有一部分以公交出行為主，從家庭人口數(shù)來看，大于2人的家庭出行以公交車為主。

然后使用邏輯回歸進行預(yù)測

由結(jié)果來看整個邏輯回歸的表達式是顯著的；由“似然比檢驗”表格可知所有變量的顯著性水平均小于0.05，可知自變量對于因變量mode都是顯著的；而在參數(shù)估計中可得，自變量的顯著性水平較低，即這些變量和mode是有關(guān)系的。

對2區(qū)出行數(shù)據(jù)進行決策樹模型分析

?

?從結(jié)果來看，決策樹分類模型可以看到區(qū)2的出行方式主要受到距離的影響。若距離較大，則出行方式以汽車和電瓶車為主，若距離較小，則以公交車為主。

對區(qū)2的出行數(shù)據(jù)進行邏輯回歸

? 由結(jié)果來看整個邏輯回歸的表達式是顯著的；由“似然比檢驗”表格可知所有變量的顯著性水平均小于0.05，可知自變量對于因變量mode都是顯著的；而在參數(shù)估計中可得，自變量的顯著性水平較低，即這些變量和mode是有關(guān)系的。

最受歡迎的見解

1.R語言多元Logistic邏輯回歸應(yīng)用案例

2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)

3.matlab中的偏最小二乘回歸（PLSR）和主成分回歸（PCR）

4.R語言泊松Poisson回歸模型分析案例

5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌

6.r語言中對LASSO回歸，Ridge嶺回歸和Elastic Net模型實現(xiàn)

7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病

8.python用線性回歸預(yù)測股票價格

9.R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進行分類預(yù)測

標簽：