Spss用K均值聚類Kmeans、決策樹、邏輯回歸和T檢驗研究不同因素對通勤出行交通方式選擇
全文鏈接:http://tecdat.cn/?p=27587
原文出處:拓端數(shù)據(jù)部落公眾號
某交通工程專業(yè)博士生想要研究不同因素對通勤交通方式選擇的影響,對成都兩個大型小區(qū)(高端和普通)居民分別進行了出行調(diào)查,各調(diào)查了300人。
其中
Distance:居住地離上班地的距離(公里)
Pincome:個人年收入(萬元)
Hincome:家庭年收入(萬元)
Age:年齡
Gender:性別(0:女;1:男)
Car:家庭擁有汽車的數(shù)量
Education:教育水平(1:初中及以下;2:高中;3:???;4:本科;5:研究生)
Job:工作類型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個體;5:事業(yè)單位;6:其他)
People:家里人口數(shù)量
Children:家里未成年人數(shù)量
Housing:房屋擁有類型(0:租房;1:買房)
Area:房屋居住面積(平方米)
Mode:主要通勤出行方式(1:汽車;2:公共交通;3:電動自行車;4:其他)
但是小區(qū)的編號忘記記錄下來。
任務(wù):
判斷每個變量時數(shù)值型變量還是分類型變量,數(shù)組型的計算其均值和方差,分類型的列出每類的頻率。
數(shù)值型變量為:
Distance:居住地離上班地的距離(公里)
Pincome:個人年收入(萬元)
Hincome:家庭年收入(萬元)
Age:年齡
Car:家庭擁有汽車的數(shù)量
People:家里人口數(shù)量
Children:家里未成年人數(shù)量
Area:房屋居住面積(平方米)


分類型變量為:
Gender:性別(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:??疲?:本科;5:研究生)
Job:工作類型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個體;5:事業(yè)單位;6:其他)
Housing:房屋擁有類型(0:租房;1:買房)
Mode:主要通勤出行方式(1:汽車;2:公共交通;3:電動自行車;4:其他)

分類型變量為:
Gender:性別(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:??疲?:本科;5:研究生)
Job:工作類型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個體;5:事業(yè)單位;6:其他)
Housing:房屋擁有類型(0:租房;1:買房)
Mode:主要通勤出行方式(1:汽車;2:公共交通;3:電動自行車;4:其他)
判斷每個受訪者所在的小區(qū)。
根據(jù)居住地距離 ,我們使用kmean聚類將樣本分成2個類別,并保存結(jié)果到小區(qū)變量中。
結(jié)果如圖所示。
聚類中心結(jié)果如下
?


每個樣本的聚類信息:?

分析不同小區(qū)居民的平均出行距離、平均家庭收入、年齡分布、性別分布、家庭人口數(shù)和受教育程度有什么區(qū)別嗎?


從均值比較的結(jié)果來來看,第1個類別的工作里小區(qū)工作距離較短,第三個類別年齡較小,第一個小區(qū)家庭人口較大,教育水平第四個小區(qū)較低。
然后對不同聚類類別的數(shù)據(jù)進行獨立樣本t檢驗。


由上表中的結(jié)果: distance的sig>0.05,可知: distance無顯著區(qū)別。
對每個小區(qū)分別建模(邏輯回歸和決策樹),看哪個模型對出行方式選擇的擬合更好(比較模型在檢驗樣本里的表現(xiàn),而不是訓(xùn)練樣本),并分析各個變量如何影響通勤交通方式的選擇。
首先對1區(qū)的樣本進行決策樹模型




可以看到距離 收入、家庭人口數(shù)和性別對出行方式有較大的影響,男性出行以電動車為主,女性也有一部分以公交出行為主,從家庭人口數(shù)來看,大于2人的家庭出行以公交車為主。
然后使用邏輯回歸進行預(yù)測



由結(jié)果來看整個邏輯回歸的表達式是顯著的;由“似然比檢驗”表格可知所有變量的顯著性水平均小于0.05,可知自變量對于因變量mode都是顯著的;而在參數(shù)估計中可得,自變量的顯著性水平較低,即這些變量和mode是有關(guān)系的。
對2區(qū)出行數(shù)據(jù)進行決策樹模型分析
?

?從結(jié)果來看,決策樹分類模型可以看到區(qū)2的出行方式主要受到距離的影響。若距離較大,則出行方式以汽車和電瓶車為主,若距離較小,則以公交車為主。
對區(qū)2的出行數(shù)據(jù)進行邏輯回歸
? 由結(jié)果來看整個邏輯回歸的表達式是顯著的;由“似然比檢驗”表格可知所有變量的顯著性水平均小于0.05,可知自變量對于因變量mode都是顯著的;而在參數(shù)估計中可得,自變量的顯著性水平較低,即這些變量和mode是有關(guān)系的。

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言混合效應(yīng)邏輯回歸Logistic模型分析肺癌
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
7.R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預(yù)測心臟病
8.python用線性回歸預(yù)測股票價格
9.R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進行分類預(yù)測