SPSS用K均值聚類(lèi)KMEANS、決策樹(shù)、邏輯回歸和T檢驗(yàn)研究通勤出行交通方式選擇的影響因素
原文下載鏈接:http://tecdat.cn/?p=27587
最近我們被客戶要求撰寫(xiě)關(guān)于通勤出行的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
某交通工程專(zhuān)業(yè)博士生想要研究不同因素對(duì)通勤交通方式選擇的影響,對(duì)成都兩個(gè)大型小區(qū)(高端和普通)居民分別進(jìn)行了出行調(diào)查,各調(diào)查了300人
其中
Distance:居住地離上班地的距離(公里)
Pincome:個(gè)人年收入(萬(wàn)元)
Hincome:家庭年收入(萬(wàn)元)
Age:年齡
Gender:性別(0:女;1:男)
Car:家庭擁有汽車(chē)的數(shù)量
Education:教育水平(1:初中及以下;2:高中;3:專(zhuān)科;4:本科;5:研究生)
Job:工作類(lèi)型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個(gè)體;5:事業(yè)單位;6:其他)
People:家里人口數(shù)量
Children:家里未成年人數(shù)量
Housing:房屋擁有類(lèi)型(0:租房;1:買(mǎi)房)
Area:房屋居住面積(平方米)
Mode:主要通勤出行方式(1:汽車(chē);2:公共交通;3:電動(dòng)自行車(chē);4:其他)
但是小區(qū)的編號(hào)忘記記錄下來(lái)。
任務(wù):
判斷每個(gè)變量時(shí)數(shù)值型變量還是分類(lèi)型變量,數(shù)組型的計(jì)算其均值和方差,分類(lèi)型的列出每類(lèi)的頻率。
數(shù)值型變量為:
Distance:居住地離上班地的距離(公里)
Pincome:個(gè)人年收入(萬(wàn)元)
Hincome:家庭年收入(萬(wàn)元)
Age:年齡
Car:家庭擁有汽車(chē)的數(shù)量
People:家里人口數(shù)量
Children:家里未成年人數(shù)量
Area:房屋居住面積(平方米)
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
左右滑動(dòng)查看更多
01
02
03
04
分類(lèi)型變量為:
Gender:性別(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:專(zhuān)科;4:本科;5:研究生)
Job:工作類(lèi)型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個(gè)體;5:事業(yè)單位;6:其他)
Housing:房屋擁有類(lèi)型(0:租房;1:買(mǎi)房)
Mode:主要通勤出行方式(1:汽車(chē);2:公共交通;3:電動(dòng)自行車(chē);4:其他)
分類(lèi)型變量為:
Gender:性別(0:女;1:男)
Education:教育水平(1:初中及以下;2:高中;3:專(zhuān)科;4:本科;5:研究生)
Job:工作類(lèi)型(1:公司職員;2:工廠工人;3:公務(wù)員;4:個(gè)體;5:事業(yè)單位;6:其他)
Housing:房屋擁有類(lèi)型(0:租房;1:買(mǎi)房)
Mode:主要通勤出行方式(1:汽車(chē);2:公共交通;3:電動(dòng)自行車(chē);4:其他)
判斷每個(gè)受訪者所在的小區(qū)。
根據(jù)居住地距離 ,我們使用kmean聚類(lèi)將樣本分成2個(gè)類(lèi)別,并保存結(jié)果到小區(qū)變量中。
結(jié)果如圖所示。
聚類(lèi)中心結(jié)果如下
每個(gè)樣本的聚類(lèi)信息:?
分析不同小區(qū)居民的平均出行距離、平均家庭收入、年齡分布、性別分布、家庭人口數(shù)和受教育程度有什么區(qū)別嗎?
從均值比較的結(jié)果來(lái)來(lái)看,第1個(gè)類(lèi)別的工作里小區(qū)工作距離較短,第三個(gè)類(lèi)別年齡較小,第一個(gè)小區(qū)家庭人口較大,教育水平第四個(gè)小區(qū)較低。
然后對(duì)不同聚類(lèi)類(lèi)別的數(shù)據(jù)進(jìn)行獨(dú)立樣本t檢驗(yàn)。
由上表中的結(jié)果:distance的sig>0.05,可知:distance無(wú)顯著區(qū)別。
對(duì)每個(gè)小區(qū)分別建模(邏輯回歸和決策樹(shù)),看哪個(gè)模型對(duì)出行方式選擇的擬合更好(比較模型在檢驗(yàn)樣本里的表現(xiàn),而不是訓(xùn)練樣本),并分析各個(gè)變量如何影響通勤交通方式的選擇。
首先對(duì)1區(qū)的樣本進(jìn)行決策樹(shù)模型
可以看到距離 收入、家庭人口數(shù)和性別對(duì)出行方式有較大的影響,男性出行以電動(dòng)車(chē)為主,女性也有一部分以公交出行為主,從家庭人口數(shù)來(lái)看,大于2人的家庭出行以公交車(chē)為主。
然后使用邏輯回歸進(jìn)行預(yù)測(cè)
由結(jié)果來(lái)看整個(gè)邏輯回歸的表達(dá)式是顯著的;由“似然比檢驗(yàn)”表格可知所有變量的顯著性水平均小于0.05,可知自變量對(duì)于因變量mode都是顯著的;而在參數(shù)估計(jì)中可得,自變量的顯著性水平較低,即這些變量和mode是有關(guān)系的。
對(duì)2區(qū)出行數(shù)據(jù)進(jìn)行決策樹(shù)模型分析
從結(jié)果來(lái)看,決策樹(shù)分類(lèi)模型可以看到區(qū)2的出行方式主要受到距離的影響。若距離較大,則出行方式以汽車(chē)和電瓶車(chē)為主,若距離較小,則以公交車(chē)為主。
對(duì)區(qū)2的出行數(shù)據(jù)進(jìn)行邏輯回歸
由結(jié)果來(lái)看整個(gè)邏輯回歸的表達(dá)式是顯著的;由“似然比檢驗(yàn)”表格可知所有變量的顯著性水平均小于0.05,可知自變量對(duì)于因變量mode都是顯著的;而在參數(shù)估計(jì)中可得,自變量的顯著性水平較低,即這些變量和mode是有關(guān)系的。
點(diǎn)擊文末?“閱讀原文”
獲取全文完整資料。
本文選自《SPSS用K均值聚類(lèi)KMEANS、決策樹(shù)、邏輯回歸和T檢驗(yàn)研究不同因素對(duì)通勤出行交通方式選擇的影響調(diào)查數(shù)據(jù)分析》。
點(diǎn)擊標(biāo)題查閱往期內(nèi)容
數(shù)據(jù)分享|R語(yǔ)言主成分PCA、因子分析、聚類(lèi)對(duì)地區(qū)經(jīng)濟(jì)研究分析重慶市經(jīng)濟(jì)指標(biāo)
數(shù)據(jù)分享|R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語(yǔ)言邏輯回歸logistic模型分析泰坦尼克titanic數(shù)據(jù)集預(yù)測(cè)生還情況R語(yǔ)言是否對(duì)二分連續(xù)變量執(zhí)行邏輯回歸
R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)
R語(yǔ)言隨機(jī)森林RandomForest、邏輯回歸Logisitc預(yù)測(cè)心臟病數(shù)據(jù)和可視化分析
R語(yǔ)言基于Bagging分類(lèi)的邏輯回歸(Logistic Regression)、決策樹(shù)、森林分析心臟病患者
R語(yǔ)言邏輯回歸(Logistic回歸)模型分類(lèi)預(yù)測(cè)病人冠心病風(fēng)險(xiǎn)
R語(yǔ)言用局部加權(quán)回歸(Lowess)對(duì)logistic邏輯回歸診斷和殘差分析R語(yǔ)言用主成分PCA、?邏輯回歸、決策樹(shù)、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
R語(yǔ)言用線性模型進(jìn)行臭氧預(yù)測(cè):加權(quán)泊松回歸,普通最小二乘,加權(quán)負(fù)二項(xiàng)式模型,多重插補(bǔ)缺失值R語(yǔ)言Bootstrap的嶺回歸和自適應(yīng)LASSO回歸可視化
R語(yǔ)言中回歸和分類(lèi)模型選擇的性能指標(biāo)
R語(yǔ)言多元時(shí)間序列滾動(dòng)預(yù)測(cè):ARIMA、回歸、ARIMAX模型分析
R語(yǔ)言用lme4多層次(混合效應(yīng))廣義線性模型(GLM),邏輯回歸分析教育留級(jí)調(diào)查數(shù)據(jù)
R語(yǔ)言計(jì)量經(jīng)濟(jì)學(xué):虛擬變量(啞變量)在線性回歸模型中的應(yīng)用
R語(yǔ)言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言混合效應(yīng)邏輯回歸(mixed effects logistic)模型分析肺癌數(shù)據(jù)
R語(yǔ)言如何用潛類(lèi)別混合效應(yīng)模型(LCMM)分析抑郁癥狀
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言建立和可視化混合效應(yīng)模型mixed effect model
R語(yǔ)言LME4混合效應(yīng)模型研究教師的受歡迎程度
R語(yǔ)言 線性混合效應(yīng)模型實(shí)戰(zhàn)案例
R語(yǔ)言用Rshiny探索lme4廣義線性混合模型(GLMM)和線性混合模型(LMM)
R語(yǔ)言基于copula的貝葉斯分層混合模型的診斷準(zhǔn)確性研究
R語(yǔ)言如何解決線性混合模型中畸形擬合(Singular fit)的問(wèn)題
基于R語(yǔ)言的lmer混合線性回歸模型
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
R語(yǔ)言分層線性模型案例
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)(SAT)建立分層模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
R語(yǔ)言用WinBUGS 軟件對(duì)學(xué)術(shù)能力測(cè)驗(yàn)建立層次(分層)貝葉斯模型
SPSS中的多層(等級(jí))線性模型Multilevel linear models研究整容手術(shù)數(shù)據(jù)
用SPSS估計(jì)HLM多層(層次)線性模型模型R語(yǔ)言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析案例報(bào)告
R語(yǔ)言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類(lèi)模型案例
R語(yǔ)言有RStan的多維驗(yàn)證性因子分析(CFA)
主成分分析(PCA)原理及R語(yǔ)言實(shí)現(xiàn)及分析實(shí)例
R語(yǔ)言無(wú)監(jiān)督學(xué)習(xí):PCA主成分分析可視化
R語(yǔ)言使用Metropolis- Hasting抽樣算法進(jìn)行邏輯回歸
R語(yǔ)言多元Logistic邏輯回歸 應(yīng)用案例
R語(yǔ)言自適應(yīng)LASSO 多項(xiàng)式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語(yǔ)言用邏輯回歸、決策樹(shù)和隨機(jī)森林對(duì)信貸數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè)
R語(yǔ)言基于樹(shù)的方法:決策樹(shù),隨機(jī)森林,Bagging,增強(qiáng)樹(shù)
spss modeler用決策樹(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)ST的股票
R語(yǔ)言中自編基尼系數(shù)的CART回歸決策樹(shù)的實(shí)現(xiàn)
python在Scikit-learn中用決策樹(shù)和隨機(jī)森林預(yù)測(cè)NBA獲勝者
matlab使用分位數(shù)隨機(jī)森林(QRF)回歸樹(shù)檢測(cè)異常值
基于隨機(jī)森林、svm、CNN機(jī)器學(xué)習(xí)的風(fēng)控欺詐識(shí)別模型
R語(yǔ)言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類(lèi)模型案例
R語(yǔ)言用標(biāo)準(zhǔn)最小二乘OLS,廣義相加模型GAM?,樣條函數(shù)進(jìn)行邏輯回歸LOGISTIC分