SPSS Modeler用K-means(K-均值)聚類、CHAID、CART決策樹分析31省市土地利用情況和G
全文鏈接:http://tecdat.cn/?p=32840
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
隨著經(jīng)濟(jì)的快速發(fā)展和城市化進(jìn)程的不斷推進(jìn),土地資源的利用和管理成為了一項(xiàng)極為重要的任務(wù)。而對(duì)于全國各省市而言,如何合理利用土地資源,通過科學(xué)的方法進(jìn)行規(guī)劃和管理,是提高土地利用效率的關(guān)鍵。
本文旨在應(yīng)用SPSS Modeler,幫助客戶采用K-means(K-均值)聚類、CHAID、CART決策樹等方法,對(duì)31個(gè)省市的土地利用情況數(shù)據(jù)進(jìn)行分析和建模,以期提供科學(xué)有效的土地利用規(guī)劃和管理策略。
31省市土地利用情況數(shù)據(jù)

數(shù)據(jù)流
本文使用的數(shù)據(jù)來自于國家統(tǒng)計(jì)局發(fā)布的31省市土地利用情況數(shù)據(jù),選取31個(gè)省市作為研究對(duì)象,并選取了包括草地、耕地、園地、林地、水域和建設(shè)用地等7種土地類型的利用情況數(shù)據(jù)。然后,使用SPSS Modeler進(jìn)行數(shù)據(jù)清洗、聚類、決策樹等步驟,最終得到模型結(jié)果。

K-means(K-均值)聚類
在對(duì)完整的數(shù)據(jù)集進(jìn)行初步分析后,本文采用K-means聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚類分析。在聚類過程中,我們首先需要確定聚類的個(gè)數(shù)k。根據(jù)肘部法則和輪廓系數(shù)法則,我們得出最終選擇k=5為較為合適的聚類數(shù)目。通過SPSS Modeler的K-means節(jié)點(diǎn)進(jìn)行計(jì)算,得到了以下聚類概況、聚類類別和散點(diǎn)圖結(jié)果。






聚類概況

聚類類別

通過分類結(jié)果我們不難看出,同類省份基本上是相鄰省份,或是區(qū)域類型(沿海、內(nèi)陸)相似的省份,對(duì)于同類省份,我們可以采取相似的管理制度,使同等級(jí)省份得到更好的發(fā)展,也可以利用政策方式讓高等級(jí)省份帶動(dòng)低等級(jí)省份發(fā)展。
CHAID決策樹
在進(jìn)行完K-means聚類分析后,為了更好地了解各個(gè)類別的特征和關(guān)系,本文使用CHAID決策樹算法對(duì)數(shù)據(jù)集GDP的影響因素進(jìn)行進(jìn)一步的分析。首先使用SPSS Modeler的CHAID節(jié)點(diǎn)進(jìn)行計(jì)算,得到以下變量重要性和決策樹結(jié)果。
變量重要性
在CHAID決策樹算法中,我們使用卡方值(χ2)來表征每個(gè)變量的重要性。具體而言,卡方值越大,則該變量在分類中起到的作用越大。在本文的分析中,最具有代表性的變量是園地、農(nóng)用地和交通用地比重。

決策樹結(jié)果
通過CHAID決策樹算法,我們得到了以下的決策樹模型。其中每個(gè)葉子節(jié)點(diǎn)代表一類,而每個(gè)內(nèi)部節(jié)點(diǎn)包含了一個(gè)決策規(guī)則,用于判斷不同屬性值的記錄應(yīng)該屬于哪一個(gè)分支。在決策樹中房地產(chǎn)用地比重、建設(shè)用地比重和城市擴(kuò)張程度等變量對(duì)分類結(jié)果有較大的影響。


模型誤差
為了檢驗(yàn)CHAID決策樹模型的性能,我們采用隨機(jī)抽樣的方法將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,然后利用訓(xùn)練集來訓(xùn)練模型,并使用測(cè)試集來驗(yàn)證模型的預(yù)測(cè)精度。

CART決策樹:
除了使用CHAID決策樹算法外,本文還采用了CART決策樹算法對(duì)數(shù)據(jù)進(jìn)行建模。通過SPSS Modeler的C&RT節(jié)點(diǎn)進(jìn)行計(jì)算,得到以下變量重要性和決策樹結(jié)構(gòu)。 ?
變量重要性
在CART決策樹算法中,我們使用基尼指數(shù)(Gini Index)來衡量每個(gè)變量的重要性。具體而言,基尼指數(shù)越小,則該變量在分類中起到的作用越大。在本文的分析中,最具有代表性的變量是交通、建筑和工礦用地面積。

決策樹結(jié)構(gòu)
通過CART決策樹算法,我們得到了以下的決策樹模型。在該模型中,每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)判斷規(guī)則,而每個(gè)葉子節(jié)點(diǎn)代表一個(gè)分類。最終的分類結(jié)果與CHAID決策樹模型比較相似,也可提供對(duì)土地利用管理的一些啟示。


模型誤差結(jié)果:
同樣采用隨機(jī)抽樣的方法將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練模型,并使用測(cè)試集驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確性。

結(jié)論:
最終我們得到了以下結(jié)果文件:

本文旨在應(yīng)用SPSS Modeler,采用K-means(K-均值)聚類、CHAID、CART決策樹等方法,對(duì)31個(gè)省市的土地利用情況數(shù)據(jù)進(jìn)行分析和建模,并為科學(xué)有效的土地利用規(guī)劃和管理策略提供參考。通過聚類和決策樹分析,我們得出以下結(jié)論:
1.不同省市的土地利用存在顯著差異,按主要利用類型可分為5類;
2.交通、建筑用地面積比重是主要影響土地利用的因素;
3.通過CHAID和CART決策樹算法,我們可以較精確地對(duì)不同地區(qū)的土地利用進(jìn)行分類,并提出相應(yīng)的管理建議。
本文的研究結(jié)論對(duì)于全國土地資源的利用和管理具有一定的參考價(jià)值,其方法也可以在其他領(lǐng)域中得到應(yīng)用和推廣。
最受歡迎的見解
1.R語言k-Shape算法股票價(jià)格時(shí)間序列聚類
2.R語言基于溫度對(duì)城市層次聚類、kmean聚類、主成分分析和Voronoi圖
3.R語言對(duì)用電負(fù)荷時(shí)間序列數(shù)據(jù)進(jìn)行K-medoids聚類建模和GAM回歸
4.r語言鳶尾花iris數(shù)據(jù)集的層次聚類
5.Python Monte Carlo K-Means聚類實(shí)戰(zhàn)
6.用R進(jìn)行網(wǎng)站評(píng)論文本挖掘聚類
7.R語言KMEANS均值聚類和層次聚類:亞洲國家地區(qū)生活幸福質(zhì)量異同可視化
8.PYTHON用戶流失數(shù)據(jù)挖掘:建立邏輯回歸、XGBOOST、隨機(jī)森林、決策樹、支持向量機(jī)、樸素貝葉斯模型和KMEANS聚類用戶畫像
9.R語言基于Keras的小數(shù)據(jù)集深度學(xué)習(xí)圖像分類