IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數(shù)據(jù)|附代碼數(shù)據(jù)
全文鏈接:http://tecdat.cn/?p=30752
最近我們被客戶要求撰寫關(guān)于決策樹的研究報告,包括一些圖形和統(tǒng)計輸出。
如何通過方法有效的分析海量數(shù)據(jù),并從其中找到有利的資訊已經(jīng)成為一種趨勢
而決策樹算法是目前在進(jìn)行數(shù)據(jù)分析時很常用的方法。本文將使用IBM SPSS Modeler進(jìn)行實踐,介紹決策樹在空氣污染預(yù)測領(lǐng)域的實踐案例。
分類預(yù)測模型的構(gòu)建流程,具體步驟如下:
(1)數(shù)據(jù)處理 :審核數(shù)據(jù),過濾掉含有缺失值的數(shù)據(jù)記錄。
(2)劃分?jǐn)?shù)據(jù)集,訓(xùn)練集70%,測試集30% 。
(3)構(gòu)建模型時的參數(shù)設(shè)置 。
(4)構(gòu)建模型:構(gòu)建C5.0模型。
(5)結(jié)果評估,用測試集數(shù)據(jù)運(yùn)行得到的運(yùn)行結(jié)果,對模型采用命中率評估兩個模型的預(yù)測效果。
加入表節(jié)點

讀取數(shù)據(jù)

添加“抽樣”節(jié)點
隨機(jī)抽取70%的樣本作為訓(xùn)練集

“C5.0”節(jié)點

生成的決策樹模型,并對測試數(shù)據(jù)進(jìn)行預(yù)測
得到測試數(shù)據(jù)的分類結(jié)果的準(zhǔn)確度

預(yù)測分類結(jié)果

有88.1%的測試樣本的預(yù)測值和實際值相符。
并且得到如下的決策樹模型:

點擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|PYTHON用決策樹分類預(yù)測糖尿病和可視化實例

左右滑動查看更多

01

02

03

04

其中變量的重要性如下圖所示:

從結(jié)果可以看到,首要污染物類型與AQI、NO2還有O3等變量有關(guān)。其中AQI對首要污染物類型的結(jié)果具有最重要的影響。
C5.0是在C4.5的基礎(chǔ)上發(fā)展起來的。C5.0 算法是用信息增益(根節(jié)點的熵減去該拆分的熵)來度量拆分純度的。第一次拆分某一字段,劃分出相對應(yīng)的樣本子集。然后繼續(xù)拆分這些樣本子集,一般情況下使用的是另一字段進(jìn)行拆分,一直循環(huán)這樣一個過程,直到滿足拆分終止條件。最后,若生成的樹出現(xiàn)過度擬合的狀況,則要修剪那些缺乏價值的樣本子集。


點擊文末?“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數(shù)據(jù)》。
點擊標(biāo)題查閱往期內(nèi)容
數(shù)據(jù)分享|Spss Modeler關(guān)聯(lián)規(guī)則Apriori模型、Carma算法分析超市顧客購買商品數(shù)據(jù)挖掘?qū)嵗?br>數(shù)據(jù)分享|Python用Apriori算法關(guān)聯(lián)規(guī)則分析亞馬遜購買書籍關(guān)聯(lián)推薦客戶和網(wǎng)絡(luò)圖可視化
【視頻】關(guān)聯(lián)規(guī)則模型、Apriori算法及R語言挖掘商店交易數(shù)據(jù)與交互可視化|數(shù)據(jù)分享
R語言用關(guān)聯(lián)規(guī)則和聚類模型挖掘處方數(shù)據(jù)探索藥物配伍中的規(guī)律
用SPSS Modeler的Web復(fù)雜網(wǎng)絡(luò)對所有腧穴進(jìn)行關(guān)聯(lián)規(guī)則分析
PYTHON在線零售數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘APRIORI算法數(shù)據(jù)可視化
R語言關(guān)聯(lián)規(guī)則模型(Apriori算法)挖掘雜貨店的交易數(shù)據(jù)與交互可視化
R語言關(guān)聯(lián)挖掘?qū)嵗ㄙ徫锘@分析)
python關(guān)聯(lián)規(guī)則學(xué)習(xí):FP-Growth算法對藥品進(jìn)行“菜籃子”分析
基于R的FP樹fp growth 關(guān)聯(lián)數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理
python關(guān)聯(lián)規(guī)則學(xué)習(xí):FP-Growth算法對藥品進(jìn)行“菜籃子”分析
通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
Python中的Apriori關(guān)聯(lián)算法-市場購物籃分析
R語言用關(guān)聯(lián)規(guī)則和聚類模型挖掘處方數(shù)據(jù)探索藥物配伍中的規(guī)律
在R語言中輕松創(chuàng)建關(guān)聯(lián)網(wǎng)絡(luò)
python主題建模可視化LDA和T-SNE交互式可視化
R語言時間序列數(shù)據(jù)指數(shù)平滑法分析交互式動態(tài)可視化
用R語言制作交互式圖表和地圖
如何用r語言制作交互可視化報告圖表