最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數(shù)據(jù)|附代碼數(shù)據(jù)

2023-01-18 13:34 作者:拓端tecdat  | 我要投稿

全文鏈接:http://tecdat.cn/?p=30752

最近我們被客戶要求撰寫關(guān)于決策樹的研究報告,包括一些圖形和統(tǒng)計輸出。

如何通過方法有效的分析海量數(shù)據(jù),并從其中找到有利的資訊已經(jīng)成為一種趨勢

而決策樹算法是目前在進(jìn)行數(shù)據(jù)分析時很常用的方法。本文將使用IBM SPSS Modeler進(jìn)行實踐,介紹決策樹在空氣污染預(yù)測領(lǐng)域的實踐案例。

分類預(yù)測模型的構(gòu)建流程,具體步驟如下:

(1)數(shù)據(jù)處理 :審核數(shù)據(jù),過濾掉含有缺失值的數(shù)據(jù)記錄。

(2)劃分?jǐn)?shù)據(jù)集,訓(xùn)練集70%,測試集30% 。

(3)構(gòu)建模型時的參數(shù)設(shè)置 。

(4)構(gòu)建模型:構(gòu)建C5.0模型。

(5)結(jié)果評估,用測試集數(shù)據(jù)運(yùn)行得到的運(yùn)行結(jié)果,對模型采用命中率評估兩個模型的預(yù)測效果。

加入表節(jié)點

讀取數(shù)據(jù)

添加“抽樣”節(jié)點

隨機(jī)抽取70%的樣本作為訓(xùn)練集

“C5.0”節(jié)點

生成的決策樹模型,并對測試數(shù)據(jù)進(jìn)行預(yù)測

得到測試數(shù)據(jù)的分類結(jié)果的準(zhǔn)確度

預(yù)測分類結(jié)果

有88.1%的測試樣本的預(yù)測值和實際值相符。

并且得到如下的決策樹模型:

點擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|PYTHON用決策樹分類預(yù)測糖尿病和可視化實例

左右滑動查看更多

01

02

03

04

其中變量的重要性如下圖所示:

從結(jié)果可以看到,首要污染物類型與AQI、NO2還有O3等變量有關(guān)。其中AQI對首要污染物類型的結(jié)果具有最重要的影響。

C5.0是在C4.5的基礎(chǔ)上發(fā)展起來的。C5.0 算法是用信息增益(根節(jié)點的熵減去該拆分的熵)來度量拆分純度的。第一次拆分某一字段,劃分出相對應(yīng)的樣本子集。然后繼續(xù)拆分這些樣本子集,一般情況下使用的是另一字段進(jìn)行拆分,一直循環(huán)這樣一個過程,直到滿足拆分終止條件。最后,若生成的樹出現(xiàn)過度擬合的狀況,則要修剪那些缺乏價值的樣本子集。

點擊文末?“閱讀原文”

獲取全文完整代碼數(shù)據(jù)資料。

本文選自《IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數(shù)據(jù)》。

點擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|Spss Modeler關(guān)聯(lián)規(guī)則Apriori模型、Carma算法分析超市顧客購買商品數(shù)據(jù)挖掘?qū)嵗?br>數(shù)據(jù)分享|Python用Apriori算法關(guān)聯(lián)規(guī)則分析亞馬遜購買書籍關(guān)聯(lián)推薦客戶和網(wǎng)絡(luò)圖可視化
【視頻】關(guān)聯(lián)規(guī)則模型、Apriori算法及R語言挖掘商店交易數(shù)據(jù)與交互可視化|數(shù)據(jù)分享
R語言用關(guān)聯(lián)規(guī)則和聚類模型挖掘處方數(shù)據(jù)探索藥物配伍中的規(guī)律
用SPSS Modeler的Web復(fù)雜網(wǎng)絡(luò)對所有腧穴進(jìn)行關(guān)聯(lián)規(guī)則分析
PYTHON在線零售數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘APRIORI算法數(shù)據(jù)可視化
R語言關(guān)聯(lián)規(guī)則模型(Apriori算法)挖掘雜貨店的交易數(shù)據(jù)與交互可視化
R語言關(guān)聯(lián)挖掘?qū)嵗ㄙ徫锘@分析)
python關(guān)聯(lián)規(guī)則學(xué)習(xí):FP-Growth算法對藥品進(jìn)行“菜籃子”分析
基于R的FP樹fp growth 關(guān)聯(lián)數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理
python關(guān)聯(lián)規(guī)則學(xué)習(xí):FP-Growth算法對藥品進(jìn)行“菜籃子”分析
通過Python中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘
Python中的Apriori關(guān)聯(lián)算法-市場購物籃分析
R語言用關(guān)聯(lián)規(guī)則和聚類模型挖掘處方數(shù)據(jù)探索藥物配伍中的規(guī)律
在R語言中輕松創(chuàng)建關(guān)聯(lián)網(wǎng)絡(luò)
python主題建模可視化LDA和T-SNE交互式可視化
R語言時間序列數(shù)據(jù)指數(shù)平滑法分析交互式動態(tài)可視化
用R語言制作交互式圖表和地圖
如何用r語言制作交互可視化報告圖表


IBM SPSS Modeler分類決策樹C5.0模型分析空氣污染物數(shù)據(jù)|附代碼數(shù)據(jù)的評論 (共 條)

分享到微博請遵守國家法律
温泉县| 娱乐| 巴南区| 社旗县| 秦安县| 边坝县| 嘉兴市| 浦东新区| 靖远县| 惠安县| 丁青县| 永福县| 罗甸县| 景谷| 七台河市| 驻马店市| 麻栗坡县| 富裕县| 常宁市| 威信县| 怀安县| 双辽市| 勃利县| 东台市| 牡丹江市| 西宁市| 吉林省| 家居| 镶黄旗| 曲周县| 武胜县| 洪湖市| 沁源县| 锡林郭勒盟| 德格县| 太原市| 寻甸| 克东县| 合川市| 武鸣县| 垣曲县|