散文網(wǎng) » 生活 »日常 » 03-機器學習-決策樹-Decision Tree

03-機器學習-決策樹-Decision Tree

2023-03-05 18:22 作者:三哥的平凡生活 0人讀過 | 我要投稿

決策樹：

決策樹（decision tree）是一個樹結(jié)構(gòu)（可以是二叉樹或非二叉樹）。其每個非葉節(jié)點表示一個特征屬性上的測試，每個分支代表這個特征屬性在某個值域上的輸出，而每個葉節(jié)點存放一個類別。使用決策樹進行決策的過程就是從根節(jié)點開始，測試待分類項中相應的特征屬性，并按照其值選擇輸出分支，直到到達葉子節(jié)點，將葉子節(jié)點存放的類別作為決策結(jié)果。

構(gòu)建樹的原則

我們構(gòu)建一棵決策樹的基本想法就是，我們希望決策樹每個葉子節(jié)點包含的樣本盡可能屬于同一個類別，即結(jié)點的“純度”越來越高

決策樹劃分選擇的方法

根據(jù)構(gòu)建樹的原則來看，即使得每個結(jié)點的純度盡可能小，那么我們需要一些指標評價“純度”這個概念。信息熵和基尼指數(shù)是兩個常用的指標。

決策樹算法

1、熵(Entropy)

信息熵(information entropy)是度量樣本集合純度的常用指標；

在信息論與概率統(tǒng)計中，熵是表示隨機變量不確定性的度，熵越大，隨機變量的不確定性就越大，反之則不確定性越??；

假定當前樣本集合D中第k類樣本所占的比例為 pk(k=1,2,…,|Y|) ,則D的信息熵為:

Ent(D)的值越小，D的純度越高(約定：若p=0則plog2p=0)

數(shù)據(jù)集：

2、信息增益(Information Gain)

一般而言，信息增益越大，則意味著用屬性a來進行劃分所獲得的純度提升越大：

ID3就是以信息增益為準則來選擇劃分屬性的

舉例：

3、增益率

實際上，信息增益對可取值數(shù)目較多的屬性有所偏好(如編號，在西瓜集中若以編號為劃分屬性，則其信息增益最大)，為減少由于偏好而帶來的不利影響，C4.5算法使用增益率(gain ratio)來選擇最優(yōu)劃分屬性:

其中：

稱為屬性a的固有值(intrinsic value),屬性a的可能數(shù)目越多，則IV(a)的值通常越大

信息增益率準則對可取值數(shù)目較少的屬性有所偏好，
C4.5采用的是先從候選劃分屬性中尋找出信息增益率最高的屬性

舉例：

4、基尼指數(shù)（Gini Index）

CART(Classification and Regression Tree)使用基尼指數(shù)(Gini index)來選擇劃分屬性，數(shù)據(jù)集的純度可用基尼值來度量

屬性a的基尼指數(shù)定義為：

在屬性集合A中尋找:

CART決策樹使用基尼指數(shù)作為屬性劃分的標準

我們使用色澤屬性進行舉例，計算此時的基尼指數(shù)：

5、剪枝處理

剪枝(pruning)是決策樹學習算法對付過擬合的主要手段，基本策略有預剪枝(prepruning)和后剪枝(post-pruning)

預剪枝：在決策樹的生成過程中，對每個節(jié)點在劃分前先進行估計，若當前節(jié)點的劃分不能帶來泛化性能提升則停止劃分
后剪枝：先生成一個完整的樹，然后自底向上對非葉節(jié)點考察，若將該節(jié)點對應的子數(shù)替換為葉節(jié)點能提升泛化性能則替換

5.1 預剪枝

預剪枝的關鍵在于是否繼續(xù)進行劃分：

在上面的西瓜的例子當中，在劃分前，我們將其類別標記為訓練樣例最多的類別“好瓜”。那么在驗證集用“臍部”這個結(jié)點進行劃分，則編號{4,5,8}被劃分正確，其劃分進度為 3/7*100%=42.9%
如果我們使用“臍部”進行劃分,那么圖中②、③和⑥分別包含編號為{1 ， 2 ， 3 ， 14} 、{6 ， 7 ， 15 ， 17} 和{10 ， 16} 的訓練樣例,
因此這3個結(jié)點分別被標記為葉結(jié)點“好瓜”、"好瓜"、"壞瓜"（按其訓練樣例最多類別歸屬），此時，驗證集中編號為{4 ， 5 ， 8 ，11， 12} 的樣例被分類正確，驗證集精度為5/7 x 100% = 71.4% > 42.9%。于是，用"臍部"進行劃分得以確定。

預剪枝使決策樹的很多分支都沒有展開，不僅降低了過擬合的風險，還顯著減少了訓練時間和測試時間，但是可能會引起過擬合