[吃瓜筆記]第4章
第4章 決策樹
決策樹這種算法原理既可用于分類也可用于回歸。
4.1 基本流程
決策樹就是把單一的決策拆分成了多個子決策。
一棵決策樹包含一個根結(jié)點、若干個內(nèi)部結(jié)點和若干個葉結(jié)點。
葉結(jié)點對應(yīng)決策結(jié)果,根節(jié)點和內(nèi)部結(jié)點都對應(yīng)于決策的判斷條件(對屬性的判斷)。
4.2 劃分選擇
我們希望分支結(jié)點包含的樣本盡可能屬于同一類,所以判斷條件也要仔細推敲。而不同的決策樹算法利用的劃分指標不同。
ID3用信息增益作為劃分屬性的參考值。信息增益是在信息熵的基礎(chǔ)上計算的。
C4.5用增益率作為劃分屬性的參考值。增益率是在信息增益的基礎(chǔ)上計算的。原本增益率是為了解決信息增益的對取值數(shù)目較多的屬性有偏好的問題而提出的,但它被提出后又對取值數(shù)目較少的屬性有偏好了。
CART用基尼指數(shù)作為劃分屬性的參考值?;嶂笖?shù)是在基尼值的基礎(chǔ)上計算的。CART是二叉樹,也就是CART的根結(jié)點和內(nèi)部結(jié)點只有2個分支。
4.3 剪枝處理
剪枝是用于對付過擬合的手段,分為預(yù)剪枝和后剪枝。預(yù)剪枝和后剪枝分別在決策樹生成過程中和生成后確定是否需要剪枝。

4.4-4.6略。