小胖的深度學(xué)習(xí)之旅一0002 機(jī)器學(xué)習(xí)決策樹筆記(一)
推薦去看菜菜的sklearn?
決策樹
核心算法參數(shù):criterion 不不純度(一般來說不純度越低,決策樹對訓(xùn)練集的擬合越好)
輸入”entropy“,使用信息熵(Entropy)
輸入”gini“,使用基尼系數(shù)(Gini Impurity)
推導(dǎo)公式:p(i/t)?代表標(biāo)簽分類i在節(jié)點(diǎn)t上所占的比例,c總樣本數(shù)

邊角料參數(shù):max_depth、min_samples_leaf & min_samples_split、max_features & min_impurity_decrease
誤差衡量:使用均方誤差mean squared error(MSE)、使用費(fèi)爾德曼均方誤差、"使用絕對平均誤差MAE
????????????????下面是MSE均方誤差的推到公式N樣本個(gè)數(shù) fi為實(shí)際值,yi為預(yù)測值;

? ? ? ? ? ? tips:誤差的本身用于衡量算法和訓(xùn)練后模型的好壞。
調(diào)參心得(非數(shù)據(jù)預(yù)處理):隨機(jī)種子,不純度算法,樹深,剪枝
決策樹優(yōu)點(diǎn) (下面的話摘抄至原文)
易于理解和解釋,因?yàn)闃淠究梢援嫵鰜肀豢匆?/p>
?需要很少的數(shù)據(jù)準(zhǔn)備。其他很多算法通常都需要數(shù)據(jù)規(guī)范化,需要?jiǎng)?chuàng)建虛擬變量并刪除空值等。但請注意, sklearn中的決策樹模塊不支持對缺失值的處理。
使用樹的成本(比如說,在預(yù)測數(shù)據(jù)的時(shí)候)是用于訓(xùn)練樹的數(shù)據(jù)點(diǎn)的數(shù)量的對數(shù),相比于其他算法,這是 一個(gè)很低的成本。
?能夠同時(shí)處理數(shù)字和分類數(shù)據(jù),既可以做回歸又可以做分類。其他技術(shù)通常專門用于分析僅具有一種變量類 型的數(shù)據(jù)集。
?能夠處理多輸出問題,即含有多個(gè)標(biāo)簽的問題,注意與一個(gè)標(biāo)簽中含有多種標(biāo)簽分類的問題區(qū)別開
??是一個(gè)白盒模型,結(jié)果很容易能夠被解釋。如果在模型中可以觀察到給定的情況,則可以通過布爾邏輯輕松 解釋條件。相反,在黑盒模型中(例如,在人工神經(jīng)網(wǎng)絡(luò)中),結(jié)果可能更難以解釋。
?可以使用統(tǒng)計(jì)測試驗(yàn)證模型,這讓我們可以考慮模型的可靠性。
?即使其假設(shè)在某種程度上違反了生成數(shù)據(jù)的真實(shí)模型,也能夠表現(xiàn)良好。
決策樹的缺點(diǎn)?
決策樹學(xué)習(xí)者可能創(chuàng)建過于復(fù)雜的樹,這些樹不能很好地推廣數(shù)據(jù)。這稱為過度擬合。修剪,設(shè)置葉節(jié)點(diǎn)所 需的最小樣本數(shù)或設(shè)置樹的最大深度等機(jī)制是避免此問題所必需的,而這些參數(shù)的整合和調(diào)整對初學(xué)者來說 會比較晦澀
決策樹可能不穩(wěn)定,數(shù)據(jù)中微小的變化可能導(dǎo)致生成完全不同的樹,這個(gè)問題需要通過集成算法來解決。
決策樹的學(xué)習(xí)是基于貪婪算法,它靠優(yōu)化局部最優(yōu)(每個(gè)節(jié)點(diǎn)的最優(yōu))來試圖達(dá)到整體的最優(yōu),但這種做法 不能保證返回全局最優(yōu)決策樹。這個(gè)問題也可以由集成算法來解決,在隨機(jī)森林中,特征和樣本會在分枝過 程中被隨機(jī)采樣。
有些概念很難學(xué)習(xí),因?yàn)闆Q策樹不容易表達(dá)它們,例如XOR,奇偶校驗(yàn)或多路復(fù)用器問題。
如果標(biāo)簽中的某些類占主導(dǎo)地位,決策樹學(xué)習(xí)者會創(chuàng)建偏向主導(dǎo)類的樹。因此,建議在擬合決策樹之前平衡 數(shù)據(jù)集。