小胖的深度學(xué)習(xí)之旅一0002 機(jī)器學(xué)習(xí)決策樹筆記（一）

2023-06-22 17:09 作者:小胖闖天下 0人讀過 | 我要投稿

推薦去看菜菜的sklearn?

決策樹

核心算法參數(shù)：criterion 不不純度（一般來說不純度越低，決策樹對訓(xùn)練集的擬合越好）

輸入”entropy“，使用信息熵（Entropy）

輸入”gini“，使用基尼系數(shù)（Gini Impurity）

推導(dǎo)公式：p(i/t)?代表標(biāo)簽分類i在節(jié)點(diǎn)t上所占的比例,c總樣本數(shù)

邊角料參數(shù)：max_depth、min_samples_leaf & min_samples_split、max_features & min_impurity_decrease

誤差衡量：使用均方誤差mean squared error(MSE)、使用費(fèi)爾德曼均方誤差、"使用絕對平均誤差MAE

????????????????下面是MSE均方誤差的推到公式N樣本個(gè)數(shù) fi為實(shí)際值，yi為預(yù)測值；

? ? ? ? ? ? tips：誤差的本身用于衡量算法和訓(xùn)練后模型的好壞。

調(diào)參心得（非數(shù)據(jù)預(yù)處理）：隨機(jī)種子，不純度算法，樹深，剪枝

決策樹優(yōu)點(diǎn) （下面的話摘抄至原文）

易于理解和解釋，因?yàn)闃淠究梢援嫵鰜肀豢匆?/p>
?需要很少的數(shù)據(jù)準(zhǔn)備。其他很多算法通常都需要數(shù)據(jù)規(guī)范化，需要?jiǎng)?chuàng)建虛擬變量并刪除空值等。但請注意， sklearn中的決策樹模塊不支持對缺失值的處理。
使用樹的成本（比如說，在預(yù)測數(shù)據(jù)的時(shí)候）是用于訓(xùn)練樹的數(shù)據(jù)點(diǎn)的數(shù)量的對數(shù)，相比于其他算法，這是一個(gè)很低的成本。
?能夠同時(shí)處理數(shù)字和分類數(shù)據(jù)，既可以做回歸又可以做分類。其他技術(shù)通常專門用于分析僅具有一種變量類型的數(shù)據(jù)集。
?能夠處理多輸出問題，即含有多個(gè)標(biāo)簽的問題，注意與一個(gè)標(biāo)簽中含有多種標(biāo)簽分類的問題區(qū)別開
??是一個(gè)白盒模型，結(jié)果很容易能夠被解釋。如果在模型中可以觀察到給定的情況，則可以通過布爾邏輯輕松解釋條件。相反，在黑盒模型中（例如，在人工神經(jīng)網(wǎng)絡(luò)中），結(jié)果可能更難以解釋。
?可以使用統(tǒng)計(jì)測試驗(yàn)證模型，這讓我們可以考慮模型的可靠性。
?即使其假設(shè)在某種程度上違反了生成數(shù)據(jù)的真實(shí)模型，也能夠表現(xiàn)良好。

決策樹的缺點(diǎn)?

決策樹學(xué)習(xí)者可能創(chuàng)建過于復(fù)雜的樹，這些樹不能很好地推廣數(shù)據(jù)。這稱為過度擬合。修剪，設(shè)置葉節(jié)點(diǎn)所需的最小樣本數(shù)或設(shè)置樹的最大深度等機(jī)制是避免此問題所必需的，而這些參數(shù)的整合和調(diào)整對初學(xué)者來說會比較晦澀
決策樹可能不穩(wěn)定，數(shù)據(jù)中微小的變化可能導(dǎo)致生成完全不同的樹，這個(gè)問題需要通過集成算法來解決。
決策樹的學(xué)習(xí)是基于貪婪算法，它靠優(yōu)化局部最優(yōu)（每個(gè)節(jié)點(diǎn)的最優(yōu)）來試圖達(dá)到整體的最優(yōu)，但這種做法不能保證返回全局最優(yōu)決策樹。這個(gè)問題也可以由集成算法來解決，在隨機(jī)森林中，特征和樣本會在分枝過程中被隨機(jī)采樣。
有些概念很難學(xué)習(xí)，因?yàn)闆Q策樹不容易表達(dá)它們，例如XOR，奇偶校驗(yàn)或多路復(fù)用器問題。
如果標(biāo)簽中的某些類占主導(dǎo)地位，決策樹學(xué)習(xí)者會創(chuàng)建偏向主導(dǎo)類的樹。因此，建議在擬合決策樹之前平衡數(shù)據(jù)集。

標(biāo)簽：