《Scikit-Learn與TensorFlow機(jī)器學(xué)習(xí)實(shí)用指南》第7章 集成學(xué)習(xí)和隨機(jī)森林

來源:ApacheCN《Sklearn 與 TensorFlow 機(jī)器學(xué)習(xí)實(shí)用指南》翻譯項(xiàng)目
譯者:@friedhelm739
校對:@飛龍
假設(shè)你去隨機(jī)問很多人一個(gè)很復(fù)雜的問題,然后把它們的答案合并起來。通常情況下你會(huì)發(fā)現(xiàn)這個(gè)合并的答案比一個(gè)專家的答案要好。這就叫做群體智慧。同樣的,如果你合并了一組分類器的預(yù)測(像分類或者回歸),你也會(huì)得到一個(gè)比單一分類器更好的預(yù)測結(jié)果。這一組分類器就叫做集成;因此,這個(gè)技術(shù)就叫做集成學(xué)習(xí),一個(gè)集成學(xué)習(xí)算法就叫做集成方法。
例如,你可以訓(xùn)練一組決策樹分類器,每一個(gè)都在一個(gè)隨機(jī)的訓(xùn)練集上。為了去做預(yù)測,你必須得到所有單一樹的預(yù)測值,然后通過投票(例如第六章的練習(xí))來預(yù)測類別。例如一種決策樹的集成就叫做隨機(jī)森林,它除了簡單之外也是現(xiàn)今存在的最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。
向我們在第二章討論的一樣,我們會(huì)在一個(gè)項(xiàng)目快結(jié)束的時(shí)候使用集成算法,一旦你建立了一些好的分類器,就把他們合并為一個(gè)更好的分類器。事實(shí)上,在機(jī)器學(xué)習(xí)競賽中獲得勝利的算法經(jīng)常會(huì)包含一些集成方法。
在本章中我們會(huì)討論一下特別著名的集成方法,包括 bagging, boosting, stacking,和其他一些算法。我們也會(huì)討論隨機(jī)森林。
閱讀全文:http://t.cn/Ruisy6Y