用通俗易懂的語言解釋「隨機森林」
要理解隨機森林,我們首先要理解什么是決策樹。決策樹是一個
。一個決策樹在構(gòu)建時,通過將數(shù)據(jù)劃分為具有相似值的子集來構(gòu)建出一個完整的樹。決策樹上每一個 都是一個特征屬性的測試,經(jīng)過每個 的測試,會產(chǎn)生多個分支,而每個分支就是對于 中某個值域的輸出子集。決策樹上每個 就是表達輸出結(jié)果的連續(xù)或者離散的數(shù)據(jù)。隨機森林
隨機森林是以決策樹為基礎(chǔ)的一種更高級的算法。像決策樹一樣,隨機森林即可以用于回歸也可以用于分類。從名字中可以看出,隨機森林是用隨機的方式構(gòu)建的一個森林,而這個森林是由很多的相互不關(guān)聯(lián)的決策樹組成。實時上隨機森林從本質(zhì)上屬于機器學(xué)習(xí)的一個很重要的分支叫做集成學(xué)習(xí)。集成學(xué)習(xí)通過建立幾個模型組合的來解決單一預(yù)測問題。它的工作原理是生成多個
/模型,各自獨立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個單分類的做出預(yù)測。所以理論上,隨機森林的表現(xiàn)一般要優(yōu)于單一的決策樹,因為隨機森林的結(jié)果是通過多個決策樹結(jié)果投票來決定最后的結(jié)果。簡單來說,隨機森林中每個決策樹都有一個自己的結(jié)果,隨機森林通過統(tǒng)計每個決策樹的結(jié)果,選擇投票數(shù)最多的結(jié)果作為其最終結(jié)果。我覺得中國一句諺語很形象的表達了隨機森林的
,就是“ ,頂個諸葛亮”。隨機森林是一種機器學(xué)習(xí)算法。
機器學(xué)習(xí)中有一種大類叫集成學(xué)習(xí)(Ensemble Learning),集成學(xué)習(xí)的基本思想就是將多個分類器組合,從而實現(xiàn)一個預(yù)測效果更好的集成分類器。
可以說從一方面驗證了中國的一句老話:三個臭皮匠,賽過諸葛亮。集成算法大致可以分為:Bagging,Boosting 和 Stacking 三大類型。(1)每次有放回地從訓(xùn)練集中取出 n 個訓(xùn)練樣本,組成新的訓(xùn)練集;
(2)利用新的訓(xùn)練集,訓(xùn)練得到M個子模型;
(3)對于分類問題,采用投票的方法,得票最多子模型的分類類別為最終的類別;對于回歸問題,采用簡單的平均方法得到預(yù)測值。
隨機森林既可以勝任分類任務(wù)又可以勝任回歸任務(wù)。
機器學(xué)習(xí)中有兩種任務(wù),回歸和分類,而隨機森林可以同時勝任這兩種任務(wù)。其中分類任務(wù)是對離散值進行預(yù)測(比如將一景圖像中的植被,建筑,水體等地物類型分類);回歸任務(wù)是對連續(xù)值進行預(yù)測(比如根據(jù)已有的數(shù)據(jù)預(yù)測明天的氣溫是多少度,預(yù)測明天某基金的價格)。
WRITE-BUG研發(fā)團隊衷心希望【W(wǎng)RITE-BUG數(shù)字空間】可以給每位同學(xué)一個屬于自己的秘密空間,同時祝愿大家在“公開圈子”世界里,遇見志同道合的伙伴們,因為我們與大家一樣,都曾孤獨前行著。不忘初心,砥礪前行,這次,讓我們陪伴著同學(xué)一起前行!


