最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

04-機(jī)器學(xué)習(xí)-隨機(jī)森林-Random Forest

2023-03-05 18:26 作者:三哥的平凡生活  | 我要投稿

1.什么是隨機(jī)森林

Random Forest(隨機(jī)森林)是一種基于樹模型的Bagging的優(yōu)化版本,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機(jī)森林,解決決策樹泛化能力弱的特點。(可以理解成三個臭皮匠頂過諸葛亮)

而同一批數(shù)據(jù),用同樣的算法只能產(chǎn)生一棵樹,這時Bagging策略可以幫助我們產(chǎn)生不同的數(shù)據(jù)集。

Bagging策略來源于bootstrap aggregation:從樣本集(假設(shè)樣本集N個數(shù)據(jù)點)中隨機(jī)重采樣選出N個樣本(有放回的采樣,樣本數(shù)據(jù)點個數(shù)仍然不變?yōu)镹),在所有樣本上,對這n個樣本建立分類器(ID3\C4.5\CART\SVM\LOGISTIC),重復(fù)以上兩步m次,獲得m個分類器,最后根據(jù)這m個分類器的投票結(jié)果,決定數(shù)據(jù)屬于哪一類。

如下圖所示:


單個決策樹對訓(xùn)練數(shù)據(jù)往往具有較好的分類效果,但是對于未知新樣本分類效果較差。為了提升模型對未知樣本的分類效果,所以將多個簡單的決策樹組合起來,形成泛化能力更強(qiáng)的模型——隨機(jī)森林。

2、什么是Bootstrapping&Bagging

2.1、Bootstrapping

Bootstrapping算法,指的就是利用有限的樣本資料經(jīng)由多次有放回的重復(fù)抽樣。如:在原樣本中有放回的抽樣,抽取n次。每抽一次形成一個新的樣本,重復(fù)操作,形成很多新樣本。

1、有放回采樣

2、強(qiáng)調(diào)偏差

3、串行執(zhí)行,速度較慢

4、可以提升泛化性能

2.2 Bagging思想

Bagging是bootstrap aggregating。思想就是從總體樣本當(dāng)中隨機(jī)取一部分樣本進(jìn)行訓(xùn)練(均勻采樣),通過多次這樣的結(jié)果,進(jìn)行投票獲取平均值作為結(jié)果輸出,這就極大可能的避免了不好的樣本數(shù)據(jù),從而提高準(zhǔn)確度。因為有些是不好的樣本,相當(dāng)于噪聲,模型學(xué)入噪聲后會使準(zhǔn)確度不高。

1、均勻采樣

2、強(qiáng)調(diào)方差

3、并行生成,速度快

4、可以提升泛化性能

bagging舉個例子:

假設(shè)有1000個樣本,如果按照以前的思維,是直接把這1000個樣本拿來訓(xùn)練,但現(xiàn)在不一樣,先抽取800個樣本來進(jìn)行訓(xùn)練,假如噪聲點是這800個樣本以外的樣本點,就很有效的避開了。重復(fù)以上操作,提高模型輸出的平均值。

3、隨機(jī)森林影響因素

3.1 隨機(jī)森林分類效果的影響因素

  • 森林中任意兩棵樹的相關(guān)性:相關(guān)性越大,錯誤率越大;

  • 森林中每棵樹的分類能力:每棵樹的分類能力越強(qiáng),整個森林的錯誤率越低。

減小特征選擇個數(shù)m,樹的相關(guān)性和分類能力也會相應(yīng)的降低;增大m,兩者也會隨之增大。所以關(guān)鍵問題是如何選擇最優(yōu)的m(或者是范圍),這也是隨機(jī)森林唯一的一個參數(shù)。

3.2 學(xué)習(xí)器組合可能會帶來三大好處:

  • 由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有很多假設(shè)再訓(xùn)練集上達(dá)到相同性能,結(jié)合多學(xué)習(xí)器會提升泛化性能

  • 學(xué)習(xí)算法往往會陷入局部極小,經(jīng)過多次結(jié)合,可降低陷入糟糕局部極小點的風(fēng)險

  • 某些學(xué)習(xí)任務(wù)的真實假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間中,通過結(jié)合多個學(xué)習(xí)器會使假設(shè)空間擴(kuò)大,可能會學(xué)得更好的近似

4 隨機(jī)森林優(yōu)缺點

4.1?優(yōu)點:?

RF簡單,容易實現(xiàn),計算開銷小,性能強(qiáng)大。它的擾動不僅來自于樣本擾動,還來自于屬性擾動,這使得它的泛化性能進(jìn)一步上升。

4.2?缺點

它在訓(xùn)練和預(yù)測時都比較慢,而且如果需要區(qū)分的類別很多時,隨機(jī)森林的表現(xiàn)并不會很好。

代碼演示-Random Forest

  • 數(shù)據(jù)集 iris

  • sklearn


04-機(jī)器學(xué)習(xí)-隨機(jī)森林-Random Forest的評論 (共 條)

分享到微博請遵守國家法律
婺源县| 禹州市| 五常市| 青川县| 巴东县| 宁都县| 镇赉县| 罗城| 白朗县| 龙州县| 六安市| 富阳市| 岳普湖县| 沙雅县| 会昌县| 霍州市| 广南县| 泰兴市| 西畴县| 徐汇区| 个旧市| 疏附县| 龙岩市| 凤翔县| 磐安县| 阿坝县| 洮南市| 财经| 霞浦县| 澄迈县| 新宾| 苏州市| 涟源市| 黔东| 富裕县| 广宁县| 金秀| 札达县| 称多县| 大兴区| 鄂伦春自治旗|