最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

深度學(xué)習(xí)面試題專欄08

2023-10-08 21:18 作者:巖學(xué)長  | 我要投稿
  • 01?隨機(jī)森林的隨機(jī)性指的是?

  • 02?為什么要隨機(jī)抽樣?

  • 03 為什么要有放回的抽樣?

  • 04?為什么不用全樣本訓(xùn)練?

  • 05?需要剪枝嗎?

  • 06?隨機(jī)森林如何處理缺失值?

  • 07?RF與決策樹的區(qū)別

  • 08?Bagging vs Boosting

  • 09?隨機(jī)森林 vs GBDT

  • 10?XGBoost vs LightGBM




01?隨機(jī)森林的隨機(jī)性指的是?

隨機(jī)森林(Random Forest)是一個(gè)集成學(xué)習(xí)模型,它由多個(gè)決策樹組成,并通過投票機(jī)制(對于分類問題)或平均機(jī)制(對于回歸問題)來進(jìn)行預(yù)測。隨機(jī)森林中的“隨機(jī)性”主要體現(xiàn)在以下兩個(gè)方面:

  1. 隨機(jī)樣本抽取(自助采樣):對于每一個(gè)樹的構(gòu)建,隨機(jī)森林使用自助采樣法(bootstrap sampling)從原始訓(xùn)練數(shù)據(jù)集中抽取一個(gè)新的訓(xùn)練樣本集。這意味著,每一次抽取,原始訓(xùn)練數(shù)據(jù)集中的某些樣本可能會(huì)被重復(fù)選中,而某些樣本可能不會(huì)被選中。這樣每個(gè)決策樹在訓(xùn)練時(shí)使用的數(shù)據(jù)集都是稍有不同的,增加了模型的多樣性。

  2. 隨機(jī)特征選擇:當(dāng)在每個(gè)節(jié)點(diǎn)處進(jìn)行分裂決策時(shí),隨機(jī)森林不是考慮所有的特征,而是從所有的特征中隨機(jī)選擇一個(gè)子集,并只在這個(gè)子集上找最佳的分裂點(diǎn)。這樣做的目的是避免所有的決策樹都對某些強(qiáng)特征過度依賴,從而確保森林中的樹是多樣化的。

02?為什么要隨機(jī)抽樣?

增加模型的多樣性:在隨機(jī)森林中,每次隨機(jī)抽樣都可能生成不同的數(shù)據(jù)子集,這意味著用于訓(xùn)練的每棵決策樹都基于略有不同的數(shù)據(jù)。這增加了模型的多樣性,從而提高了整個(gè)集成模型的泛化能力。

降低過擬合風(fēng)險(xiǎn):當(dāng)每棵樹使用不完全相同的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),單個(gè)樹可能的過擬合會(huì)被整體模型的其他樹所平衡,因此隨機(jī)森林整體的過擬合風(fēng)險(xiǎn)降低。

提供OOB (Out-of-Bag) 估計(jì):對于每一次的自助采樣,大約有1/3的數(shù)據(jù)不會(huì)被選中。這些沒有被選中的數(shù)據(jù)稱為OOB數(shù)據(jù)。這些數(shù)據(jù)可以被用作驗(yàn)證集來評估模型的性能,而不需要單獨(dú)劃分一個(gè)驗(yàn)證集。這種評估方法被稱為OOB估計(jì)。

......


03?為什么要有放回的抽樣?

有放回的抽樣意味著在每次抽取一個(gè)樣本后,這個(gè)樣本仍然會(huì)被放回到原始數(shù)據(jù)集中,因此在后續(xù)的抽樣中它還有可能被再次選中。

原因:

生成多個(gè)不同的子集:有放回的抽樣能夠從一個(gè)固定大小的原始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的數(shù)據(jù)子集。每個(gè)子集都有可能包含重復(fù)的樣本和遺漏的樣本。這種多樣性是隨機(jī)森林和其他集成方法中模型多樣性的一個(gè)關(guān)鍵來源。

利用全部數(shù)據(jù):不進(jìn)行放回的抽樣,特別是在小數(shù)據(jù)集的情況下,可能導(dǎo)致生成的子集覆蓋范圍不夠全面。有放回的抽樣可以確保每次抽樣都是從整個(gè)數(shù)據(jù)集中進(jìn)行的,使得每個(gè)數(shù)據(jù)點(diǎn)都有可能被選中,充分利用了所有的數(shù)據(jù)。

降低方差:有放回的抽樣,尤其在集成方法中,可以降低模型的方差。通過多次抽樣和訓(xùn)練,每次都可能得到稍有不同的模型,最終的集成模型能夠平衡這些差異,從而降低總體的預(yù)測誤差。

04?為什么不用全樣本訓(xùn)練?

增加模型多樣性:隨機(jī)森林和其他集成方法的核心思想是通過結(jié)合多個(gè)模型的預(yù)測來提高整體的預(yù)測性能。如果每個(gè)模型都在完全相同的樣本上進(jìn)行訓(xùn)練,那么他們可能會(huì)產(chǎn)生非常相似的預(yù)測,這降低了集成的多樣性和效益。通過從原始數(shù)據(jù)集中抽取不同的子集進(jìn)行訓(xùn)練,每個(gè)模型都可能會(huì)關(guān)注數(shù)據(jù)的不同方面,從而提高整體模型的多樣性。

減少過擬合風(fēng)險(xiǎn):使用全樣本進(jìn)行訓(xùn)練可能增加過擬合的風(fēng)險(xiǎn),尤其是當(dāng)模型復(fù)雜度較高或數(shù)據(jù)量較小時(shí)。通過在不同的數(shù)據(jù)子集上進(jìn)行訓(xùn)練,我們可以得到多個(gè)可能的過擬合模型,但當(dāng)它們結(jié)合起來時(shí),過擬合的風(fēng)險(xiǎn)會(huì)降低。

-----同02問題一樣----


05?需要剪枝嗎?

“剪枝”是決策樹算法中用來避免過擬合的常見技術(shù)。剪枝通過刪除樹的某些部分來簡化決策樹。但是,是否需要剪枝取決于所使用的模型和情境。

  • 隨機(jī)森林

    隨機(jī)森林中的決策樹不進(jìn)行剪枝。因?yàn)殡S機(jī)森林的工作原理是建立許多深度大、可能過擬合的樹,然后通過整合它們的預(yù)測來平均掉各個(gè)樹的過擬合效應(yīng)。因此,即使單獨(dú)的樹可能過擬合,整體模型通常不會(huì)。

  • 隨機(jī)森林的其他隨機(jī)性來源(例如特征的隨機(jī)子集和bootstrap樣本)進(jìn)一步增加了模型的魯棒性,這也減少了剪枝的必要性。

  • 單個(gè)決策樹

    對于單獨(dú)的決策樹,尤其是CART(分類與回歸樹)算法,剪枝是一個(gè)常用的策略,用于避免過擬合。樹可以先“生長”到它的最大深度,然后再根據(jù)某種準(zhǔn)則(如成本復(fù)雜度剪枝)進(jìn)行剪枝。

    除了后剪枝(即先完全生長再進(jìn)行剪枝),還有預(yù)剪枝方法,例如設(shè)定最大深度、最小葉子節(jié)點(diǎn)樣本數(shù)或某個(gè)分裂所需的最小樣本數(shù)等。

06?隨機(jī)森林如何處理缺失值?

  1. 數(shù)據(jù)預(yù)處理階段

    均值/中位數(shù)/眾數(shù)填充:對于數(shù)值型特征,可以使用均值或中位數(shù)來填充缺失值。對于分類特征,可以使用眾數(shù)來填充。

    使用其他特征進(jìn)行預(yù)測:可以使用包含缺失值的數(shù)據(jù)集的其他特征來預(yù)測缺失的特征值。例如,可以使用隨機(jī)森林自身來預(yù)測并填充缺失值。

    添加一個(gè)"缺失"類別:對于分類特征,可以將缺失值作為一個(gè)新的類別。對于數(shù)值特征,可以添加一個(gè)指示變量來指示該特征是否缺失。

  2. 隨機(jī)森林訓(xùn)練和預(yù)測階段

    分裂時(shí)的考慮:當(dāng)特征有缺失值時(shí),訓(xùn)練決策樹的過程中可以考慮這些缺失值。在尋找最佳分裂點(diǎn)時(shí),算法可以將缺失值既不歸為左子樹也不歸為右子樹,而是作為第三種情況來處理。另一種方法是將缺失值歸為在非缺失值中增益較高的那一側(cè)。

    預(yù)測時(shí)的處理:當(dāng)使用訓(xùn)練好的決策樹進(jìn)行預(yù)測時(shí),如果某個(gè)特征有缺失值,但該特征在樹的決策過程中被用作了分裂特征,則可以考慮將該樣本同時(shí)傳遞給左右子樹,并基于子樹的輸出獲得一個(gè)加權(quán)的結(jié)果。

07?RF與決策樹的區(qū)別

  • 基本構(gòu)成

    決策樹:它是一個(gè)單一的樹結(jié)構(gòu),通過遞歸地分裂數(shù)據(jù)以建立一個(gè)預(yù)測模型。

    隨機(jī)森林:它是一個(gè)集成方法,由多個(gè)決策樹組成。這些樹的預(yù)測結(jié)果會(huì)被整合(通過投票或平均)來得到最終的預(yù)測。

  • 訓(xùn)練過程中的隨機(jī)性

    決策樹:通常,決策樹在每個(gè)節(jié)點(diǎn)使用所有的特征來尋找最佳的分裂點(diǎn)。

    隨機(jī)森林:它引入了兩種隨機(jī)性:

    1. 每棵樹在訓(xùn)練時(shí)使用一個(gè)自助采樣(bootstrap sample)的數(shù)據(jù)集。

    2. 在選擇分裂特征時(shí),隨機(jī)選擇特征的一個(gè)子集,而不是使用所有特征。

  • 過擬合風(fēng)險(xiǎn)

    決策樹:容易過擬合,尤其是當(dāng)樹深度較大時(shí)。

    隨機(jī)森林:由于其集成的性質(zhì)和引入的隨機(jī)性,它通常具有較低的過擬合風(fēng)險(xiǎn)。

08?Bagging vs Boosting

Bagging和Boosting都是集成學(xué)習(xí)的策略,旨在組合多個(gè)模型以提高單個(gè)模型的性能。

主要區(qū)別:

  • 基本思想

    Bagging:Bagging(Bootstrap Aggregating)的主要目的是通過減少方差來提高模型的穩(wěn)定性和準(zhǔn)確性。它通常在原始數(shù)據(jù)上進(jìn)行多次自助采樣,為每個(gè)樣本集訓(xùn)練一個(gè)基模型,然后組合這些模型的預(yù)測。

  • Boosting:Boosting的目標(biāo)是減少偏差和方差。它是一個(gè)迭代的過程,其中每個(gè)新模型都試圖糾正前一個(gè)模型的錯(cuò)誤。

  • 模型訓(xùn)練方式

    Bagging:模型是并行且獨(dú)立地訓(xùn)練的。每個(gè)模型都基于從原始數(shù)據(jù)集中抽取的一個(gè)自助樣本。

  • Boosting:模型是順序訓(xùn)練的。每個(gè)新模型都根據(jù)先前模型的錯(cuò)誤來調(diào)整樣本的權(quán)重。

  • 數(shù)據(jù)采樣

    Bagging:進(jìn)行有放回的自助采樣。

    Boosting:根據(jù)模型的錯(cuò)誤調(diào)整樣本的權(quán)重,使得之前錯(cuò)誤預(yù)測的樣本在下一個(gè)模型訓(xùn)練中更有可能被選中。

  • 模型組合方式

    Bagging:模型通常是通過簡單的平均(回歸)或投票(分類)來組合的。

    Boosting:模型的組合是基于權(quán)重的,其中權(quán)重取決于每個(gè)模型的性能。

  • 過擬合風(fēng)險(xiǎn)

    Bagging:由于模型獨(dú)立地訓(xùn)練,Bagging通常能有效地減少過擬合。

    Boosting:由于模型試圖糾正先前模型的錯(cuò)誤,如果它太過于復(fù)雜或迭代次數(shù)太多,Boosting可能導(dǎo)致過擬合。

09?隨機(jī)森林 vs GBDT

隨機(jī)森林(Random Forest, RF)和梯度提升決策樹(Gradient Boosted Decision Trees, GBDT)都是集成學(xué)習(xí)方法,并且都使用決策樹作為基學(xué)習(xí)器。但是,這兩種方法在集成策略、訓(xùn)練方式和優(yōu)化目標(biāo)上有所不同。

主要區(qū)別:

  1. 集成策略

    隨機(jī)森林:基于Bagging的策略,它通過多次自助采樣生成多個(gè)數(shù)據(jù)子集,并在每個(gè)子集上獨(dú)立地訓(xùn)練決策樹。

    GBDT:基于Boosting的策略,它通過順序地訓(xùn)練決策樹來逐漸優(yōu)化和改進(jìn)預(yù)測性能。每一棵樹都試圖糾正前一棵樹的錯(cuò)誤。

  2. 模型訓(xùn)練

    隨機(jī)森林:樹模型是并行訓(xùn)練的。每棵樹都在部分?jǐn)?shù)據(jù)和特征子集上進(jìn)行訓(xùn)練,這增加了模型的多樣性。

    GBDT:樹模型是順序訓(xùn)練的。每一棵新樹的任務(wù)是預(yù)測之前所有樹的殘差或錯(cuò)誤。

  3. 目標(biāo)優(yōu)化

    隨機(jī)森林:每棵樹獨(dú)立地嘗試最佳地?cái)M合其所看到的子數(shù)據(jù)集。

    GBDT:通過梯度提升策略,每一步都是在優(yōu)化一個(gè)損失函數(shù),新的樹是為了減少損失函數(shù)的值而添加的。

10?XGBoost vs LightGBM

XGBoost(Extreme Gradient Boosting)和LightGBM(Light Gradient Boosting Machine)都是基于梯度提升(Gradient Boosting)的決策樹算法,但它們有其獨(dú)特的特性和優(yōu)勢。

主要區(qū)別:

  1. 樹的生長策略

    XGBoost:采用的是深度優(yōu)先搜索(DFS)策略,從上到下生長,直到達(dá)到指定的最大深度,然后再回溯剪枝。

    LightGBM:使用的是葉子優(yōu)先搜索(Leaf-wise)策略,每次選擇當(dāng)前最大增益的葉子進(jìn)行分裂,直到達(dá)到指定的最大葉子數(shù)量。這可能導(dǎo)致比XGBoost更深的樹,但能更好地減小訓(xùn)練損失。

  2. 處理大數(shù)據(jù)和大特征數(shù)

    XGBoost:雖然可以處理大型數(shù)據(jù),但可能需要更多的時(shí)間和內(nèi)存。

    LightGBM:專為大型數(shù)據(jù)集設(shè)計(jì),具有更高效的處理速度和較低的內(nèi)存使用。LightGBM還支持類別特征,這意味著無需進(jìn)行獨(dú)熱編碼。

  3. 分裂點(diǎn)查找

    XGBoost:使用精確和近似的分裂查找方法。

    LightGBM:使用分桶(binning)技術(shù)來進(jìn)行分裂查找,這加速了訓(xùn)練過程。


繼續(xù)堅(jiān)持啦!







深度學(xué)習(xí)面試題專欄08的評論 (共 條)

分享到微博請遵守國家法律
民勤县| 岢岚县| 印江| 清丰县| 桂阳县| 靖宇县| 紫云| 同仁县| 新宁县| 普陀区| 平远县| 长岭县| 周口市| 理塘县| 千阳县| 皋兰县| 什邡市| 泾川县| 改则县| 开化县| 旺苍县| 灵寿县| 于都县| 临泽县| 绿春县| 灌南县| 临武县| 正阳县| 荣成市| 武邑县| 溆浦县| 庆云县| 鄂托克前旗| 沛县| 潍坊市| 南充市| 响水县| 昌平区| 屯门区| 咸阳市| 昔阳县|