散文網(wǎng) » 生活 »日常 » R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性

2021-04-06 14:22 作者:拓端tecdat 0人讀過 | 我要投稿

原文鏈接：http://tecdat.cn/?p=13546

?

變量重要性圖是查看模型中哪些變量有趣的好工具。由于我們通常在隨機(jī)森林中使用它，因此它看起來非常適合非常大的數(shù)據(jù)集。大型數(shù)據(jù)集的問題在于許多特征是“相關(guān)的”，在這種情況下，很難比較可變重要性圖的值的解釋。例如，考慮一個非常簡單的線性模型

在這里，我們使用一個隨機(jī)森林的特征之間的關(guān)系模型，但實(shí)際上，我們考慮另一個特點(diǎn)-不用于產(chǎn)生數(shù)據(jù)-?

，即相關(guān)??

。我們考慮這三個特征的隨機(jī)森林??

。

為了獲得更可靠的結(jié)果，我生成了100個大小為1,000的數(shù)據(jù)集。

library(mnormt)
RF=randomForest(Y~.,data=db)
plot(C,VI[1,],type="l",col="red")
lines(C,VI[2,],col="blue")
lines(C,VI[3,],col="purple")

?

頂部的紫色線是的可變重要性值??

，該值相當(dāng)穩(wěn)定（作為一階近似值，幾乎恒定）。紅線是的變量重要性函數(shù)，??

?藍(lán)線是的變量重要性函數(shù)??

。例如，具有兩個高度相關(guān)變量的重要性函數(shù)為

看起來??比其他兩個

?要??重要得多，但事實(shí)并非如此。只是模型無法在

?和??之間選擇??

：有時會??

?被選擇，有時會被選擇

。我想我發(fā)現(xiàn)圖形混亂，因?yàn)槲铱赡軙氲降??重要性?的??

?恒定?？紤]到其他變量的存在，我們已經(jīng)掌握了每個變量的重要性。

實(shí)際上，我想到的是當(dāng)我們考慮逐步過程時以及從集合中刪除每個變量時得到的結(jié)果，

apply(IMP,1,mean)}

在這里，如果我們使用與以前相同的代碼，

我們得到以下圖

plot(C,VI[2,],type="l",col="red")
lines(C,VI2[3,],col="blue")
lines(C,VI2[4,],col="purple")

刪除時會顯示紫線??

?：這是最差的模型。我們保持

?和時??

，我們得到了藍(lán)線。而且這條線是恒定的：并不取決于??

?（這在上一張圖中，有??

?確實(shí)會對

重要性產(chǎn)生影響）。紅線是移除后得到的??

。關(guān)聯(lián)為0時，它與紫色線相同，因此模型很差。關(guān)聯(lián)度接近1時，與具有相同??

，并且與藍(lán)線相同。

然而，當(dāng)我們擁有很多相關(guān)特征時，討論特征的重要性并不是那么直觀。

?

標(biāo)簽：

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性

本文作者的其他文章

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性的評論 (共條)