R語言隨機(jī)森林模型中具有相關(guān)特征的變量重要性
原文鏈接:http://tecdat.cn/?p=13546
?
變量重要性圖是查看模型中哪些變量有趣的好工具。由于我們通常在隨機(jī)森林中使用它,因此它看起來非常適合非常大的數(shù)據(jù)集。大型數(shù)據(jù)集的問題在于許多特征是“相關(guān)的”,在這種情況下,很難比較可變重要性圖的值的解釋。例如,考慮一個非常簡單的線性模型
在這里,我們使用一個隨機(jī)森林的特征之間的關(guān)系模型,但實(shí)際上,我們考慮另一個特點(diǎn)-不用于產(chǎn)生數(shù)據(jù)-?
,即相關(guān)??
。我們考慮這三個特征的隨機(jī)森林??
。
為了獲得更可靠的結(jié)果,我生成了100個大小為1,000的數(shù)據(jù)集。
library(mnormt)
RF=randomForest(Y~.,data=db)
plot(C,VI[1,],type="l",col="red")
lines(C,VI[2,],col="blue")
lines(C,VI[3,],col="purple")
?
頂部的紫色線是的可變重要性值??
,該值相當(dāng)穩(wěn)定(作為一階近似值,幾乎恒定)。紅線是的變量重要性函數(shù),??
?藍(lán)線是的變量重要性函數(shù)??
。例如,具有兩個高度相關(guān)變量的重要性函數(shù)為
看起來??比其他兩個
?要??重要得多,但事實(shí)并非如此。只是模型無法在
?和??之間選擇??
:有時會??
?被選擇,有時會被選擇
。我想我發(fā)現(xiàn)圖形混亂,因?yàn)槲铱赡軙氲降??重要性?的??
?恒定??紤]到其他變量的存在,我們已經(jīng)掌握了每個變量的重要性。
實(shí)際上,我想到的是當(dāng)我們考慮逐步過程時以及從集合中刪除每個變量時得到的結(jié)果,
apply(IMP,1,mean)}
在這里,如果我們使用與以前相同的代碼,
我們得到以下圖
plot(C,VI[2,],type="l",col="red")
lines(C,VI2[3,],col="blue")
lines(C,VI2[4,],col="purple")
刪除時會顯示紫線??
?:這是最差的模型。我們保持
?和時??
,我們得到了藍(lán)線。而且這條線是恒定的:并不取決于??
?(這在上一張圖中,有??
?確實(shí)會對
重要性產(chǎn)生影響)。紅線是移除后得到的??
。關(guān)聯(lián)為0時,它與紫色線相同,因此模型很差。關(guān)聯(lián)度接近1時,與具有相同??
,并且與藍(lán)線相同。
然而,當(dāng)我們擁有很多相關(guān)特征時,討論特征的重要性并不是那么直觀。
?