【R語(yǔ)言】如何用R語(yǔ)言構(gòu)建決策樹模型?
?首發(fā)于公眾號(hào)
要用R語(yǔ)言構(gòu)建決策樹模型,可以使用rpart包。下面是使用內(nèi)置的肝炎數(shù)據(jù)集 hepatitis為例用rpart包構(gòu)建決策樹模型的步驟:
加載數(shù)據(jù)集hepatitis

2. 數(shù)據(jù)預(yù)處理
hepatitis數(shù)據(jù)集中有一些缺失值,需要進(jìn)行處理。這里采用的方法是使用平均值填充缺失值。

3. 分割數(shù)據(jù)集
將數(shù)據(jù)集分成兩個(gè)部分,一個(gè)用于訓(xùn)練模型,一個(gè)用于測(cè)試模型。這里將80%的數(shù)據(jù)用于訓(xùn)練模型,剩下的20%用于測(cè)試模型。

4. 構(gòu)建模型
使用rpart包的rpart()函數(shù)構(gòu)建決策樹模型。參數(shù)formula用于指定模型公式,data用于指定訓(xùn)練數(shù)據(jù)集。

5. 可視化決策樹
使用plot()函數(shù)可視化構(gòu)建好的決策樹。

6. 模型評(píng)估
使用測(cè)試數(shù)據(jù)集test評(píng)估模型的準(zhǔn)確性。

最后的輸出結(jié)果類似于:

其中,準(zhǔn)確度為0.45,前面的混淆矩陣也展示了預(yù)測(cè)的真假情況。
完整代碼如下:

注:在實(shí)際使用中,需要根據(jù)數(shù)據(jù)集的特點(diǎn)調(diào)整代碼中的參數(shù)和函數(shù)。
希望對(duì)你有所幫助!
我是一個(gè)醫(yī)學(xué)出身的科研論文up主
畢業(yè)于國(guó)內(nèi)某985醫(yī)學(xué)院,擅長(zhǎng)臨床數(shù)據(jù)的分析及繪圖
曾多次參與國(guó)自然面上項(xiàng)目
擅長(zhǎng)統(tǒng)計(jì)分析、Excel、R語(yǔ)言、繪圖與修圖、Endnote文獻(xiàn)管理及ppt制作等
希望能夠幫助正在忙于畢業(yè)被論文和繪圖折磨的焦頭爛額的你