決策樹模型--回歸樹和模型樹在wine數(shù)據(jù)上的簡(jiǎn)單應(yīng)用


與傳統(tǒng)的回歸相比,決策樹可能更適合于具有許多特征或特征和結(jié)果之間存在許多復(fù)雜非線性關(guān)系的任務(wù)。
這些情況給回歸模型的工作思路帶來了挑戰(zhàn),而且回歸建模還對(duì)數(shù)據(jù)的分布方式進(jìn)行了假設(shè),這些假設(shè)在現(xiàn)實(shí)世界的數(shù)據(jù)中經(jīng)常被挑戰(zhàn)。樹模型的情況往往并非如此。
用于數(shù)字預(yù)測(cè)的樹分為兩類。
第一種被稱為回歸樹,是在20世紀(jì)80年代作為開創(chuàng)性的分類和回歸樹(CART)算法的一部分引入的。盡管有這個(gè)名字,回歸樹并不使用線性回歸方法,而是根據(jù)預(yù)測(cè)結(jié)果的“每一片葉子”平均值進(jìn)行工作。
用于數(shù)值預(yù)測(cè)的第二類樹被稱為模型樹。它們比回歸樹晚幾年推出,雖然鮮為人知,但可能更強(qiáng)大。模型樹的生長(zhǎng)方式與回歸樹大致相同,但在每一片葉子上,都會(huì)根據(jù)到達(dá)該節(jié)點(diǎn)的示例構(gòu)建一個(gè)多元線性回歸模型。根據(jù)葉節(jié)點(diǎn)的數(shù)量,模型樹可以構(gòu)建數(shù)十個(gè)甚至數(shù)百個(gè)這樣的模型。這可能會(huì)使模型樹比等效的回歸樹更難理解,其好處是可以產(chǎn)生更準(zhǔn)確的模型。
這里我們來簡(jiǎn)單探索一些回歸樹和模型樹的模型。





現(xiàn)在我們使用RWeka包中的M5P函數(shù)來構(gòu)建模型樹。如果您首先使用的是MAC,需要先安裝 JDK、rJava和RWekajars,然后才能安裝RWeka。RWeka在OS X上的R有很多問題。最終還是使用了Cubist軟件包。

本文使用 文章同步助手 同步