R中使用Dplyr重命名以及一個老套的回歸模型


同樣來自哥大的工程課程machine learning,這是一堂由IBM的首席研究員講授的機器學(xué)習(xí)課程。
頭圖是諧音爛梗,2017年學(xué)校附近的小破電影院重映了Emma Watson的 Regression(中文叫做回溯迷蹤,電影老套又平庸),我們這次使用的模型也叫做Regression。。。
背景:研究即將接受根治性前列腺切除術(shù)的男性前列腺特異性抗原水平與一些臨床指標(biāo)之間的相關(guān)性 (拜托,這種數(shù)據(jù)超硬核的好不好)。
該數(shù)據(jù)集來自斯坦福大學(xué)的Stamey et al. (1989)
data:?
https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data
description?
https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt
變量包括對數(shù)癌癥體積(lcavol)、對數(shù)前列腺重量(lweight)、年齡、良性前列腺增生量(lbph)、精囊浸潤(svi)、包膜穿透率(lcp)、Gleason評分(Gleason)和Gleason分?jǐn)?shù)4或5的百分比(pgg45)。(注意:svi是一個二元變量,gleason是一個有序分類變量)
現(xiàn)在讓我們擴充第2到9列的數(shù)據(jù),因為第一列是觀測ID沒啥意義,第10列是“訓(xùn)練集”標(biāo)識也沒啥意義。我們現(xiàn)在需要將數(shù)據(jù)進行組合,以生成合格的訓(xùn)練和測試數(shù)據(jù)集。
要小心,因為R的Dply包中的重命名函數(shù)很容易出錯。我們需要給組合的列9一個名稱,使其成為我們的因變量。當(dāng)我們將數(shù)據(jù)集組合為data frame這一格式時,名稱“V9”自動分配給第9列,這還挺方便。

如果我們跳過函數(shù)“as.data.frame”,則列9沒有名稱(null),Dply的重命名函數(shù)將崩潰。后續(xù)就是老套的回歸訓(xùn)練啦,這里不做展開。