拓端tecdat|R語言群組變量選擇、組懲罰group lasso套索模型預(yù)測分析新生兒出生體重風(fēng)
?原文鏈接:http://tecdat.cn/?p=25158
原文出處:拓端數(shù)據(jù)部落公眾號
?本文擬合具有分組懲罰的線性回歸、GLM和Cox回歸模型的正則化路徑。這包括組選擇方法,如組lasso套索、組MCP和組SCAD,以及雙級選擇方法,如組指數(shù)lasso、組MCP。還提供了進(jìn)行交叉驗(yàn)證以及擬合后可視化、總結(jié)和預(yù)測的實(shí)用程序。
本文提供了一些數(shù)據(jù)集的例子;涉及識別與低出生體重有關(guān)的風(fēng)險因素。結(jié)果是連續(xù)測量(bwt,以公斤為單位的出生體重),也可以是二分法(低),即新生兒出生體重低(低于2.5公斤)。?
head(X)

原始設(shè)計(jì)矩陣由 8 個變量組成,此處已將其擴(kuò)展為 16 個特征。例如,有多個種族指標(biāo)函數(shù)(“其他”是參考組),并且已經(jīng)使用多項(xiàng)式對比擴(kuò)展了幾個連續(xù)因素(例如年齡)(樣條曲線會給出類似的結(jié)構(gòu))。因此,設(shè)計(jì)矩陣的列被?分組;這就是組的設(shè)計(jì)目的。分組信息編碼如下:
group

在這里,組是作為一個因子給出的;唯一的整數(shù)代碼(本質(zhì)上是無標(biāo)簽的因子)和字符向量也是允許的(然而,字符向量確實(shí)有一些限制,因?yàn)榻M的順序沒有被指定)。要對這個數(shù)據(jù)擬合一個組套索lasso模型。?
gLas(X, y,grup)
然后我們可以用以下方法繪制系數(shù)路徑?
plot

請注意,當(dāng)一個組進(jìn)入模型時(例如,綠色組),它的所有系數(shù)都變成非零;這就是組套索模型的情況。要想知道這些系數(shù)是什么,我們可以使用coef。
請注意,在λ=0.05時,醫(yī)生的就診次數(shù)不包括在模型中。
為了推斷模型在各種 λ值下的預(yù)測準(zhǔn)確性,進(jìn)行交叉驗(yàn)證。
cv(X, y, grp)

可以通過coef
以下方式獲得與最小化交叉驗(yàn)證誤差的 λ?值對應(yīng)的系數(shù)?:
coef(cvfit)

預(yù)測值可以通過 獲得?predict
,它有許多選項(xiàng):
predict # 對新觀察結(jié)果的預(yù)測

predicttype="ngroups" # 非零組的數(shù)量

# 非零組的身份

nvars # 非零系數(shù)的數(shù)量

predict(fit # 非零系數(shù)的身份

原始擬合(對完整數(shù)據(jù)集)返回為fit
; 其他幾種懲罰是可用的,邏輯回歸和 Cox 比例風(fēng)險回歸的方法也是如此。

最受歡迎的見解
1.R語言多元Logistic邏輯回歸 應(yīng)用案例
2.面板平滑轉(zhuǎn)移回歸(PSTR)分析案例實(shí)現(xiàn)
3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)
4.R語言泊松Poisson回歸模型分析案例
5.R語言回歸中的Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)
6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實(shí)現(xiàn)
7.在R語言中實(shí)現(xiàn)Logistic邏輯回歸
8.python用線性回歸預(yù)測股票價格
9.R語言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)