群組變量選擇、組懲罰group lasso套索模型預(yù)測新生兒出生體重風(fēng)險因素數(shù)據(jù)和交叉驗證
原文鏈接:http://tecdat.cn/?p=25158
最近我們被客戶要求撰寫關(guān)于lasso的研究報告,包括一些圖形和統(tǒng)計輸出。
本文介紹具有分組懲罰的線性回歸、GLM和Cox回歸模型的正則化路徑。這包括組選擇方法,如組lasso套索、組MCP和組SCAD,以及雙級選擇方法,如組指數(shù)lasso、組MCP
還提供了進(jìn)行交叉驗證以及擬合后可視化、總結(jié)和預(yù)測的實用程序。
本文提供了一些數(shù)據(jù)集的例子;涉及識別與低出生體重有關(guān)的風(fēng)險因素 。結(jié)果是連續(xù)測量(bwt,以公斤為單位的出生體重),也可以是二分法(低),即新生兒出生體重低(低于2.5公斤)。
head(X)

相關(guān)視頻
**
拓端
,贊7
原始設(shè)計矩陣由 8 個變量組成,此處已將其擴(kuò)展為 16 個特征。例如,有多個種族指標(biāo)函數(shù)(“其他”是參考組),并且已經(jīng)使用多項式對比擴(kuò)展了幾個連續(xù)因素(例如年齡)(樣條曲線會給出類似的結(jié)構(gòu))。因此,設(shè)計矩陣的列被?分組;這就是_組_的設(shè)計目的。分組信息編碼如下:
group

在這里,組是作為一個因子給出的;唯一的整數(shù)代碼(本質(zhì)上是無標(biāo)簽的因子)和字符向量也是允許的(然而,字符向量確實有一些限制,因為組的順序沒有被指定)。要對這個數(shù)據(jù)擬合一個組套索lasso模型。
gLas(X,?y,grup)
然后我們可以用以下方法繪制系數(shù)路徑
plot

點擊標(biāo)題查閱往期內(nèi)容

R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析

左右滑動查看更多

01

02

03

04

請注意,當(dāng)一個組進(jìn)入模型時(例如,綠色組),它的所有系數(shù)都變成非零;這就是組套索模型的情況。要想知道這些系數(shù)是什么,我們可以使用coef。
請注意,在λ=0.05時,醫(yī)生的就診次數(shù)不包括在模型中。
為了推斷模型在各種 λ值下的預(yù)測準(zhǔn)確性,進(jìn)行交叉驗證。
cv(X,?y,?grp)

可以通過coef
以下方式獲得與最小化交叉驗證誤差的 λ?值對應(yīng)的系數(shù)?:
coef(cvfit)

預(yù)測值可以通過 獲得?predict
,它有許多選項:
predict?#?對新觀察結(jié)果的預(yù)測

predicttype="ngroups"?#?非零組的數(shù)量

?#?非零組的身份

nvars?#?非零系數(shù)的數(shù)量

predict(fit?#?非零系數(shù)的身份

原始擬合(對完整數(shù)據(jù)集)返回為fit
; 其他幾種懲罰是可用的,邏輯回歸和 Cox 比例風(fēng)險回歸的方法也是如此。


本文摘選?《?R語言群組變量選擇、組懲罰group lasso套索模型預(yù)測分析新生兒出生體重風(fēng)險因素數(shù)據(jù)和交叉驗證、可視化?》?,點擊“閱讀原文”獲取全文完整資料。
點擊標(biāo)題查閱往期內(nèi)容
【視頻】Lasso回歸、嶺回歸等正則化回歸數(shù)學(xué)原理及R語言實例R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預(yù)測模型
用LASSO,adaptive LASSO預(yù)測通貨膨脹時間序列MATLAB用Lasso回歸擬合高維數(shù)據(jù)和交叉驗證
群組變量選擇、組懲罰group lasso套索模型預(yù)測新生兒出生體重風(fēng)險因素數(shù)據(jù)和交叉驗證、可視化
高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)
Python高維變量選擇:SCAD平滑剪切絕對偏差懲罰、Lasso懲罰函數(shù)比較
R使用LASSO回歸預(yù)測股票收益
廣義線性模型glm泊松回歸的lasso、彈性網(wǎng)絡(luò)分類預(yù)測學(xué)生考試成績數(shù)據(jù)和交叉驗證
貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析免疫球蛋白、前列腺癌數(shù)據(jù)
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構(gòu)建貝葉斯線性回歸模型分析職業(yè)聲望數(shù)據(jù)
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
R語言高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)(含練習(xí)題)
廣義線性模型glm泊松回歸的lasso、彈性網(wǎng)絡(luò)分類預(yù)測學(xué)生考試成績數(shù)據(jù)和交叉驗證
貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析免疫球蛋白、前列腺癌數(shù)據(jù)
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構(gòu)建貝葉斯線性回歸模型分析職業(yè)聲望數(shù)據(jù)
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
R語言高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)(含練習(xí)題)
Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數(shù)據(jù)實例
R語言自適應(yīng)LASSO 多項式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
R語言實現(xiàn)LASSO回歸——自己編寫LASSO回歸算法
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
R使用LASSO回歸預(yù)測股票收益
R語言如何和何時使用glmnet嶺回歸
R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
Python中的ARIMA模型、SARIMA模型和SARIMAX模型對時間序列預(yù)測
R語言arima,向量自回歸(VAR),周期自回歸(PAR)模型分析溫度時間序列
【視頻】Python和R語言使用指數(shù)加權(quán)平均(EWMA),ARIMA自回歸移動平均模型預(yù)測時間序列
Python用ARIMA和SARIMA模型預(yù)測銷量時間序列數(shù)據(jù)