R語言缺失數(shù)據(jù)變量選擇LASSO回歸:Bootstrap重(再)抽樣插補(bǔ)和推算
全文鏈接:http://tecdat.cn/?p=30726
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
在存在缺失數(shù)據(jù)的情況下,需要根據(jù)缺失數(shù)據(jù)的機(jī)制和用于處理缺失數(shù)據(jù)的統(tǒng)計(jì)方法定制變量選擇方法。我們專注于可以與插補(bǔ)相結(jié)合的隨機(jī)和變量選擇方法的缺失方法。
我們圍繞自舉Bootstrap插補(bǔ)和穩(wěn)定性選擇技術(shù)進(jìn)行一些咨詢,幫助客戶解決獨(dú)特的業(yè)務(wù)問題,后者是為完全觀察的數(shù)據(jù)而開發(fā)的。所提出的方法是通用的,可以應(yīng)用于廣泛的設(shè)置。仿真研究表明,與幾種針對(duì)低維和高維問題的現(xiàn)有方法相比,BI-SS的性能是最好的或接近最好的,并且對(duì)變量選擇方面的參數(shù)值調(diào)整相對(duì)不敏感。
引言
變量選擇已經(jīng)廣泛研究了完全觀察到的數(shù)據(jù),現(xiàn)有方法包括基于AIC的經(jīng)典方法(Akaike,1974)和現(xiàn)代正則化方法,如套索(Tibshirani,1996)。與完全觀測的數(shù)據(jù)相比,在存在缺失數(shù)據(jù)的情況下,變量選擇出現(xiàn)了新的挑戰(zhàn)。特別是,存在不同的缺失數(shù)據(jù)機(jī)制,對(duì)于每種機(jī)制,都有不同的統(tǒng)計(jì)方法來處理缺失數(shù)據(jù)。因此,變量選擇方法需要根據(jù)缺失的數(shù)據(jù)機(jī)制和所使用的統(tǒng)計(jì)方法進(jìn)行調(diào)整。Little和Rubin(2002)和Tsiatis(2006)一起對(duì)處理缺失數(shù)據(jù)的現(xiàn)有統(tǒng)計(jì)方法進(jìn)行了全面回顧。
本文重點(diǎn)研究了隨機(jī)缺失(MAR)的機(jī)制。根據(jù)MAR研究了變量選擇,并對(duì)用于處理缺失數(shù)據(jù)的統(tǒng)計(jì)方法進(jìn)行了研究。
### 具有非正態(tài)變量的示例數(shù)據(jù)集set.seed(1000)n <- 50
x1 <- round(runif(n,0.5,3.5))x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))
Bootstrap插補(bǔ)
隨機(jī)創(chuàng)建缺失值
dat <- mice(data1)complete(dat)
穩(wěn)定性選擇與自舉插補(bǔ)相結(jié)合
train <- data[trainindex,1:6]calibrate <- data[-trainindex,1:6]plot(train)
Bootstrap插補(bǔ)
套索LASSO回歸
lambda的最優(yōu)值是通過交叉驗(yàn)證選擇的。
Bolasso與自舉插補(bǔ)相結(jié)合
beta.rescaled <- betafor(j in 1:nrow(beta.rescaled)){ ?beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale
計(jì)算RSS
討論
本文研究了一種在缺少數(shù)據(jù)的情況下進(jìn)行變量選擇的通用重采樣方法,數(shù)值結(jié)果表明,對(duì)低維和高維問題都具有較好的性能。當(dāng)專注于回歸分析時(shí),所提出的方法可以解讀為適用于其他類型的分析。在我們感興趣的背景下,將標(biāo)準(zhǔn)誤差處理為參數(shù)估計(jì)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。一種方法是將現(xiàn)有的獲取標(biāo)準(zhǔn)誤差的方法應(yīng)用于僅限于變量選擇過程選擇的預(yù)測器的原始數(shù)據(jù)。
最受歡迎的見解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實(shí)例
4.R語言實(shí)現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸
5.使用LASSO回歸預(yù)測股票收益數(shù)據(jù)分析
6.r語言中對(duì)lasso回歸,ridge嶺回歸和elastic-net模型
7.r語言中的偏最小二乘回歸pls-da數(shù)據(jù)分析
8.R語言用主成分PCA、?邏輯回歸、決策樹、隨機(jī)森林分析心臟病數(shù)據(jù)并高維可視化
9.R語言主成分分析(PCA)葡萄酒可視化:主成分得分散點(diǎn)圖和載荷圖