R語言缺失數(shù)據(jù)變量選擇LASSO回歸:Bootstrap重(再)抽樣插補和推算
全文鏈接:http://tecdat.cn/?p=30726
原文出處:拓端數(shù)據(jù)部落公眾號
在存在缺失數(shù)據(jù)的情況下,需要根據(jù)缺失數(shù)據(jù)的機制和用于處理缺失數(shù)據(jù)的統(tǒng)計方法定制變量選擇方法。我們專注于可以與插補相結(jié)合的隨機和變量選擇方法的缺失方法。
我們圍繞自舉Bootstrap插補和穩(wěn)定性選擇技術(shù)進行一些咨詢,幫助客戶解決獨特的業(yè)務(wù)問題,后者是為完全觀察的數(shù)據(jù)而開發(fā)的。所提出的方法是通用的,可以應用于廣泛的設(shè)置。仿真研究表明,與幾種針對低維和高維問題的現(xiàn)有方法相比,BI-SS的性能是最好的或接近最好的,并且對變量選擇方面的參數(shù)值調(diào)整相對不敏感。
引言
變量選擇已經(jīng)廣泛研究了完全觀察到的數(shù)據(jù),現(xiàn)有方法包括基于AIC的經(jīng)典方法(Akaike,1974)和現(xiàn)代正則化方法,如套索(Tibshirani,1996)。與完全觀測的數(shù)據(jù)相比,在存在缺失數(shù)據(jù)的情況下,變量選擇出現(xiàn)了新的挑戰(zhàn)。特別是,存在不同的缺失數(shù)據(jù)機制,對于每種機制,都有不同的統(tǒng)計方法來處理缺失數(shù)據(jù)。因此,變量選擇方法需要根據(jù)缺失的數(shù)據(jù)機制和所使用的統(tǒng)計方法進行調(diào)整。Little和Rubin(2002)和Tsiatis(2006)一起對處理缺失數(shù)據(jù)的現(xiàn)有統(tǒng)計方法進行了全面回顧。
本文重點研究了隨機缺失(MAR)的機制。根據(jù)MAR研究了變量選擇,并對用于處理缺失數(shù)據(jù)的統(tǒng)計方法進行了研究。
### 具有非正態(tài)變量的示例數(shù)據(jù)集set.seed(1000)n <- 50
x1 <- round(runif(n,0.5,3.5))x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))
Bootstrap插補
隨機創(chuàng)建缺失值
dat <- mice(data1)complete(dat)
穩(wěn)定性選擇與自舉插補相結(jié)合
train <- data[trainindex,1:6]calibrate <- data[-trainindex,1:6]plot(train)
Bootstrap插補
套索LASSO回歸
lambda的最優(yōu)值是通過交叉驗證選擇的。

Bolasso與自舉插補相結(jié)合

beta.rescaled <- betafor(j in 1:nrow(beta.rescaled)){ ?beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale

計算RSS

討論
本文研究了一種在缺少數(shù)據(jù)的情況下進行變量選擇的通用重采樣方法,數(shù)值結(jié)果表明,對低維和高維問題都具有較好的性能。當專注于回歸分析時,所提出的方法可以解讀為適用于其他類型的分析。在我們感興趣的背景下,將標準誤差處理為參數(shù)估計是一項具有挑戰(zhàn)性的任務(wù)。一種方法是將現(xiàn)有的獲取標準誤差的方法應用于僅限于變量選擇過程選擇的預測器的原始數(shù)據(jù)。

最受歡迎的見解
1.matlab偏最小二乘回歸(PLSR)和主成分回歸(PCR)
2.R語言高維數(shù)據(jù)的主成分pca、 t-SNE算法降維與可視化分析
3.主成分分析(PCA)基本原理及分析實例
4.R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應lasso貝葉斯分位數(shù)回歸
5.使用LASSO回歸預測股票收益數(shù)據(jù)分析
6.r語言中對lasso回歸,ridge嶺回歸和elastic-net模型
7.r語言中的偏最小二乘回歸pls-da數(shù)據(jù)分析
8.R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數(shù)據(jù)并高維可視化
9.R語言主成分分析(PCA)葡萄酒可視化:主成分得分散點圖和載荷圖