R語言區(qū)間數(shù)據(jù)回歸分析
原文鏈接http://tecdat.cn/?p=14850
?
回歸分析是一種十分常見的數(shù)據(jù)分析方法,通過觀測數(shù)據(jù)確定變量間的相互關(guān)系.傳統(tǒng)回歸分析以點(diǎn)數(shù)據(jù)為研究對象,預(yù)測結(jié)果也是點(diǎn)數(shù)據(jù),而真實(shí)數(shù)據(jù)往往在一定范圍內(nèi)變動的.基于置信度可以形成置信區(qū)間,一定程度彌補(bǔ)了預(yù)測值為單點(diǎn)的不足,但將點(diǎn)數(shù)據(jù)作為研究對象,以點(diǎn)帶表某范圍內(nèi)的所有數(shù)據(jù),往往存在信息丟失的問題.
區(qū)間回歸分析是一種以區(qū)間數(shù)為研究對象的數(shù)據(jù)分析方法.區(qū)間數(shù)能反映出數(shù)據(jù)的變動范圍,更符合現(xiàn)實(shí)情況.區(qū)間型符號數(shù)據(jù)是區(qū)間數(shù)的一種,通過"數(shù)據(jù)打包"形成,因此除具有區(qū)間端點(diǎn)信息外,還具有區(qū)間內(nèi)部散點(diǎn)信息.
本文將做一個簡短的解釋說明如何使用R在有區(qū)間的情況下提取上下限值。讓我們從生成數(shù)據(jù)開始,
X=rnorm(n)
Y=2+X+rnorm(n,sd = .3)
?假設(shè)現(xiàn)在我們不再觀察變量x,而只是觀察一個類(我們將創(chuàng)建八個類,每個類有八分之一的觀察值)
Q=quantile(x = X,(0:8)/8)
Q[1]=Q[1]-.00001
Xcut=cut(X,breaks = Q)
?例如,對于第一個值,我們有
as.character(Xcut[1])
[1] "(-0.626,-0.348]"
?要提取有關(guān)這些邊界的信息,我們可以使用下面的小代碼,該代碼返回區(qū)間的下限,上限和中值
lower = c(lower1,lower2)
lower=lower[!is.na(lower)]
upper = c(upper1,upper2)
upper=upper[!is.na(upper)]
mid = (lower+upper)/2
return(c(lower=lower,mid=mid,upper=upper)
extrai(Xcut[1])
lower mid upper
-0.626 -0.487 -0.348
?可以看到,我們可以在數(shù)據(jù)庫中創(chuàng)建三個變量(具有下限,上限和中值信息)
B$lower=B2[1,]
B$mid =B2[2,]
B$upper=B2[3,]
?我們可以比較4個回歸(i)我們對8個類別進(jìn)行回歸,即我們的8個因子(ii)我們對區(qū)間的下限進(jìn)行回歸,(iii)對區(qū)間的“平均值”值進(jìn)行回歸(iv)對上限
regF=lm(Y~X,data=B)
regL=lm(Y~lower,data=B)
regM=lm(Y~mid,data=B)
regU=lm(Y~upper,data=B)
?我們可以將預(yù)測與我們的四個模型進(jìn)行比較
??

?
更進(jìn)一步,我們還可以比較模型的AIC,
AIC(regF)
[1] 204.5653
AIC(regM)
[1] 201.1201
AIC(regL)
[1] 266.5246
AIC(regU)
[1] 255.0687
?
如果下限和上限值的使用不是確定性的,則在此處應(yīng)注意,使用區(qū)間的平均值會比使用8個因子略好。

參考文獻(xiàn)
1.用SPSS估計(jì)HLM層次線性模型模型
2.R語言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)
3.基于R語言的lmer混合線性回歸模型
4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
5.在r語言中使用GAM(廣義相加模型)進(jìn)行電力負(fù)荷時間序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM
7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化
8.R語言用線性回歸模型預(yù)測空氣質(zhì)量臭氧數(shù)據(jù)
9.R語言分層線性模型案例