拓端tecdat|R語言實(shí)現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
原文鏈接:http://tecdat.cn/?p=22702
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
摘要
貝葉斯回歸分位數(shù)在最近的文獻(xiàn)中受到廣泛關(guān)注,本文實(shí)現(xiàn)了貝葉斯系數(shù)估計(jì)和回歸分位數(shù)(RQ)中的變量選擇,帶有l(wèi)asso和自適應(yīng)lasso懲罰的貝葉斯。還包括總結(jié)結(jié)果、繪制路徑圖、后驗(yàn)直方圖、自相關(guān)圖和繪制分位數(shù)圖的進(jìn)一步建模功能。
簡介
回歸分位數(shù)(RQ)由(Koenker和Gilbert,1978)提出,將感興趣的結(jié)果的條件分位數(shù)作為預(yù)測(cè)因子的函數(shù)來建模。自引入以來,分位數(shù)回歸一直是理論界非常關(guān)注的話題,也在許多研究領(lǐng)域得到了大量的應(yīng)用,如計(jì)量經(jīng)濟(jì)學(xué)、市場(chǎng)營銷、醫(yī)學(xué)、生態(tài)學(xué)和生存分析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。假設(shè)我們有一個(gè)觀察樣本{(xi , yi);i = 1, 2, - -, n},其中yi表示因變量,xi表示協(xié)變量的k維矢量。?
貝葉斯分位數(shù)回歸
Tobit RQ為描述非負(fù)因變量和協(xié)變量向量之間的關(guān)系提供了一種方法,可以被表述為因變量的數(shù)據(jù)未被完全觀察到的分位數(shù)回歸模型。關(guān)于Tobit 分位數(shù)回歸模型有相當(dāng)多的文獻(xiàn),我們可以參考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)來了解概況??紤]一下這個(gè)模型。

其中,yi是觀察到的因變量,y?i是相應(yīng)的潛在的未觀察到的因變量,y 0是一個(gè)已知的點(diǎn)??梢宰C明,RQ系數(shù)向量β可以通過以下最小化問題的解來持續(xù)估計(jì)

Yu和Stander(2007)提出了一種Tobit RQ的貝葉斯方法,使用ALD計(jì)算誤差,并使用Metropolis-Hastings(MH)方法從其后驗(yàn)分布中抽取β。
真實(shí)數(shù)據(jù)實(shí)例
我們考慮用真實(shí)的數(shù)據(jù)例子。
免疫球蛋白G數(shù)據(jù)
這個(gè)數(shù)據(jù)集包括298名6個(gè)月到6歲兒童的免疫球蛋白G的血清濃度(克/升),Isaacs等人(1983)對(duì)其進(jìn)行了詳細(xì)討論,Yu等人(2003)也使用了該數(shù)據(jù)集。為了說明問題,該數(shù)據(jù)集的貝葉斯分位數(shù)回歸模型(可以擬合如下)。?
rq(血清濃度~年齡, tau=0.5, runs=2000)
摘要函數(shù)提供估計(jì)值和95%的置信區(qū)間
?

繪制數(shù)據(jù),然后將五條擬合的RQ線疊加在散點(diǎn)圖上。?
R> for (i in 1:5) {
+ taus=c(0.05, 0.25, 0.5, 0.75, 0.95)
+ rq(tau=taus[i],runs=500, burn=100)
+ abline(fit, col=i)
+ }
R>
R> for (i in 1:5) {
+ fit = rq(年齡+I(年齡^2),tau=taus[i],runs=500, burn=100)
+ curve(,add=TRUE)
+ }

圖2:免疫球蛋白G數(shù)據(jù)的散點(diǎn)圖和RQ擬合。
該圖顯示了298名6個(gè)月至6歲兒童的免疫球蛋白G的散點(diǎn)圖。疊加在該圖上的是{.05, .25, .50, .75, .95}的RQ線(左圖)和 RQ線(左圖)和RQ曲線(右圖)。
圖可以用來評(píng)估吉布斯采樣向平穩(wěn)分布的收斂情況。我們?cè)趫D1中只報(bào)告了τ=0.50時(shí)每個(gè)參數(shù)的路徑圖和后驗(yàn)直方圖。我們使用以下代碼
plot(fit,"tracehist",D=c(1,2))
可以通過生成路徑圖、后驗(yàn)直方圖、自相關(guān)圖來對(duì)Gibbs采樣的繪制結(jié)果進(jìn)行圖形總結(jié)。路徑和直方圖,路徑和自相關(guān),直方圖和自相關(guān),以及路徑、直方圖和自相關(guān)。這個(gè)函數(shù)還有一個(gè)選項(xiàng)。在圖3中,免疫球蛋白G數(shù)據(jù)系數(shù)的路徑圖表明,采樣從后驗(yàn)空間的一個(gè)偏遠(yuǎn)區(qū)域跳到另一個(gè)區(qū)域的步驟相對(duì)較少。此外,直方圖顯示邊際密度實(shí)際上是所期望的平穩(wěn)的單變量常態(tài)。

圖3:當(dāng)τ=0.50時(shí),免疫球蛋白G數(shù)據(jù)集的系數(shù)的路徑和密度圖。
前列腺癌數(shù)據(jù)
在本小節(jié)中,我們說明貝葉斯分位數(shù)回歸在前列腺癌數(shù)據(jù)集(Stamey等人,1989)上的表現(xiàn)。該數(shù)據(jù)集調(diào)查了等待根治性前列腺切除術(shù)的病人的前列腺特異性抗原(lpsa)水平和八個(gè)協(xié)變量之間的關(guān)系。
這些協(xié)變量是:癌癥對(duì)數(shù)體積(lcavol)、前列腺的對(duì)數(shù)重量(lweight)、年齡(age)、良性前列腺的對(duì)數(shù)體積(lbph)、精囊侵犯(svi)、膠囊穿透的對(duì)數(shù)(lcp)、格里森評(píng)分(gleason)以及格里森評(píng)分4或5的百分比(pgg45)。
在本小節(jié)中,我們假設(shè)因變量(lpsa)均值為零,而預(yù)測(cè)因子已被標(biāo)準(zhǔn)化,均值為零。為了說明問題,我們考慮當(dāng)τ=0.50時(shí),貝葉斯lasso套索RQ(方法="BLqr")。在這種情況下,我們使用以下代碼
R> x=as.matrix(x)
R> rq(y~x,tau = 0.5, method="BLqr", runs = 5000, burn = 1000, thin = 1)

模型法可用于確定回歸中的活躍變量。?

相應(yīng)的吉布斯采樣的收斂性是通過生成樣本的路徑圖和邊際后驗(yàn)直方圖評(píng)估的。因此,圖可以用來提供一個(gè)關(guān)于吉布斯采樣器收斂的圖形檢查,通過使用以下代碼檢查路徑圖和邊際后驗(yàn)直方圖。
?
plot(fit, type="trace")
上述代碼的結(jié)果分別顯示在圖4和圖5中。圖4中的路徑圖顯示,生成的樣本迅速穿越了后驗(yàn)空間,圖5中的邊際后驗(yàn)直方圖顯示,條件后驗(yàn)分布實(shí)際上是所需的平穩(wěn)單變量常態(tài)。?


小麥數(shù)據(jù)
我們考慮一個(gè)小麥數(shù)據(jù)集。這個(gè)數(shù)據(jù)集來自于國家小麥種植發(fā)展計(jì)劃(2017)。這個(gè)小麥數(shù)據(jù)由11個(gè)變量的584個(gè)觀測(cè)值組成。因變量是每2500平方米小麥產(chǎn)量增加的百分比。協(xié)變量是化肥尿素(U)、小麥種子播種日期(Ds)、小麥種子播種量(Qs)、激光平田技術(shù)(LT)、復(fù)合肥施肥(NPK)、播種機(jī)技術(shù)(SMT)、綠豆作物種植(SC)、作物除草劑(H)、作物高鉀肥(K)、微量元素肥料(ME)。
下面的命令給出了τ=0.50時(shí)Tobit RQ的后驗(yàn)分布。
rq(y~x,tau=0.5, methods="Btqr")

?還可以擬合貝葉斯lassoTobit 分位數(shù)回歸和貝葉斯自適應(yīng)lassoTobit 分位數(shù)回歸。當(dāng)τ=0.50時(shí),函數(shù)可以用來獲得Tobit 分位數(shù)回歸的后驗(yàn)平均值和95%的置信區(qū)間。?

結(jié)論
在本文中,我們已經(jīng)說明了在分位數(shù)回歸(RQ)中進(jìn)行貝葉斯系數(shù)估計(jì)和變量選擇。此外,本文還實(shí)現(xiàn)了帶有l(wèi)asso和自適應(yīng)lasso懲罰的貝葉斯Tobit 分位數(shù)回歸。還包括總結(jié)結(jié)果、繪制路徑圖、后驗(yàn)直方圖、自相關(guān)圖和繪制定量圖的進(jìn)一步建模。
參考文獻(xiàn)
Alhamzawi, R., K. Yu, and D. F. Benoit (2012). Bayesian adaptive lasso quantile regression. Statistical Modelling 12 (3), 279–297.
Brownlee, K. A. (1965). Statistical theory and methodology in science and engineering, Volume 150. Wiley New York.
Davino, C., M. Furno, and D. Vistocco (2013). Quantile regression: theory and applications. John Wiley & Sons.

最受歡迎的見解
1.matlab使用貝葉斯優(yōu)化的深度學(xué)習(xí)
2.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)
3.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真
4.R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
5.R語言中的Stan概率編程MCMC采樣的貝葉斯模型
6.Python用PyMC3實(shí)現(xiàn)貝葉斯線性回歸模型
7.R語言使用貝葉斯 層次模型進(jìn)行空間數(shù)據(jù)分析
8.R語言隨機(jī)搜索變量選擇SSVS估計(jì)貝葉斯向量自回歸(BVAR)模型
9.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)