貝葉斯分位數(shù)回歸、lasso和自適應lasso貝葉斯分位數(shù)回歸分析免疫球蛋白、前列腺癌數(shù)據(jù)
原文鏈接:http://tecdat.cn/?p=22702
最近我們被客戶要求撰寫關于貝葉斯分位數(shù)回歸的研究報告,包括一些圖形和統(tǒng)計輸出。
貝葉斯回歸分位數(shù)在最近的文獻中受到廣泛關注,本文實現(xiàn)了貝葉斯系數(shù)估計和回歸分位數(shù)(RQ)中的變量選擇,帶有l(wèi)asso和自適應lasso懲罰的貝葉斯
摘要
還包括總結(jié)結(jié)果、繪制路徑圖、后驗直方圖、自相關圖和繪制分位數(shù)圖的進一步建模功能。
簡介
回歸分位數(shù)(RQ)由(Koenker和Gilbert,1978)提出,將感興趣的結(jié)果的條件分位數(shù)作為預測因子的函數(shù)來建模。自引入以來,分位數(shù)回歸一直是理論界非常關注的話題,也在許多研究領域得到了大量的應用,如計量經(jīng)濟學、市場營銷、醫(yī)學、生態(tài)學和生存分析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。假設我們有一個觀察樣本{(xi , yi);i = 1, 2, - -, n},其中yi表示因變量,xi表示協(xié)變量的k維矢量。
貝葉斯_分位數(shù)_回歸
Tobit RQ為描述非負因變量和協(xié)變量向量之間的關系提供了一種方法,可以被表述為因變量的數(shù)據(jù)未被完全觀察到的分位數(shù)回歸模型。關于Tobit 分位數(shù)回歸模型有相當多的文獻,我們可以參考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)來了解概況??紤]一下這個模型。

其中,yi是觀察到的因變量,y?i是相應的潛在的未觀察到的因變量,y 0是一個已知的點??梢宰C明,RQ系數(shù)向量β可以通過以下最小化問題的解來持續(xù)估計

Yu和Stander(2007)提出了一種Tobit RQ的貝葉斯方法,使用ALD計算誤差,并使用Metropolis-Hastings(MH)方法從其后驗分布中抽取β。
真實數(shù)據(jù)實例
我們考慮用真實的數(shù)據(jù)例子。
免疫球蛋白G數(shù)據(jù)
這個數(shù)據(jù)集包括298名6個月到6歲兒童的免疫球蛋白G的血清濃度(克/升),Isaacs等人(1983)對其進行了詳細討論,Yu等人(2003)也使用了該數(shù)據(jù)集。為了說明問題,該數(shù)據(jù)集的貝葉斯分位數(shù)回歸模型(可以擬合如下)。
rq(血清濃度~年齡,?tau=0.5)
摘要函數(shù)提供估計值和95%的置信區(qū)間

繪制數(shù)據(jù),然后將五條擬合的RQ線疊加在散點圖上。
R>?for?(i?in?1:5)?{
+?taus=c(0.05,?0.25,?0.5,?0.75,?0.95)
+?rq(tau=taus[i])
+?abline(fit,?col=i)
+?}
R>?
R>?for?(i?in?1:5)?{
+?fit?=?rq(年齡+I(年齡^2),tau=taus[i])
+?curve(,add=TRUE)
+?}

圖2:免疫球蛋白G數(shù)據(jù)的散點圖和RQ擬合。
點擊標題查閱往期內(nèi)容

matlab使用分位數(shù)隨機森林(QRF)回歸樹檢測異常值

左右滑動查看更多

01

02

03

04

該圖顯示了298名6個月至6歲兒童的免疫球蛋白G的散點圖。疊加在該圖上的是{.05, .25, .50, .75, .95}的RQ線(左圖)和 RQ線(左圖)和RQ曲線(右圖)。
圖可以用來評估吉布斯采樣向平穩(wěn)分布的收斂情況。我們在圖1中只報告了τ=0.50時每個參數(shù)的路徑圖和后驗直方圖。我們使用以下代碼
plot(fit,"tracehist",D=c(1,2))
可以通過生成路徑圖、后驗直方圖、自相關圖來對Gibbs采樣的繪制結(jié)果進行圖形總結(jié)。路徑和直方圖,路徑和自相關,直方圖和自相關,以及路徑、直方圖和自相關。這個函數(shù)還有一個選項。在圖3中,免疫球蛋白G數(shù)據(jù)系數(shù)的路徑圖表明,采樣從后驗空間的一個偏遠區(qū)域跳到另一個區(qū)域的步驟相對較少。此外,直方圖顯示邊際密度實際上是所期望的平穩(wěn)的單變量常態(tài)。

圖3:當τ=0.50時,免疫球蛋白G數(shù)據(jù)集的系數(shù)的路徑和密度圖。
前列腺癌數(shù)據(jù)
在本小節(jié)中,我們說明貝葉斯分位數(shù)回歸在前列腺癌數(shù)據(jù)集(Stamey等人,1989)上的表現(xiàn)。該數(shù)據(jù)集調(diào)查了等待根治性前列腺切除術的病人的前列腺特異性抗原(lpsa)水平和八個協(xié)變量之間的關系。
這些協(xié)變量是:癌癥對數(shù)體積(lcavol)、前列腺的對數(shù)重量(lweight)、年齡(age)、良性前列腺的對數(shù)體積(lbph)、精囊侵犯(svi)、膠囊穿透的對數(shù)(lcp)、格里森評分(gleason)以及格里森評分4或5的百分比(pgg45)。
在本小節(jié)中,我們假設因變量(lpsa)均值為零,而預測因子已被標準化,均值為零。為了說明問題,我們考慮當τ=0.50時,貝葉斯lasso套索RQ(方法="BLqr")。在這種情況下,我們使用以下代碼
R>?x=as.matrix(x)
R>?rq(y~x,tau?=?0.5,?method="BLqr")

模型法可用于確定回歸中的活躍變量。?

相應的吉布斯采樣的收斂性是通過生成樣本的路徑圖和邊際后驗直方圖評估的。因此,圖可以用來提供一個關于吉布斯采樣器收斂的圖形檢查,通過使用以下代碼檢查路徑圖和邊際后驗直方圖。
plot(fit,?type="trace")
上述代碼的結(jié)果分別顯示在圖4和圖5中。圖4中的路徑圖顯示,生成的樣本迅速穿越了后驗空間,圖5中的邊際后驗直方圖顯示,條件后驗分布實際上是所需的平穩(wěn)單變量常態(tài)。?


小麥數(shù)據(jù)
我們考慮一個小麥數(shù)據(jù)集。這個數(shù)據(jù)集來自于國家小麥種植發(fā)展計劃(2017)。這個小麥數(shù)據(jù)由11個變量的584個觀測值組成。因變量是每2500平方米小麥產(chǎn)量增加的百分比。協(xié)變量是化肥尿素(U)、小麥種子播種日期(Ds)、小麥種子播種量(Qs)、激光平田技術(LT)、復合肥施肥(NPK)、播種機技術(SMT)、綠豆作物種植(SC)、作物除草劑(H)、作物高鉀肥(K)、微量元素肥料(ME)。
下面的命令給出了τ=0.50時Tobit RQ的后驗分布。
rq(y~x,tau=0.5,?methods="Btqr")

還可以擬合貝葉斯lassoTobit 分位數(shù)回歸和貝葉斯自適應lassoTobit 分位數(shù)回歸。當τ=0.50時,函數(shù)可以用來獲得Tobit 分位數(shù)回歸的后驗平均值和95%的置信區(qū)間。?

結(jié)論
在本文中,我們已經(jīng)說明了在分位數(shù)回歸(RQ)中進行貝葉斯系數(shù)估計和變量選擇。此外,本文還實現(xiàn)了帶有l(wèi)asso和自適應lasso懲罰的貝葉斯Tobit 分位數(shù)回歸。還包括總結(jié)結(jié)果、繪制路徑圖、后驗直方圖、自相關圖和繪制定量圖的進一步建模。
參考文獻
Alhamzawi, R., K. Yu, and D. F. Benoit (2012). Bayesian adaptive lasso quantile regression. Statistical Modelling 12 (3), 279–297.
Brownlee, K. A. (1965). Statistical theory and methodology in science and engineering, Volume 150. Wiley New York.
Davino, C., M. Furno, and D. Vistocco (2013). Quantile regression: theory and applications. John Wiley & Sons.

本文摘選?《?R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應lasso貝葉斯分位數(shù)回歸分析?》?,點擊“閱讀原文”獲取全文完整資料。
點擊標題查閱往期內(nèi)容
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構(gòu)建貝葉斯線性回歸模型分析職業(yè)聲望數(shù)據(jù)
R語言STAN貝葉斯線性回歸模型分析氣候變化影響北半球海冰范圍和可視化檢查模型收斂性
R語言貝葉斯MCMC:用rstan建立線性回歸模型分析汽車數(shù)據(jù)和可視化診斷
R語言貝葉斯MCMC:GLM邏輯回歸、Rstan線性回歸、Metropolis Hastings與Gibbs采樣算法實例
R語言貝葉斯Poisson泊松-正態(tài)分布模型分析職業(yè)足球比賽進球數(shù)
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數(shù)
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
R語言中貝葉斯網(wǎng)絡(BN)、動態(tài)貝葉斯網(wǎng)絡、線性模型分析錯頜畸形數(shù)據(jù)
R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
Python貝葉斯回歸分析住房負擔能力數(shù)據(jù)集
R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應lasso貝葉斯分位數(shù)回歸分析
Python用PyMC3實現(xiàn)貝葉斯線性回歸模型
R語言用WinBUGS 軟件對學術能力測驗建立層次(分層)貝葉斯模型
R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
R語言和STAN,JAGS:用RSTAN,RJAG建立貝葉斯多元線性回歸預測選舉數(shù)據(jù)
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言貝葉斯線性回歸和多元線性回歸構(gòu)建工資預測模型
R語言貝葉斯推斷與MCMC:實現(xiàn)Metropolis-Hastings 采樣算法示例
R語言stan進行基于貝葉斯推斷的回歸模型
R語言中RStan貝葉斯層次模型分析示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
WinBUGS對多元隨機波動率模型:貝葉斯估計與模型比較
R語言實現(xiàn)MCMC中的Metropolis–Hastings算法與吉布斯采樣
R語言貝葉斯推斷與MCMC:實現(xiàn)Metropolis-Hastings 采樣算法示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
視頻:R語言中的Stan概率編程MCMC采樣的貝葉斯模型
R語言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計