貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析免疫球蛋白、前列腺癌數據
原文鏈接:http://tecdat.cn/?p=22702
最近我們被客戶要求撰寫關于貝葉斯分位數回歸的研究報告,包括一些圖形和統(tǒng)計輸出。
貝葉斯回歸分位數在最近的文獻中受到廣泛關注,本文實現了貝葉斯系數估計和回歸分位數(RQ)中的變量選擇,帶有l(wèi)asso和自適應lasso懲罰的貝葉斯
摘要
還包括總結結果、繪制路徑圖、后驗直方圖、自相關圖和繪制分位數圖的進一步建模功能。
簡介
回歸分位數(RQ)由(Koenker和Gilbert,1978)提出,將感興趣的結果的條件分位數作為預測因子的函數來建模。自引入以來,分位數回歸一直是理論界非常關注的話題,也在許多研究領域得到了大量的應用,如計量經濟學、市場營銷、醫(yī)學、生態(tài)學和生存分析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。假設我們有一個觀察樣本{(xi , yi);i = 1, 2, - -, n},其中yi表示因變量,xi表示協變量的k維矢量。
貝葉斯_分位數_回歸
Tobit RQ為描述非負因變量和協變量向量之間的關系提供了一種方法,可以被表述為因變量的數據未被完全觀察到的分位數回歸模型。關于Tobit 分位數回歸模型有相當多的文獻,我們可以參考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)來了解概況。考慮一下這個模型。

其中,yi是觀察到的因變量,y?i是相應的潛在的未觀察到的因變量,y 0是一個已知的點??梢宰C明,RQ系數向量β可以通過以下最小化問題的解來持續(xù)估計

Yu和Stander(2007)提出了一種Tobit RQ的貝葉斯方法,使用ALD計算誤差,并使用Metropolis-Hastings(MH)方法從其后驗分布中抽取β。
真實數據實例
我們考慮用真實的數據例子。
免疫球蛋白G數據
這個數據集包括298名6個月到6歲兒童的免疫球蛋白G的血清濃度(克/升),Isaacs等人(1983)對其進行了詳細討論,Yu等人(2003)也使用了該數據集。為了說明問題,該數據集的貝葉斯分位數回歸模型(可以擬合如下)。
rq(血清濃度~年齡,?tau=0.5)
摘要函數提供估計值和95%的置信區(qū)間

繪制數據,然后將五條擬合的RQ線疊加在散點圖上。
R>?for?(i?in?1:5)?{
+?taus=c(0.05,?0.25,?0.5,?0.75,?0.95)
+?rq(tau=taus[i])
+?abline(fit,?col=i)
+?}
R>?
R>?for?(i?in?1:5)?{
+?fit?=?rq(年齡+I(年齡^2),tau=taus[i])
+?curve(,add=TRUE)
+?}

圖2:免疫球蛋白G數據的散點圖和RQ擬合。
點擊標題查閱往期內容

matlab使用分位數隨機森林(QRF)回歸樹檢測異常值

左右滑動查看更多

01

02

03

04

該圖顯示了298名6個月至6歲兒童的免疫球蛋白G的散點圖。疊加在該圖上的是{.05, .25, .50, .75, .95}的RQ線(左圖)和 RQ線(左圖)和RQ曲線(右圖)。
圖可以用來評估吉布斯采樣向平穩(wěn)分布的收斂情況。我們在圖1中只報告了τ=0.50時每個參數的路徑圖和后驗直方圖。我們使用以下代碼
plot(fit,"tracehist",D=c(1,2))
可以通過生成路徑圖、后驗直方圖、自相關圖來對Gibbs采樣的繪制結果進行圖形總結。路徑和直方圖,路徑和自相關,直方圖和自相關,以及路徑、直方圖和自相關。這個函數還有一個選項。在圖3中,免疫球蛋白G數據系數的路徑圖表明,采樣從后驗空間的一個偏遠區(qū)域跳到另一個區(qū)域的步驟相對較少。此外,直方圖顯示邊際密度實際上是所期望的平穩(wěn)的單變量常態(tài)。

圖3:當τ=0.50時,免疫球蛋白G數據集的系數的路徑和密度圖。
前列腺癌數據
在本小節(jié)中,我們說明貝葉斯分位數回歸在前列腺癌數據集(Stamey等人,1989)上的表現。該數據集調查了等待根治性前列腺切除術的病人的前列腺特異性抗原(lpsa)水平和八個協變量之間的關系。
這些協變量是:癌癥對數體積(lcavol)、前列腺的對數重量(lweight)、年齡(age)、良性前列腺的對數體積(lbph)、精囊侵犯(svi)、膠囊穿透的對數(lcp)、格里森評分(gleason)以及格里森評分4或5的百分比(pgg45)。
在本小節(jié)中,我們假設因變量(lpsa)均值為零,而預測因子已被標準化,均值為零。為了說明問題,我們考慮當τ=0.50時,貝葉斯lasso套索RQ(方法="BLqr")。在這種情況下,我們使用以下代碼
R>?x=as.matrix(x)
R>?rq(y~x,tau?=?0.5,?method="BLqr")

模型法可用于確定回歸中的活躍變量。?

相應的吉布斯采樣的收斂性是通過生成樣本的路徑圖和邊際后驗直方圖評估的。因此,圖可以用來提供一個關于吉布斯采樣器收斂的圖形檢查,通過使用以下代碼檢查路徑圖和邊際后驗直方圖。
plot(fit,?type="trace")
上述代碼的結果分別顯示在圖4和圖5中。圖4中的路徑圖顯示,生成的樣本迅速穿越了后驗空間,圖5中的邊際后驗直方圖顯示,條件后驗分布實際上是所需的平穩(wěn)單變量常態(tài)。?


小麥數據
我們考慮一個小麥數據集。這個數據集來自于國家小麥種植發(fā)展計劃(2017)。這個小麥數據由11個變量的584個觀測值組成。因變量是每2500平方米小麥產量增加的百分比。協變量是化肥尿素(U)、小麥種子播種日期(Ds)、小麥種子播種量(Qs)、激光平田技術(LT)、復合肥施肥(NPK)、播種機技術(SMT)、綠豆作物種植(SC)、作物除草劑(H)、作物高鉀肥(K)、微量元素肥料(ME)。
下面的命令給出了τ=0.50時Tobit RQ的后驗分布。
rq(y~x,tau=0.5,?methods="Btqr")

還可以擬合貝葉斯lassoTobit 分位數回歸和貝葉斯自適應lassoTobit 分位數回歸。當τ=0.50時,函數可以用來獲得Tobit 分位數回歸的后驗平均值和95%的置信區(qū)間。?

結論
在本文中,我們已經說明了在分位數回歸(RQ)中進行貝葉斯系數估計和變量選擇。此外,本文還實現了帶有l(wèi)asso和自適應lasso懲罰的貝葉斯Tobit 分位數回歸。還包括總結結果、繪制路徑圖、后驗直方圖、自相關圖和繪制定量圖的進一步建模。
參考文獻
Alhamzawi, R., K. Yu, and D. F. Benoit (2012). Bayesian adaptive lasso quantile regression. Statistical Modelling 12 (3), 279–297.
Brownlee, K. A. (1965). Statistical theory and methodology in science and engineering, Volume 150. Wiley New York.
Davino, C., M. Furno, and D. Vistocco (2013). Quantile regression: theory and applications. John Wiley & Sons.

本文摘選?《?R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析?》?,點擊“閱讀原文”獲取全文完整資料。
點擊標題查閱往期內容
R語言RSTAN MCMC:NUTS采樣算法用LASSO 構建貝葉斯線性回歸模型分析職業(yè)聲望數據
R語言STAN貝葉斯線性回歸模型分析氣候變化影響北半球海冰范圍和可視化檢查模型收斂性
R語言貝葉斯MCMC:用rstan建立線性回歸模型分析汽車數據和可視化診斷
R語言貝葉斯MCMC:GLM邏輯回歸、Rstan線性回歸、Metropolis Hastings與Gibbs采樣算法實例
R語言貝葉斯Poisson泊松-正態(tài)分布模型分析職業(yè)足球比賽進球數
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
R語言中貝葉斯網絡(BN)、動態(tài)貝葉斯網絡、線性模型分析錯頜畸形數據
R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
Python貝葉斯回歸分析住房負擔能力數據集
R語言實現貝葉斯分位數回歸、lasso和自適應lasso貝葉斯分位數回歸分析
Python用PyMC3實現貝葉斯線性回歸模型
R語言用WinBUGS 軟件對學術能力測驗建立層次(分層)貝葉斯模型
R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析
R語言和STAN,JAGS:用RSTAN,RJAG建立貝葉斯多元線性回歸預測選舉數據
R語言基于copula的貝葉斯分層混合模型的診斷準確性研究
R語言貝葉斯線性回歸和多元線性回歸構建工資預測模型
R語言貝葉斯推斷與MCMC:實現Metropolis-Hastings 采樣算法示例
R語言stan進行基于貝葉斯推斷的回歸模型
R語言中RStan貝葉斯層次模型分析示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
WinBUGS對多元隨機波動率模型:貝葉斯估計與模型比較
R語言實現MCMC中的Metropolis–Hastings算法與吉布斯采樣
R語言貝葉斯推斷與MCMC:實現Metropolis-Hastings 采樣算法示例
R語言使用Metropolis-Hastings采樣算法自適應貝葉斯估計與可視化
視頻:R語言中的Stan概率編程MCMC采樣的貝葉斯模型
R語言MCMC:Metropolis-Hastings采樣用于回歸的貝葉斯估計