R語(yǔ)言使用貝葉斯層次模型進(jìn)行空間數(shù)據(jù)分析
原文鏈接:http://tecdat.cn/?p=10932
?
介紹
在本節(jié)中,我將重點(diǎn)介紹使用集成嵌套 拉普拉斯近似方法的貝葉斯推理。?
可以 估計(jì)貝葉斯 層次模型的后邊緣分布。 鑒于模型類型非常廣泛,我們將重點(diǎn)關(guān)注用于分析晶格數(shù)據(jù)的空間模型。
?
數(shù)據(jù)集:紐約州北部的白血病
為了說(shuō)明如何與空間模型擬合,將使用紐約白血病數(shù)據(jù)集。該數(shù)據(jù)集記錄了普查區(qū)紐約州北部的許多白血病病例。數(shù)據(jù)集中的一些變量是:
:1978-1982年期間的白血病病例數(shù)。
:1980年人口。
:擁有房屋的人口比例。
:65歲以上的人口比例。
:到最近的三氯乙烯(TCE)站點(diǎn)的平均反距離。
?
鑒于有興趣研究紐約州北部的白血病風(fēng)險(xiǎn),因此首先要計(jì)算預(yù)期的病例數(shù)。這是通過(guò)計(jì)算總死亡率(總病例數(shù)除以總?cè)丝跀?shù))并將其乘以總?cè)丝跀?shù)得出的:
一旦獲得了預(yù)期的病例數(shù),就可以使用標(biāo)準(zhǔn)化死亡率(smR)來(lái)獲得原始的風(fēng)險(xiǎn)估計(jì),該標(biāo)準(zhǔn)是將觀察到的病例數(shù)除以預(yù)期的病例數(shù)得出的:
疾病作圖
在流行病學(xué)中,重要的是制作地圖以顯示相對(duì)風(fēng)險(xiǎn)的空間分布。在此示例中,我們將重點(diǎn)放在錫拉庫(kù)扎市以減少生成地圖的計(jì)算時(shí)間。因此,我們用錫拉丘茲市的區(qū)域創(chuàng)建索引:
可以使用函數(shù)(在包中
)簡(jiǎn)單地創(chuàng)建疾病圖:

可以輕松創(chuàng)建交互式地圖
請(qǐng)注意,先前的地圖還包括11個(gè)受TCE污染的站點(diǎn)的位置,可以通過(guò)縮小看到它。
混合效應(yīng)模型
泊松回歸
我們將考慮的第一個(gè)模型是沒(méi)有潛在隨機(jī)效應(yīng)的Poisson模型,因?yàn)檫@將提供與其他模型進(jìn)行比較的基準(zhǔn)。
?
?模型 :
請(qǐng)注意,它的功能類似于該功能。在此,參數(shù)?
用于預(yù)期的案例數(shù)?;? 設(shè)置了其他參數(shù)來(lái)計(jì)算模型參數(shù)的邊際
(使用)并計(jì)算一些模型選擇標(biāo)準(zhǔn) (使用
)。
接下來(lái),可以獲得模型的摘要:
具有隨機(jī)效應(yīng)的泊松回歸
可以通過(guò) 在線性預(yù)測(cè)變量中包括iid高斯隨機(jī)效應(yīng),將潛在隨機(jī)效應(yīng)添加到模型中,以解決過(guò)度分散問(wèn)題。
現(xiàn)在,該模式的摘要包括有關(guān)隨機(jī)效果的信息:
添加點(diǎn)估計(jì)以進(jìn)行映射
這兩個(gè)模型估計(jì) 可以被添加到??
?

?
晶格數(shù)據(jù)的空間模型
格子數(shù)據(jù)涉及在不同區(qū)域(例如,鄰里,城市,省,州等)測(cè)量的數(shù)據(jù)。出現(xiàn)空間依賴性是因?yàn)橄噜弲^(qū)域?qū)@示相似的目標(biāo)變量值。
??
鄰接矩陣
可以使用package中的函數(shù)來(lái)計(jì)算鄰接矩陣?
。如果其邊界 至少在某一點(diǎn)上接觸 ,則此功能會(huì)將兩個(gè)區(qū)域視為鄰居:
這將返回一個(gè)具有鄰域結(jié)構(gòu)定義的對(duì)象:
另外, 當(dāng)多邊形的重心 已知時(shí),可以繪制對(duì)象:
?

回歸模型
通常情況是,除了\(y_i \)之外,我們還有許多協(xié)變量 \(X_i \)。因此,我們可能想對(duì)\(X_i \)回歸?\(y_i?\)。除了 協(xié)變量,我們可能還需要考慮數(shù)據(jù)的空間結(jié)構(gòu)。
可以使用不同類型的回歸模型來(lái)建模晶格數(shù)據(jù):
廣義線性模型(具有空間隨機(jī)效應(yīng))。
空間計(jì)量經(jīng)濟(jì)學(xué)模型。
線性混合模型
一種常見(jiàn)的方法(對(duì)于高斯數(shù)據(jù))是使用
具有隨機(jī)效應(yīng)的線性回歸:
\ [
Y = X \ beta + Zu + \ varepsilon
\]
隨機(jī)效應(yīng)的向量\(u \)被建模為多元正態(tài)分布:
\ [
u \ sim N(0,\ sigma ^ 2_u \ Sigma)
\]
\(\ Sigma \)的定義是,它會(huì)引起與相鄰區(qū)域的更高相關(guān)性,\(Z \)是隨機(jī)效果的設(shè)計(jì)矩陣,而
\(\ varepsilon_i \ sim N(0,\ sigma ^ 2),i = 1,\ ldots,n \)是一個(gè)誤差項(xiàng)。
?
空間隨機(jī)效應(yīng)的結(jié)構(gòu)
在\(\ Sigma \)中包括空間依賴的方法有很多:
同步自回歸(SAR):
\ [
\ Sigma ^ {-1} = [(I- \ rho W)'(I- \ rho W)]
\]
條件自回歸(CAR):
\ [
\ Sigma ^ {-1} =(I- \ rho W)
\]
?(ICAR):
\ [
\ Sigma ^ {-1} = diag(n_i)– W
\]\(n_i \)是區(qū)域\(i \)的鄰居數(shù)。
\(\ Sigma_ {i,j} \)取決于\(d(i,j)\)的函數(shù)。例如:
\ [
\ Sigma_ {i,j} = \ exp \ {-d(i,j)/ \ phi \}
\]
矩陣的“混合”(Leroux等人的模型):
\ [
\ Sigma = [(1 – \ lambda)I_n + \ lambda M] ^ {-1}; \ \ lambda \ in(0,1)
\]?
ICAR模型
第一個(gè)示例將基于ICAR規(guī)范。請(qǐng)注意, 使用-函數(shù)定義空間潛在效果。這將需要 一個(gè)索引來(lái)識(shí)別每個(gè)區(qū)域中的隨機(jī)效應(yīng),模型的類型 和鄰接矩陣。為此,將使用稀疏矩陣。
BYM模型
Besag,York和Mollié模型包括兩個(gè)潛在的隨機(jī)效應(yīng):ICAR 潛在效應(yīng)和高斯iid潛在效應(yīng)。線性預(yù)測(cè)變量\(\ eta_i \)
為:
\ [
\ eta_i = \ alpha + \ beta AVGIDIST_i + u_i + v_i
\]
\(u_i \)是iid高斯隨機(jī)效應(yīng)
\(v_i \)是內(nèi)在的CAR隨機(jī)效應(yīng)
?
Leroux 模型
該模型是使用矩陣的“混合”(Leroux等人的模型)
定義的,以定義潛在效應(yīng)的精度矩陣:
\ [
\ Sigma ^ {-1} = [(1-\ lambda)I_n + \ lambda M]; \ \ lambda \ in(0,1)
\]
?
為了定義正確的模型,我們應(yīng)采用矩陣\(C \)如下:
\ [
C = I_n – M; \ M = diag(n_i)– W
\]
然后,\(\ lambda_ {max} = 1 \)和
\ [
\ Sigma ^ {-1} =
\ frac {1} {\ tau}(I_n- \ frac {\ rho} {\ lambda_ {max}} C)=
\ frac {1} {\ tau}(I_n- \ rho(I_n – M))= \ frac {1} {\ tau}((1- \ rho)I_n + \ rho M)
\]
為了擬合模型,第一步是創(chuàng)建矩陣\(M \):
我們可以檢查最大特征值\(\ lambda_ {max} \)是一個(gè):
該模型與往常一樣具有功能。注意,\(C \)矩陣使用參數(shù)
傳遞給函數(shù)
:
空間計(jì)量經(jīng)濟(jì)學(xué)模型
空間計(jì)量經(jīng)濟(jì)學(xué)是通過(guò) 對(duì)空間建模略有不同的方法開(kāi)發(fā)的。除了使用潛在效應(yīng),還可以對(duì)空間 依賴性進(jìn)行顯式建模。?
同步自回歸模型(SEM)
該模型包括協(xié)變量和誤差項(xiàng)的自回歸:
\ [
y = X \ beta + u;?u = \ rho Wu + e;?e \ sim N(0,\ sigma ^ 2)
\]
\ [
y = X \ beta + \ varepsilon;?\ varepsilon \ sim N(0,\ sigma ^ 2(I- \ rho W)^ {-1}(I- \ rho W')^ {-1})
\]
空間滯后模型(SLM)
該模型包括協(xié)變量和響應(yīng)的自回歸:
\ [
y = \ rho W y + X \ beta + e;?e \ sim N(0,\ sigma ^ 2)
\]
\ [
y =(I- \ rho W)^ {-1} X \ beta + \ varepsilon; \ \ varepsilon \ sim N(0,\ sigma ^ 2(I- \ rho W)^ {-1}(I- \ rho W')^ {-1})
\]
潛在影響
?現(xiàn)在包括一個(gè)實(shí)驗(yàn)所謂的新的潛在影響,以 符合以下模型:
\ [
\ mathbf {x} =(I_n- \ rho W)^ {-1}(X \ beta + e)
\]
該模型的元素是:
\(W \)是行標(biāo)準(zhǔn)化的鄰接矩陣。
\(\ rho \)是空間自相關(guān)參數(shù)。
\(X \)是協(xié)變量的矩陣,系數(shù)為\(\ beta \)。
\(e \)是具有方差\(\ sigma ^ 2 \)的高斯iid誤差。
該潛效果的實(shí)驗(yàn),它可以 與所述線性預(yù)測(cè)其他效果組合。
?
模型定義
為了定義模型,我們需要:
:協(xié)變量矩陣
:行標(biāo)準(zhǔn)化的鄰接矩陣
:系數(shù)\(\ beta \)的精確矩陣
?范圍\(\ RHO \)?,通常由本征值定義
潛在作用是通過(guò)參數(shù)傳遞?
。在這里,我們創(chuàng)建了一個(gè)具有相同名稱的列表,以將 所有必需的值保存在一起:
此外,還設(shè)置了精度參數(shù)\(\ tau \)和空間 自相關(guān)參數(shù)\(\ rho \)的先驗(yàn):
先前的定義使用具有不同參數(shù)的命名列表。參數(shù)?定義了使用之前
及其參數(shù)。在此,為 精度分配了帶有參數(shù)\(0.01 \)和\(0.01 \)的伽瑪先驗(yàn)值,而 為空間自相關(guān)參數(shù)指定了帶有參數(shù)\(1 \) 和\(1 \)的beta先驗(yàn)值(即a間隔\(((1,1)\))中的均勻先驗(yàn)。
模型擬合
系數(shù)的估計(jì)顯示為隨機(jī)效應(yīng)的一部分:
空間自相關(guān)以內(nèi)部比例報(bào)告(即 0到1?之間),并且需要重新縮放:
?

結(jié)果匯總

?注意空間模型如何產(chǎn)生相對(duì)風(fēng)險(xiǎn)的更平滑的估計(jì)。
為了選擇最佳模型, 可以使用上面計(jì)算的模型選擇標(biāo)準(zhǔn):
?

參考文獻(xiàn)
Bivand, R., E. Pebesma and V. Gómez-Rubio (2013).?Applied spatial data
analysis with R. Springer-Verlag. New York.

?
最受歡迎的見(jiàn)解
1.matlab使用貝葉斯優(yōu)化的深度學(xué)習(xí)
2.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)
3.R語(yǔ)言Gibbs抽樣的貝葉斯簡(jiǎn)單線性回歸仿真
4.R語(yǔ)言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
5.R語(yǔ)言中的Stan概率編程MCMC采樣的貝葉斯模型
6.Python用PyMC3實(shí)現(xiàn)貝葉斯線性回歸模型
7.R語(yǔ)言使用貝葉斯 層次模型進(jìn)行空間數(shù)據(jù)分析
8.R語(yǔ)言隨機(jī)搜索變量選擇SSVS估計(jì)貝葉斯向量自回歸(BVAR)模型
9.matlab貝葉斯隱馬爾可夫hmm模型實(shí)現(xiàn)