基于r語(yǔ)言的疾病制圖中自適應(yīng)核密度估計(jì)的閾值選擇方法案例
原文鏈接:http://tecdat.cn/?p=6863
?
背景
?諸如核密度估計(jì)(KDE)的平滑方法被用于控制用于計(jì)算每種疾病率的空間支持的群體基礎(chǔ)。平滑程度由用戶(hù)定義的參數(shù)(帶寬或閾值)控制,該參數(shù)影響疾病圖的分辨率和計(jì)算的速率的可靠性。
方法
內(nèi)核,帶寬的大小,是影響在KDE [在地圖上的平滑的程度的關(guān)鍵參數(shù) ]。帶寬可以是固定的也可以是可變的(自適應(yīng)的)。對(duì)于固定帶寬方法,內(nèi)核具有固定大小的半徑,并且所有內(nèi)核(圓圈)具有相同的半徑。在健康研究中,固定帶寬方法可能不合適,因?yàn)槿丝诓皇蔷鶆蚍植荚诘乩砜臻g中。此外,如果圓圈落入低人口密度區(qū)域,可能會(huì)導(dǎo)致不穩(wěn)定的比率。類(lèi)似地,在自適應(yīng)帶寬方法中,內(nèi)核半徑增大或縮小以適應(yīng)不同的種群大小。用于定義內(nèi)核帶寬的最小種群大小,以及因此地圖上的平滑程度,是用戶(hù)定義的參數(shù)。我們將其稱(chēng)為閾值(h)。
圖?顯示了使用疾病控制和預(yù)防中心(CDC),國(guó)家衛(wèi)生統(tǒng)計(jì)中心(NCHS)??獲得的65歲及以上男性心臟病死亡率的空間分布。我們使用具有不同閾值的自適應(yīng)核密度估計(jì)方法產(chǎn)生該映射。
# Adaptive smoothing;
bivariate. ( ,h0=1.5,hp=1,adapt=TRUE,davies.baddeley=0.025)
## ? bandwidth selection ##
## Global (for adaptive) bandwidth selection ##
# ~200 secs next line; use 'parallelise' for speedup
system.time( ?<- BOOT. (pbc,type=" ")) # minimal usage for adaptive bootstrap
hada
# ~80 secs ? line. Set custom h limits; increase reference bandwidth;
plot(hada);abline(v=hada[which.min(hada[,2]),1],col=2)
?

?
模擬基線(xiàn)速率和真實(shí)值(RMSE)之間的差異幅度隨著L的增加而穩(wěn)定。在本研究中,當(dāng)L??> 50時(shí),所有年齡組均達(dá)到穩(wěn)定狀態(tài)。在這項(xiàng)研究中,我們使用了100次重復(fù)。由于估計(jì)過(guò)高和過(guò)低的百分比或多或少相等,我們可以得出結(jié)論,模擬是無(wú)偏見(jiàn)的。
## RMS error
plot(x, y,
, col = "lightgrey",
xaxt = "n", yaxt = "n", xaxs = "i", yaxs = "i",
axis(1, at = axp, labels = axp)
axis(2, at = axp, labels = axp)

?
?
模擬基線(xiàn)速率分布特征總結(jié)
?
年齡階層
均值
SD
覆蓋率(%)
估計(jì)過(guò)高(%)
低估(%)
35-44
33.92
1.40
17
50.6
49.4
45-54
115.17
2.52
11
49.4
50.6
55-64
297.60
4.49
20
56.2
43.8
65歲以上
1245.93
10.21
16
47.6
52.4
35+
351.12
2.27
14
52.3
47.7
?
?
門(mén)檻選擇對(duì)人口密度估計(jì)的影響
計(jì)算出的三個(gè)選擇器 - 插件(h?pi),平滑交叉驗(yàn)證(h?scv),正常標(biāo)度(h?ns)和中位數(shù)的閾值如表 所示??。 這些結(jié)果表明,對(duì)于相同的數(shù)據(jù),不同的帶寬選擇器提供不同的閾值。對(duì)于這些數(shù)據(jù),h?pi和h?scv推薦產(chǎn)生的圖可以提供更大的地理細(xì)節(jié)(更低的平滑水平),但估計(jì)的速率也會(huì)產(chǎn)生更大的波動(dòng)。相反,另外兩個(gè)帶寬選擇器產(chǎn)生更高水平的平滑,但速率波動(dòng)更少。?
?
描述性結(jié)果和計(jì)算的閾值按年齡組分層
年齡組
總?cè)丝?/p>
范圍
ZCTA數(shù)量
計(jì)算的閾值
具有指定最小人口的%ZCTA
h?pi
h?scv
h?ns
中位數(shù)
≤100(%)
≤300(%)
35-44
1722904
[1,7925]
1911?
53
56
280
327
32
48
45-54
1702639
[1,7407]
1910
57
55
255
399
28
45
55-64
1256976
[1,4948]
1906?
44
41
177
342
30
48
65歲以上
1135517
[1,4792]
1902
41
40
156
330
28
48
總計(jì)(35 +)
5818036
[1,25,555]
1920
200
189
837
1411
14
25
在圖 ,將應(yīng)用每個(gè)閾值(h?pi,h?scv,h?ns,中位數(shù)和六個(gè)任意選擇-50,100,500,1000,5000,10,000)后獲得的種群密度曲線(xiàn)與實(shí)際種群進(jìn)行比較分配。對(duì)于每個(gè)圖表,X軸表示倉(cāng)大小為200的群體,Y軸是ZCTA的密度。?

?

?
?
門(mén)檻選擇對(duì)費(fèi)率估計(jì)分布的影響
圖? 說(shuō)明了100次重復(fù)的每個(gè)閾值的估計(jì)狀態(tài)速率()的分布。由于h?pi和h?scv為所有年齡組提供了幾乎相同的值,因此在該研究中僅使用h?pi。 Y軸顯示從模擬數(shù)據(jù)集獲得的心臟病死亡率(每100,000人口),每個(gè)點(diǎn)代表每次模擬的估計(jì)狀態(tài)率()。模擬基線(xiàn)率(y?i)和原油率也包括在每個(gè)圖表中以供參考。粗略比率計(jì)算為每個(gè)單獨(dú)ZCTA的模擬病例與人口比率的平均值。

?

?
?
表? ,使用h?ns,中值和h??> 500?獲得的閾值為本研究中使用的年齡分層提供了最理想的密度曲線(xiàn)特征。此外,h??> 500,h?ns和h??> 1000提供了35歲及以上年齡段的最理想的密度曲線(xiàn)特征。對(duì)于這些情況,雖然RMSE值沒(méi)有明顯不同 。這對(duì)于在圖的35+歲年齡組,尤其如此 即?在制作疾病地圖時(shí),需要平衡地圖上描繪的地理細(xì)節(jié)數(shù)量和估計(jì)費(fèi)率的準(zhǔn)確性。雖然RMSE建議使用三個(gè)期望閾值產(chǎn)生的地圖之間具有相似的準(zhǔn)確度,但是在選擇適當(dāng)閾值時(shí)要考慮的剩余關(guān)鍵因素是地理變化程度。 而且,與任意選擇相比,?h?ns提供了一種估計(jì)適當(dāng)閾值的一致方法。

?
結(jié)果
使用德克薩斯州35歲及以上男性心臟病死亡率的模擬數(shù)據(jù)集,我們?cè)u(píng)估了自動(dòng)選擇平滑參數(shù)的方法。我們的結(jié)果表明,雖然所有參數(shù)選擇都準(zhǔn)確地估計(jì)了整體狀態(tài)速率,但它們?cè)诳臻g分辨率方面有所不同。?
結(jié)論
我們表明適當(dāng)?shù)拈撝等Q于數(shù)據(jù)的特征,并且?guī)掃x擇器算法可用于指導(dǎo)關(guān)于映射參數(shù)的此類(lèi)決策。
非常感謝您閱讀本文,有任何問(wèn)題請(qǐng)?jiān)谙旅媪粞裕?/h1>
?