散文網(wǎng) » 生活 »日常 » R語言Bootstrap、百分位Bootstrap法抽樣參數(shù)估計置信區(qū)間分析通勤時間和學(xué)生鍛

R語言Bootstrap、百分位Bootstrap法抽樣參數(shù)估計置信區(qū)間分析通勤時間和學(xué)生鍛

2022-07-23 15:08 作者:拓端tecdat 0人讀過 | 我要投稿

全文鏈接：http://tecdat.cn/?p=27505

原文出處：拓端數(shù)據(jù)部落公眾號

y本文展示了如何使用 R 構(gòu)建Bootstrap自舉置信區(qū)間的示例。還強調(diào)了 R 包 ggplot2 用于圖形的用途。但是，在學(xué)習(xí)引導(dǎo)程序和 R 語言時，學(xué)習(xí)如何在沒有包的情況下從頭開始應(yīng)用Bootstrap程序有助于更好地理解 R 的工作原理并加強對Bootstrap的概念理解。

?相關(guān)視頻：什么是Bootstrap自抽樣及應(yīng)用R語言線性回歸預(yù)測置信區(qū)間實例

什么是Bootstrap自抽樣及R語言Bootstrap線性回歸預(yù)測置信區(qū)間

，時長05:38

具有標(biāo)準(zhǔn)誤差的自舉置信區(qū)間
?

描述了如何通過構(gòu)建一個以點估計為中心的區(qū)間來構(gòu)建總體參數(shù)的置信區(qū)間，其誤差幅度等于標(biāo)準(zhǔn)誤差的兩倍。在這里，我們將通過應(yīng)用 bootstrap 并從原始樣本中對許多樣本進行帶放回抽樣來估計標(biāo)準(zhǔn)誤差的大小，每個樣本與原始樣本的大小相同，計算每個樣本的點估計值，并找到該分布的標(biāo)準(zhǔn)差引導(dǎo)統(tǒng)計。

通勤時間

關(guān)于?500 名通勤者樣本的變量。
?

str(Cotlaa)

為了構(gòu)建平均通勤時間的置信區(qū)間，我們需要從原始樣本中找到點估計（樣本均值）。
?

tiean = with(Commta, mean(Time))
tiean
## [1] 29.11

為了找到標(biāo)準(zhǔn)誤差，我們將創(chuàng)建一個包含 1000 行（每個引導(dǎo)樣本一個）和 500 列（每個采樣值一個，以匹配原始樣本大?。┑木薮缶仃嚒Ｈ缓笪覀儗⑹褂?apply() 將 mean() 應(yīng)用于矩陣的每一行。這種方法不同于作者 R 指南中使用 for 循環(huán)的示例，但我們也可以稍后展示這種方法。
首先創(chuàng)建一個大矩陣來存儲所有樣本。
?

boot.ames = matrix(sale(Comnta$Tie, size = B * n, replace = TRUE),
B, n)

用密度圖覆蓋直方圖來繪制不同的東西。在這里，ggplot() 需要一個帶有輸入數(shù)據(jù)的數(shù)據(jù)框，因此我們使用 data.frame() 創(chuàng)建一個帶有唯一感興趣的變量的數(shù)據(jù)框
?

require(ggplot2)
ggplot(dtframeanT = boot.satitics),as(x=meaime)) +
geom_istram(binwih=0.25,aes(y=..ensity..)) +
geodnity(olor"red")

我們看到了一個不太不對稱的分布，或多或少呈鐘形。該分布的標(biāo)準(zhǔn)差如下
?

tie.s= sd(bo.sattics)
tie.s
## [1] 0.9414

最后，構(gòu)建置信區(qū)間。在這里，我將誤差范圍向上舍入到小數(shù)點后一位，使其具有兩位有效數(shù)字，并且在四舍五入時要小心不要使間隔太小。

me= cilig(10 * 2 * tim.se)/10
rond(tme.an, 1) + c(-1, 1) * me
## [1] 27.2 31.0

現(xiàn)在在上下文中解釋。
我們有 95% 的信心認(rèn)為，不在家工作的通勤者在平均通勤時間在 27.2 到 31 分鐘之間。

編寫函數(shù)
?

由于有幾個復(fù)雜的步驟，所以有一個函數(shù)來完成所有這些步驟會很有用，這樣將來我們可以在函數(shù)中獲取源代碼，然后調(diào)用它。這是一個示例函數(shù)，它接受一個參數(shù) x，該參數(shù)假定為一個數(shù)字樣本并執(zhí)行 B 次引導(dǎo)。該函數(shù)會將有用的信息輸出到控制臺，繪制分布圖，并以列表的形式返回統(tǒng)計、區(qū)間、標(biāo)準(zhǔn)誤差和圖表。
?

out= with(tdens botmean(eit))

## [1] 66.90 69.56
out$interval
## [1] 66.90 69.56

我們需要謹(jǐn)慎，因為學(xué)生樣本不是隨機的，而是我們班的方便樣本。這里有兩個可能的混淆變量：性別和原籍國。

for 循環(huán)

for 循環(huán)不是一次采集所有樣本，而是一次采集一個樣本。通常，使用 apply() 的 R 代碼比使用 for 循環(huán)的代碼更有效。嘗試大量的 bootstrap 復(fù)制！

n = ngth(studentseiht)
B = 100
reslt = re(NA, )
fo(i in 1:) f
bo.sale= smpe(, replace = TRUE)
reult[i] ?mean(udetsHeht[bot.mple])
with(stdnt, men(Hit) + c(-1, 1) * 2 * sd(result))
## [1] 66.89 69.58

比例
?

考慮估計橙色里斯糖果的比例問題。選擇了一個有 11 個橙色糖果和 19 個非橙色糖果的學(xué)生。讓我們使用 bootstrap 找到橙色 Reese 比例的 95% 置信區(qū)間。最簡單的方法是將樣本數(shù)據(jù)表示為具有 11 個 1 和 19 個 0 的向量，并使用與樣本均值相同的機器

rees.bot= bot.man(rees, 1000,nwith = 1/30)

## [1] 0.1947 0.5386

因此，僅基于這個單一樣本，我們有 95% 的信心認(rèn)為橙色的真實比例在 0.19 到 0.54 之間。如果我們將所有 48 個樣本組合成一個大樣本，我們可以重做這個問題。觀察到的比例為 0.515，共有 741 個橙色糖果和 699 個非橙色糖果。

reeses = c(rep(1, 741), rep(0, 699))
reeses.boot = boot.mean(reeses, 1000, binwidth = 0.005)

## [1] 0.4888 0.5404

均值差異

我將使用學(xué)生調(diào)查數(shù)據(jù)集來說明如何使用 bootstrap 來估計均值的差異。有趣的變量是聯(lián)系，每周每個學(xué)生練習(xí)的小時數(shù)。

data(Stey)

我們從這個總結(jié)中看到，在樣本中，男性每周鍛煉的時間比女性多。如果我們將此學(xué)生樣本視為從大學(xué)生群體中隨機選擇的，我們可以估計每種性別的鍛煉時間差異。

在構(gòu)建置信區(qū)間之前，這里是兩個分布的圖表。

geom_boxpot(lor=red,ouolor="ed") +
geom_oin(poitio ?osio_jitt(h=0w=0.3)) +

?我們使用 length() 來查找每個組的樣本大小。請注意，女性人數(shù)為 n[1]，男性人數(shù)為 n[2]。

n = withnewSt、nt, by(Ec Gende, lengh))

下一個代碼塊為樣本中的男性和女性創(chuàng)建一個矩陣，每個樣本的替換大小相同。然后我們使用 apply() 來微調(diào)每個樣本的平均值并取差值（男性減去女性）來獲得統(tǒng)計的分布。我們用圖表來檢查對稱性。

ggplot(data.amex = oot.at), aes( = x)) + ge_ensty()

?最后，取點估計（樣本均值的差異）并加上和減去兩倍的標(biāo)準(zhǔn)誤差。查看未四舍五入的版本后，將兩位有效數(shù)字四舍五入到小數(shù)點后一位。

boot包

有一個帶有函數(shù) boot() 的包 boot，它在許多情況下都可以進行boottrap。我將重溫通勤時報的例子。

但是內(nèi)置函數(shù) boot.ci() 將使用多種方法計算 bootstrap confidenceintervals。

boot.ci(t.boot)

基本使用估計的標(biāo)準(zhǔn)誤差。百分位數(shù)使用百分位數(shù)。BCa 也使用百分位數(shù)，但會根據(jù)偏差和偏度進行調(diào)整。

百分位bootstrap

使用來自 bootstrap 的百分位數(shù)的置信區(qū)間的想法是從 bootstrap 分布的中間選擇與所需置信水平相對應(yīng)的端點。
?

for ( i in 1:B ) f
te.boot] = meanmplta,size=tea.neplTRU)
cofeebot[i] = eanampe(ffee,ize=cen,repla=TRUE)
g
quatil(bot.tt0.025,0.975))
quantie(boottac(0.005,0.995))

?

自測題

Below are some 1973 law school data, mean GPA and mean LSAT score for N=82 law schools. Compute approximate 95% CIs by bootstrapping for: (a) the mean GPA mean; (b) the mean LSAT mean; (c) the correlation between GPA mean and LSAT mean, at the school level. ?Do all of these calculations for a sample of size n=15, and then repeat for a sample of size n=20. Note that you'll get somewhat different answers for different choices of sample, for each size (15 and 20). You can explore the importance of the particular sample chosen, of course, by repeating the process. Be careful not to conflate the bootstrap process and the repetition of sampling from the "population." ?In a typical boostrap computation, you would have only a sample of size 15 (or 20) and not the "population" of 82, and the boostrap procedure does not require that you have the 82 data points (or it wouldn't be very helpful).

最受歡迎的見解

1.使用R語言進行METROPLIS-IN-GIBBS采樣和MCMC運行

2.R語言中的Stan概率編程MCMC采樣的貝葉斯模型

3.R語言實現(xiàn)MCMC中的Metropolis–Hastings算法與吉布斯采樣

4.R語言BUGS JAGS貝葉斯分析馬爾科夫鏈蒙特卡洛方法（MCMC）采樣

5.R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸

6.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析

7.R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數(shù)

8.R語言使用Metropolis- Hasting抽樣算法進行邏輯回歸

9.R語言中基于混合數(shù)據(jù)抽樣(MIDAS)回歸的HAR-RV模型預(yù)測GDP增長

標(biāo)簽：