抽樣調(diào)查所需樣本量如何計(jì)算
關(guān)于 Sampling
抽樣調(diào)查大家都熟悉,最開(kāi)始是美國(guó)的 Literary Digest 雜志作總統(tǒng)大選民意調(diào)查所率先使用的方法。相對(duì)于 census,它獨(dú)特的優(yōu)勢(shì)是不言而喻的。初學(xué)統(tǒng)計(jì)的朋友,也一定被要求理解掌握以下這些概念:
population、sample、parameter、statistic、census、taget population、sampling unit、sampling element、sampling frame

這張圖即可說(shuō)明抽樣調(diào)查的各類區(qū)分。
sample size estimation
既然是抽樣調(diào)查,我們的目標(biāo)永遠(yuǎn)是,以最小的成本去獲得可接受的的 accuracy 和預(yù)期的 confidence level。當(dāng)我們想要展開(kāi)一項(xiàng)抽樣調(diào)查,無(wú)論它的 design 設(shè)定為如何,我們始終要先搞清楚具體要花多大的成本去調(diào)查多少人,才能滿足我們?cè)擁?xiàng)研究所需要的統(tǒng)計(jì)效能,以令人信服地說(shuō)明我們的研究結(jié)果。因而,我們要估算大致需要的樣本量。
首先,我們要清楚抽樣調(diào)查的樣本量具體會(huì)受哪些因素的影響:
后續(xù)分析方法的特定要求;
可接受的 accuracy;
樣本異質(zhì)性情況;
樣本可及性;
所使用抽樣技術(shù)。
也就是說(shuō),在確定抽樣所需要的樣本量時(shí),我們需要考慮以上這五個(gè)因素所帶來(lái)的影響,對(duì)于特定的研究要求,我們需要根據(jù)具體情況去具體調(diào)整。而一般地,我們?cè)谟?jì)算抽樣樣本量時(shí),遵循以下公式:
$$
n=\frac{z^2·p·(1-p)}{d^2}
$$
其中,z 確定 confidence level,z 值一般我們選擇 95% confidence level 所對(duì)應(yīng)的 1.96;p 為 target population 中某一個(gè)特征的百分比,若無(wú)前期數(shù)據(jù),一般設(shè)為 0.5;d 為可接受的 precision/accuracy level,一般我們?nèi)?0.05。
舉個(gè)例子,對(duì)于一項(xiàng) COVID-19 vaccination 的抽樣調(diào)查,我們作 convenience sampling,確定 95% confidence level, 假定目標(biāo)人群疫苗接種率為 50%,可接受的 accuray level 為 0.03,因而,對(duì)于這項(xiàng)調(diào)查研究,樣本量至少需要:
$$
n=\frac{1.96^2·0.5·0.5}{0.3^2}=1067
$$
