一文搞懂抽樣調(diào)查

抽樣調(diào)查是社會(huì)研究中常用到的方法,但是怎么樣做抽樣調(diào)查?抽樣調(diào)查需要注意什么?本文將提綱挈領(lǐng)的把抽樣調(diào)查的全貌展示給大家,讓大家對抽樣調(diào)查有一個(gè)總體的一個(gè)宏觀性的認(rèn)識。
抽樣調(diào)查中的兩次推論
抽樣調(diào)查中涉及到兩次推論,第一次推論是從受訪者的回答來推論受訪者的特征。我們的核心的目標(biāo)是要了解受訪者的特征,比如受訪者在一些基本的社會(huì)態(tài)度上的觀點(diǎn),但是受訪者的特征不會(huì)赤裸裸地展現(xiàn)在我們面前,我們需要通過一定的技術(shù),也就是問卷來問受訪者,然后通過受訪者對問卷的回答來推斷它的特征。所以從受訪者的回答到我們推斷他的特征的過程中就產(chǎn)生了第一次推論。如果說受訪者的回答能完美地吻合我們想要了解的目標(biāo)的情況下,那么這步推論的誤差就比較小,否則就會(huì)產(chǎn)生很大的誤差。這個(gè)環(huán)節(jié)我們稱為測量環(huán)節(jié)。所以第一次推論就是在測量中的推論,我們通過具體觀測到的結(jié)果,來推斷想要了解的目標(biāo)。
第二次推斷是通過樣本的特征推斷總體特征。研究中想要了解的是總體,總體是所研究對象構(gòu)成的全體。我們清楚,不可能去調(diào)查總體中的每一個(gè)個(gè)體,那么只能抽取一個(gè)樣本,通過這個(gè)樣本來了解總體的情況。樣本是來源于總體的,只要樣本是隨機(jī)的,符合概念抽象原理的,那么樣本一定會(huì)攜帶一些總體的特征,通過這個(gè)樣本是可以在一定程度上來推斷總體的。但是樣本不等于總體,所以這步推斷總是會(huì)存在一定的誤差。這一步推論我們稱為抽樣中的推斷,通過樣本特征來推斷總體特征。

由此可見,抽樣調(diào)查中有兩個(gè)核心環(huán)節(jié),一個(gè)是測量環(huán)節(jié),一個(gè)是抽樣環(huán)節(jié)。我們把這兩個(gè)環(huán)節(jié)結(jié)合在一起,最終通過統(tǒng)計(jì)學(xué)的計(jì)算得到一個(gè)統(tǒng)計(jì)指標(biāo),然后通過統(tǒng)計(jì)指標(biāo)得到研究中想要的個(gè)體的情況和總體的情況。統(tǒng)計(jì)指標(biāo)就是來源于測量和抽樣。這兩個(gè)環(huán)節(jié)中任意一個(gè)環(huán)節(jié)出現(xiàn)問題,統(tǒng)計(jì)指標(biāo)計(jì)算就會(huì)有問題。
所有抽樣調(diào)查都會(huì)涉及這兩次推斷,由這兩次推斷,我們可以知道抽樣調(diào)查涉及到兩個(gè)核心過程,一個(gè)是測量的過程,一個(gè)是抽樣的過程。
?

測量的過程怎么做?
首先有一個(gè)理論上的概念,就是測量的目標(biāo)。也是之前所說每個(gè)人的特征,這個(gè)特征來源于一個(gè)抽象的概念,社會(huì)科學(xué)中很多概念都是很抽象不太好測量的,比如說地位、權(quán)利等,怎么測量?這時(shí)候我們需要把測量的指標(biāo)落實(shí)到具體的測量問題上面,并且有一個(gè)具體的操作化的指標(biāo),把這些落實(shí)的過程就是一個(gè)測量的過程。
舉個(gè)例子,經(jīng)濟(jì)地位怎么測量?比如我們認(rèn)為收入可以反應(yīng)人的的經(jīng)濟(jì)地位,但是收入可能和我們想要測量的目標(biāo)還存在一定的差距,因?yàn)橛行┤耸杖氩⒉桓撸撬麄兊慕?jīng)濟(jì)地位很高,為什么呢?可能他有很多的財(cái)產(chǎn),所以財(cái)產(chǎn)也是一個(gè)人經(jīng)濟(jì)地位的表現(xiàn)。那究竟財(cái)產(chǎn)來測量經(jīng)濟(jì)地位好還是收入來測量經(jīng)濟(jì)地位好,這個(gè)是存在一定爭議的,這也就意味著具體的抽樣概念到操作化指標(biāo)之間一定存在落差,這個(gè)落差就是存在抽樣調(diào)查一個(gè)過程中的問題。
具體到的一個(gè)具體的測量指標(biāo),比如說收入,我們設(shè)計(jì)好一個(gè)問題:您過去一年的總收入是多少錢?這個(gè)問題需要受訪者回答。所以從一個(gè)落實(shí)到具體的問卷上的問題,到受訪者的回答是第二個(gè)測量過程。受訪者在回答這些問題的時(shí)候不一定會(huì)如實(shí)回答,比如說收入問題是比較敏感的問題,有些收入比較高的人,可能會(huì)低報(bào)收入,有些家庭可能很窮,他礙于面子,可能會(huì)高報(bào)收入。因此是從測量問卷上的問題,到受訪者回答之間會(huì)產(chǎn)生第二次誤差。
第三,通過受訪者的回答來推斷想要測量的概念的時(shí)候,我們還需要對數(shù)據(jù)進(jìn)行一些調(diào)整。我們要看這個(gè)數(shù)據(jù)有沒有一些特別奇怪的值,比如說極大值或極小值,它們可能不是真實(shí)的情況,而是人為誤差,比如說訪問員在記錄時(shí)可能多加了一個(gè)零,或者受訪者回答的時(shí)候刻意低報(bào)或者高報(bào)。對于這些敏感的值我們需要注意,有的時(shí)候需要把這些值進(jìn)行刪除。我們還需要對邏輯上的問題進(jìn)行校驗(yàn),舉個(gè)例子,調(diào)查時(shí)可能有人說他是1987年出生,1988年入黨,我們知道一定要年滿18歲才能入黨,那這兩個(gè)結(jié)果之間至少有一個(gè)是假的,也有可能兩個(gè)都是錯(cuò)的,這種有邏輯上的錯(cuò)誤的問題,就需要進(jìn)行校對,找出哪個(gè)更可能是錯(cuò)的,然后把錯(cuò)誤的值進(jìn)行修正或者刪除。所以從受訪者的回答到最后用來進(jìn)行計(jì)算的數(shù)據(jù)之間,需要進(jìn)行一步處理。這一步處理得好,可能糾正測量誤差,處理得不好,也可能帶來新的誤差。
整個(gè)測量過程要經(jīng)過這幾步,首先從理論概念落實(shí)到一個(gè)具體的問卷上的問題,從問卷上的問題再落實(shí)到受訪者的回答,然后再對受訪者的回答進(jìn)行事后的一些調(diào)整和處理,最后才能變成一個(gè)可以用來進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)。這是一個(gè)測量環(huán)節(jié)過程。
抽樣的過程怎么做?
抽樣的過程首先從一個(gè)目標(biāo)總體開始的。目標(biāo)總體指的是研究對象構(gòu)成的全體,比如中國人就是我們的目標(biāo)總體,我們想了解的目標(biāo)是所有中國人。所有中國人的概念好說,但是操作的時(shí)候是有難度的,這意味著我們需要找到一個(gè)所有中國人的名單,可能我們會(huì)通過戶籍登記的資料來獲取,但這些資料跟總體之間可能還會(huì)有誤差。
所以就會(huì)從一個(gè)抽樣總體到抽樣框。抽樣框就是實(shí)際可以操作的,總體中的每一個(gè)個(gè)體所構(gòu)成的名單,這個(gè)名單有時(shí)候跟我們的總體是有差異的。比如在南京市做調(diào)查,南京市所有人口的名單可能不能獲取,但是有另外一個(gè)替代辦法,即通過電話號碼來進(jìn)行抽樣,我們可義跟中國電信移動(dòng)聯(lián)通三大運(yùn)營商進(jìn)行合作,然后把活躍的南京市的用戶手機(jī)號拿到,以這個(gè)手機(jī)號作為抽樣框,也就是作為我們認(rèn)為的個(gè)體名單來進(jìn)行抽樣。但是這個(gè)手機(jī)號作為抽樣框是有問題的,首先有些人可能沒有手機(jī),有些人可能有多個(gè)手機(jī)號,可能有些人在南京生活,但他的手機(jī)號不是南京的。所以這些手機(jī)號跟我們的目標(biāo)總體之間不構(gòu)成一一對應(yīng)的關(guān)系,這里就會(huì)產(chǎn)生問題。從目標(biāo)總體到抽樣框之間就會(huì)產(chǎn)生誤差。
假定我們有了非常好的抽樣框,下一個(gè)環(huán)節(jié)要抽取樣本。抽樣框里面的元素可能非常多,每個(gè)元素都要進(jìn)行調(diào)查是不現(xiàn)實(shí)的。抽取一個(gè)樣本,這個(gè)樣本跟我們抽樣框之間可能就會(huì)有一定的誤差,因?yàn)樗皇且粋€(gè)樣本,不是抽樣框的全體。比如我們拿到南京市的抽樣框電話號碼,假如有1000萬個(gè),但我們不可能去打1000萬個(gè)電話,可能只需要打其中的50萬個(gè)電話或者10萬個(gè)電話,那這10萬個(gè)電話就構(gòu)成了這1000萬個(gè)電話的一個(gè)樣本,那這個(gè)樣本跟總體之間,跟抽樣框之間就會(huì)有一定的誤差。如果打了10萬個(gè)電話調(diào)查南京市的收入,發(fā)現(xiàn)人均月收入5000塊錢,再打10萬個(gè)電話,調(diào)查結(jié)果還是不是5000呢?就有可能是5100,也可能是4900,甚至可能還有其他的數(shù)字,如果再打電話,可能結(jié)果又變了。這個(gè)誤差就是抽樣過程中導(dǎo)致的誤差,從抽樣框到樣本之間會(huì)構(gòu)成第二次誤差。
第三次誤差是從樣本到受訪者的過程中產(chǎn)生的。剛剛舉例,抽出了10萬個(gè)電話號碼,但是這不代表這10萬個(gè)電話號碼都會(huì)接受調(diào)查。做過電話調(diào)查的人知道,電話拒訪率很高。拒訪會(huì)導(dǎo)致實(shí)際能調(diào)查到的人跟抽出來的人不完全一樣的一撥人,調(diào)查到的人一定會(huì)比抽取到的人少。如果樂意配合調(diào)查的人跟不配合的人之間有一定的差異,那受訪者跟抽出的樣本之間就有一定的誤差。如果受訪者樣本之間有一些系統(tǒng)性的差距,就會(huì)導(dǎo)致樣本的結(jié)構(gòu)跟總體的結(jié)構(gòu)有一定的偏差。這是抽樣過程中涉及到第三個(gè)誤差,從樣本到受訪者之間產(chǎn)生的誤差。
因?yàn)橛羞@些誤差,我們在拿到樣本以后,需要進(jìn)行事后的調(diào)整,比如對數(shù)據(jù)進(jìn)行加權(quán)處理等。這些辦法在一定程度上能夠糾正這些誤差,但有的時(shí)候也會(huì)產(chǎn)生新的誤差,總的來說抽樣的環(huán)節(jié)每一步都會(huì)產(chǎn)生誤差,直到最后拿到一個(gè)經(jīng)過我們調(diào)整后的樣本的數(shù)據(jù),再結(jié)合測量環(huán)節(jié)中得到的調(diào)整后的測量結(jié)果,將這兩個(gè)環(huán)節(jié)匯總進(jìn)行統(tǒng)計(jì)計(jì)算。
抽樣調(diào)查是經(jīng)常跟誤差打交道的學(xué)問
調(diào)查中只要有推論,就一定有誤差。推斷就是從一個(gè)不太可靠的東西來推斷一個(gè)確定的東西。所以抽樣調(diào)查任何一個(gè)調(diào)查都會(huì)有誤差,不要認(rèn)為抽樣調(diào)查做得好就沒有誤差,這是不可能的。而且誤差不能消除,只能減少。但是減少誤差是要付出成本的。這意味著可能要付出現(xiàn)金成本,時(shí)間成本,人力成本等。?
如果把所有可能出現(xiàn)的誤差全部放到抽樣調(diào)查中,就會(huì)產(chǎn)生這樣一個(gè)圖。
?

這還是之前的測量過程和抽樣過程,但是每一個(gè)環(huán)節(jié)都標(biāo)上了一種誤差。
這些誤差的概念究竟是什么意思?
每一種誤差如何降低?
如何測量?
訂閱南京大學(xué)許琪老師在學(xué)術(shù)志(微信公眾號ID:xueshuzhi001)的專欄《定量研究必備:抽樣調(diào)查21講》,即可學(xué)習(xí)全部內(nèi)容。
本文來自《定量研究必備:抽樣調(diào)查21講》中的第三講《抽樣調(diào)查中的推論與誤差》。
許琪:男,北京大學(xué)社會(huì)學(xué)系社會(huì)學(xué)專業(yè)法學(xué)博士,美國密歇根大學(xué)人口研究中心訪問學(xué)者,現(xiàn)為南京大學(xué)社會(huì)學(xué)院副教授。主要研究方向?yàn)椋荷鐣?huì)學(xué)量化研究方法、婚姻與家庭、社會(huì)分層與不平等。長期從事社會(huì)科學(xué)調(diào)查研究工作,擅長數(shù)據(jù)分析。
課程詳情
