標(biāo)準(zhǔn)誤(Standard Error)

1.標(biāo)準(zhǔn)誤概念
標(biāo)準(zhǔn)誤是數(shù)據(jù)統(tǒng)計(jì)的重點(diǎn)概念,且難以理解。百度上文章缺乏詳細(xì)描述的文章。所以寫下此文讓讀者能夠徹徹底底了解標(biāo)準(zhǔn)誤概念。
標(biāo)準(zhǔn)誤全稱:樣本均值的標(biāo)準(zhǔn)誤(Standard Error for the Sample Mean),顧名思義,標(biāo)準(zhǔn)誤是用于衡量樣本均值和總體均值的差距。
2.標(biāo)準(zhǔn)誤意義:
用于衡量樣本均值和總體均值的差距有多大?
標(biāo)準(zhǔn)誤越小----樣本均值和總體均值差距越小
標(biāo)準(zhǔn)誤越大----樣本均值和總體均值差距越大
標(biāo)準(zhǔn)誤用于預(yù)測樣本數(shù)據(jù)準(zhǔn)確性 ,標(biāo)準(zhǔn)誤越小,樣本均值和總體均值差距越小,樣本數(shù)據(jù)越能代表總體數(shù)據(jù)。
3.標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差區(qū)別:
對(duì)一個(gè)總體多次抽樣,每次樣本大小都為n,那么每個(gè)樣本都有自己的平均值,這些平均值的標(biāo)準(zhǔn)差叫做標(biāo)準(zhǔn)誤。
標(biāo)準(zhǔn)差是單次抽樣得到的,用單次抽樣得到的標(biāo)準(zhǔn)差可以估計(jì)多次抽樣才能得到的標(biāo)準(zhǔn)誤差
標(biāo)準(zhǔn)差表示數(shù)據(jù)離散程度:
標(biāo)準(zhǔn)差越大,分布越廣,集中程度越差,均值代表性越差
標(biāo)準(zhǔn)差越小,分布集中在平均值附近,均值代表性更好

標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤不同應(yīng)用范圍:
標(biāo)準(zhǔn)差:(圖左)在正負(fù)兩個(gè)標(biāo)準(zhǔn)差(95%概率下),Jack消耗時(shí)間在68-132秒之間。
標(biāo)準(zhǔn)誤:(圖右)在正負(fù)兩個(gè)標(biāo)準(zhǔn)誤,Jack消耗平均時(shí)間大約在95-105秒之間。

4.標(biāo)準(zhǔn)誤計(jì)算例子
什么是真實(shí)的標(biāo)準(zhǔn)誤?舉個(gè)例子,對(duì)一個(gè)總體12次抽樣,生成12個(gè)樣本,每個(gè)樣本大小都為5。那么每個(gè)樣本都有自己的平均值,這些平均值的標(biāo)準(zhǔn)差叫做標(biāo)準(zhǔn)誤差。這里就是對(duì)表格最后一行數(shù)組計(jì)算標(biāo)準(zhǔn)差(100,101,99,114,103.....93),最后算出來標(biāo)準(zhǔn)誤結(jié)果為6.33。

但是為了得到標(biāo)準(zhǔn)誤,我們不可能做很多次科學(xué)實(shí)驗(yàn)。實(shí)際上我們可以做一次樣本實(shí)驗(yàn),然后采用估算公式:

如下圖,我們用第一組樣本估算真實(shí)標(biāo)準(zhǔn)誤,此樣本標(biāo)準(zhǔn)差除以根號(hào)n,結(jié)果為7.16, 然后把7.16約等為真實(shí)的標(biāo)準(zhǔn)誤6.33。
所以標(biāo)準(zhǔn)誤也是另外一種形式的標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)誤和總體標(biāo)準(zhǔn)差既有相似處,又有區(qū)別。標(biāo)準(zhǔn)誤是一個(gè)比較難得概念,讀者一次不能很好理解,如果反復(fù)看此文章,然后自己動(dòng)手程序模擬,就會(huì)增強(qiáng)直觀印象,加深理解。

所有的隨機(jī)樣本中,如果數(shù)量相同,它們的標(biāo)準(zhǔn)誤默認(rèn)為近似相同(非真正相同)

5.標(biāo)準(zhǔn)誤的應(yīng)用
我們有兩組數(shù)據(jù),一組觀看了指導(dǎo)視頻,一組沒有觀看指導(dǎo)視頻,比較兩組數(shù)據(jù)在得分方面有無顯著差異?
隨著樣本量不同,我們得到的結(jié)果不同。圖左,兩組數(shù)據(jù)沒有區(qū)別,圖中兩組數(shù)據(jù)可能有區(qū)別,可能沒有;圖右兩組數(shù)據(jù)有區(qū)別
樣本量為3時(shí),看視頻組的2*標(biāo)準(zhǔn)誤為15,沒看視頻的2*標(biāo)準(zhǔn)誤為13。
樣本量小時(shí),標(biāo)準(zhǔn)誤很大,樣本均值和總體均值差異很大,樣本數(shù)據(jù)的代表性很差。

樣本量為5時(shí),看視頻組的2*標(biāo)準(zhǔn)誤為9,沒看視頻的2*標(biāo)準(zhǔn)誤為10。
樣本量增大后,標(biāo)準(zhǔn)誤變小。

樣本量為10時(shí),看視頻組的2*標(biāo)準(zhǔn)誤為7,沒看視頻的2*標(biāo)準(zhǔn)誤為6。
樣本量增大后,標(biāo)準(zhǔn)誤再次變小

隨著樣本量不同,我們得到的結(jié)果不同。下面的圖左(樣本量為3),兩組數(shù)據(jù)沒有區(qū)別,圖中(樣本量為5)兩組數(shù)據(jù)可能有區(qū)別,可能沒有;圖右(樣本量為10)兩組數(shù)據(jù)有區(qū)別
實(shí)際上,眾多畢業(yè)論文和專業(yè)期刊的統(tǒng)計(jì)分析都是錯(cuò)的,雖有華麗的可視化圖表,但新手很容易因樣本量太小得到錯(cuò)誤結(jié)果。

6.蒙特卡洛模擬
蒙特卡洛驗(yàn)證,對(duì)一組樣本進(jìn)行標(biāo)準(zhǔn)誤評(píng)估,看公式SE = s/√(n)是否準(zhǔn)確
結(jié)果表明SE = s/√(n)公式得到的標(biāo)準(zhǔn)誤和真實(shí)標(biāo)準(zhǔn)誤非常接近

樣本值100,標(biāo)準(zhǔn)誤很小,大約0.1

樣本值10,標(biāo)準(zhǔn)誤增大,大約0.33

樣本值5,標(biāo)準(zhǔn)誤再次增大,大約0.45

源代碼如下
歡迎各位學(xué)習(xí)更多數(shù)據(jù)分析知識(shí)(博主錄制)
