為什么樣本方差(sample variance)的分母是 n-1?
2021-06-18 10:40 作者:馬同學圖解數(shù)學 | 我要投稿
先把問題完整的描述下。
如果已知隨機變量的期望為
,那么可以如下計算方差
:
上面的式子需要知道的具體分布是什么(在現(xiàn)實應用中往往不知道準確分布),計算起來也比較復雜。
所以實踐中常常采樣之后,用下面這個來近似
:
?
其實現(xiàn)實中,往往連的期望
也不清楚,只知道樣本的均值:
那么可以這么來計算:
那這里就有兩個問題了:
為什么可以用
來近似
?
為什么使用
替代
之后,分母是
?
我們來仔細分析下細節(jié),就可以弄清楚這兩個問題。
1 為什么可以用來近似
?
舉個例子,假設服從這么一個正態(tài)分布:
即?圖形如下:

當然,現(xiàn)實中往往并不清楚服從的分布是什么,具體參數(shù)又是什么?所以我用虛線來表明我們并不是真正知道
的分布:

很幸運的,我們知道,因此對
采樣,并通過:
來估計。某次采樣計算出來的
:

看起來比要小。采樣具有隨機性,我們多采樣幾次,
會圍繞
上下波動:

用作為
的一個估計量,算是可以接受的選擇。?
很容易算出:

這也就是所謂的無偏估計量。從這個分布來看,選擇作為估計量確實可以接受。
2 為什么使用替代
之后,分母是
?
更多的情況,我們不知道是多少的,只能計算出
。不同的采樣對應不同的
:

對于某次采樣而言,當時,下式取得最小值:
我們也是比較容易從圖像中觀察出這一點,只要偏離
,該值就會增大:

所以可知:
可推出:
進而推出:
如果用下面這個式子來估計:
那么采樣均值會服從一個偏離
的正態(tài)分布:

可見,此分布傾向于低估。
具體小了多少,我們可以來算下:
其中:
所以我們接著算下去:
其中:
所以:
也就是說,低估了,進行一下調(diào)整:
因此使用下面這個式子進行估計,得到的就是無偏估計:
更多內(nèi)容請關(guān)注:馬同學圖解數(shù)學
標簽: