置信區(qū)間(confidence interval)
在商業(yè)環(huán)境中,數(shù)據(jù)人員通常會收集一些數(shù)據(jù),比如用戶在網(wǎng)站上花費的時間,然后計算關(guān)于這些數(shù)據(jù)的一些統(tǒng)計數(shù)據(jù),比如在網(wǎng)站上花費的平均或中值時間,最后呈現(xiàn)這些總結(jié)向業(yè)務(wù)提供統(tǒng)計數(shù)據(jù)。然而假設(shè)檢查了 500 個會話,并計算出用戶在網(wǎng)站上平均花費 10 分鐘。你確定如果收集更多的數(shù)據(jù),這個 10 分鐘的平均值不會改變嗎?是否偶然目睹了一個不可代表的樣本?如果等到周末也收集數(shù)據(jù),這會不會可能有所不同。我們怎么知道我們是否有足夠的數(shù)據(jù)呢?如何量化我們對其計算的平均值、中位數(shù)等的信心?
數(shù)據(jù)方差和標準差
低標準偏差表明數(shù)據(jù)點往往接近平均值。很明顯,如果我們收集的數(shù)據(jù)點更接近真實的平均值,我們往往對這個平均值更有信心。直觀地演示一下,將生成兩組 500 個正態(tài)分布的數(shù)據(jù)點,均值為 10,但一組的標準差為 1,另一組的標準差為 3。然后使用直方圖繪制它們。

我們不需要廣泛的統(tǒng)計知識就可以得出結(jié)論,我們可以對標準差較低的數(shù)據(jù)集(藍色直方圖)與標準差較高的數(shù)據(jù)集(橙色直方圖)的平均值更有信心。
數(shù)據(jù)量大?。∟)
當(dāng)我們有數(shù)百萬用戶訪問我們的網(wǎng)站時,我們計算他們花費的平均時間,結(jié)果是 10 分鐘;如果我們隨機抽取幾個會話,比如說 5 個會話,它們的平均值不會正好是 10 分鐘。如果我們抽取了 10,000 個會話的樣本,那么平均持續(xù)時間將更接近 10 分鐘的實際平均值。
直觀地演示這一點。從均值 = 10,標準差 = 3 的正態(tài)分布中生成 10 個樣本,每個樣本包含 5 個數(shù)據(jù)點。

正如預(yù)期的那樣,樣本均值無處不在?,F(xiàn)在,如果使用更大的樣本 50 個數(shù)據(jù)點,則均值將向真實均值收斂,如下圖所示。

標準差和樣本量是影響計算統(tǒng)計量置信度的兩種因素,標準誤是一種測量方法來組合這兩種因素。
標準誤
標準誤是標準差除以樣本量的平方根。

數(shù)據(jù)的方差越大,對計算統(tǒng)計量的置信度就越低;樣本量越小,置信度就越低。在這里,我們從具有恒定均值 (10) 但不同標準差 (1 或 3) 的總體中抽取 4 個樣本。樣本也有不同的大?。? 或 50)。

置信區(qū)間
我們可以使用標準誤差來判斷均值可能在 [Mean — STD.Error, Mean + STD.Error]。然而,為什么不擴大我們的范圍成為 [Mean — 2STD.Error, Mean + 2STD.Error]。對于正態(tài)分布,大約 68% 的數(shù)據(jù)落在一個標準差(這里指抽樣分布的標準差,即標準誤)內(nèi),大約 95% 的數(shù)據(jù)落在均值的兩個標準差內(nèi)。這些數(shù)字來自正態(tài)分布的形狀,并表示為 Z 分數(shù)。如果檢查這些分數(shù),會發(fā)現(xiàn) Z-Score 為 1 的置信度約為 68%,分數(shù)為 2(準確地說是 1.96)給出的置信度為 95%,而分數(shù)為 2.58 的置信度為 99%。
簡單地說,我們有 95% 的信心認為均值落在 [Mean — 1.96STD.Error, Mean + 1.96STD.Error],并且有 99% 的信心認為均值落在更寬的范圍內(nèi) [Mean — 2.58STD.Error, Mean + 2.58STD.Error]。這些范圍就是我們所說的置信區(qū)間。
如果是非正態(tài)數(shù)據(jù)呢?
到目前為止,我們一直在使用來自正態(tài)分布的數(shù)據(jù)。在現(xiàn)實生活中,數(shù)據(jù)很少來自正態(tài)分布。該如何處理這些情況呢?中心極限定理指出,如果我們有一個均值為 μ 的數(shù)據(jù),我們從這些數(shù)據(jù)中取出多個樣本,并計算每個樣本的均值,無論原始數(shù)據(jù)的形狀,這個均值的抽樣分布將是正態(tài)分布,其分布的均值等于 μ。因此,無論原始數(shù)據(jù)的形狀如何,這里重要的分布都將是正態(tài)分布。然而,中心極限定理不適用于中位數(shù)或分位數(shù),因為它適用于均值或總和。
轉(zhuǎn)載https://mp.weixin.qq.com/s/E32_WHV6Hg5uzlLaaT1Qjw
