最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

置信區(qū)間(confidence interval)

2021-07-04 21:44 作者:python風(fēng)控模型  | 我要投稿

在商業(yè)環(huán)境中,數(shù)據(jù)人員通常會收集一些數(shù)據(jù),比如用戶在網(wǎng)站上花費的時間,然后計算關(guān)于這些數(shù)據(jù)的一些統(tǒng)計數(shù)據(jù),比如在網(wǎng)站上花費的平均或中值時間,最后呈現(xiàn)這些總結(jié)向業(yè)務(wù)提供統(tǒng)計數(shù)據(jù)。然而假設(shè)檢查了 500 個會話,并計算出用戶在網(wǎng)站上平均花費 10 分鐘。你確定如果收集更多的數(shù)據(jù),這個 10 分鐘的平均值不會改變嗎?是否偶然目睹了一個不可代表的樣本?如果等到周末也收集數(shù)據(jù),這會不會可能有所不同。我們怎么知道我們是否有足夠的數(shù)據(jù)呢?如何量化我們對其計算的平均值、中位數(shù)等的信心?

數(shù)據(jù)方差和標準差

低標準偏差表明數(shù)據(jù)點往往接近平均值。很明顯,如果我們收集的數(shù)據(jù)點更接近真實的平均值,我們往往對這個平均值更有信心。直觀地演示一下,將生成兩組 500 個正態(tài)分布的數(shù)據(jù)點,均值為 10,但一組的標準差為 1,另一組的標準差為 3。然后使用直方圖繪制它們。

圖片
不同標準差的正態(tài)分布圖

我們不需要廣泛的統(tǒng)計知識就可以得出結(jié)論,我們可以對標準差較低的數(shù)據(jù)集(藍色直方圖)與標準差較高的數(shù)據(jù)集(橙色直方圖)的平均值更有信心。

數(shù)據(jù)量大?。∟)

當(dāng)我們有數(shù)百萬用戶訪問我們的網(wǎng)站時,我們計算他們花費的平均時間,結(jié)果是 10 分鐘;如果我們隨機抽取幾個會話,比如說 5 個會話,它們的平均值不會正好是 10 分鐘。如果我們抽取了 10,000 個會話的樣本,那么平均持續(xù)時間將更接近 10 分鐘的實際平均值。

直觀地演示這一點。從均值 = 10,標準差 = 3 的正態(tài)分布中生成 10 個樣本,每個樣本包含 5 個數(shù)據(jù)點。

圖片
小樣本;均值差異更大

正如預(yù)期的那樣,樣本均值無處不在?,F(xiàn)在,如果使用更大的樣本 50 個數(shù)據(jù)點,則均值將向真實均值收斂,如下圖所示。

圖片
大樣本;均值差異較小

標準差和樣本量是影響計算統(tǒng)計量置信度的兩種因素,標準誤是一種測量方法來組合這兩種因素。

標準誤

標準誤是標準差除以樣本量的平方根。

圖片

數(shù)據(jù)的方差越大,對計算統(tǒng)計量的置信度就越低;樣本量越小,置信度就越低。在這里,我們從具有恒定均值 (10) 但不同標準差 (1 或 3) 的總體中抽取 4 個樣本。樣本也有不同的大?。? 或 50)。

圖片

置信區(qū)間

我們可以使用標準誤差來判斷均值可能在 [Mean — STD.Error, Mean + STD.Error]。然而,為什么不擴大我們的范圍成為 [Mean — 2STD.Error, Mean + 2STD.Error]。對于正態(tài)分布,大約 68% 的數(shù)據(jù)落在一個標準差(這里指抽樣分布的標準差,即標準誤)內(nèi),大約 95% 的數(shù)據(jù)落在均值的兩個標準差內(nèi)。這些數(shù)字來自正態(tài)分布的形狀,并表示為 Z 分數(shù)。如果檢查這些分數(shù),會發(fā)現(xiàn) Z-Score 為 1 的置信度約為 68%,分數(shù)為 2(準確地說是 1.96)給出的置信度為 95%,而分數(shù)為 2.58 的置信度為 99%。

簡單地說,我們有 95% 的信心認為均值落在 [Mean — 1.96STD.Error, Mean + 1.96STD.Error],并且有 99% 的信心認為均值落在更寬的范圍內(nèi) [Mean — 2.58STD.Error, Mean + 2.58STD.Error]。這些范圍就是我們所說的置信區(qū)間。

如果是非正態(tài)數(shù)據(jù)呢?

到目前為止,我們一直在使用來自正態(tài)分布的數(shù)據(jù)。在現(xiàn)實生活中,數(shù)據(jù)很少來自正態(tài)分布。該如何處理這些情況呢?中心極限定理指出,如果我們有一個均值為 μ 的數(shù)據(jù),我們從這些數(shù)據(jù)中取出多個樣本,并計算每個樣本的均值,無論原始數(shù)據(jù)的形狀,這個均值的抽樣分布將是正態(tài)分布,其分布的均值等于 μ。因此,無論原始數(shù)據(jù)的形狀如何,這里重要的分布都將是正態(tài)分布。然而,中心極限定理不適用于中位數(shù)或分位數(shù),因為它適用于均值或總和。

轉(zhuǎn)載https://mp.weixin.qq.com/s/E32_WHV6Hg5uzlLaaT1Qjw




置信區(qū)間(confidence interval)的評論 (共 條)

分享到微博請遵守國家法律
简阳市| 政和县| 太谷县| 安新县| 湟源县| 资溪县| 贡山| 曲阜市| 新龙县| 渭南市| 友谊县| 乌海市| 柞水县| 修武县| 牡丹江市| 九寨沟县| 彩票| 嫩江县| 渝北区| 南投县| 莱州市| 龙口市| 郓城县| 乌审旗| 张掖市| 博兴县| 高青县| 宁城县| 赤峰市| 固阳县| 台中市| 陈巴尔虎旗| 保德县| 利川市| 垣曲县| 义乌市| 万安县| 潢川县| 建阳市| 金湖县| 鄂伦春自治旗|