【白話數(shù)據(jù)分析】聊聊“標(biāo)準(zhǔn)差”在數(shù)分中的應(yīng)用
00
寫(xiě)在前面
很久沒(méi)有更新文章了,很多粉絲也在不斷地催更,之所以一直沒(méi)有更新,一方面不想因?yàn)楦露拢@樣出來(lái)的內(nèi)容質(zhì)量也不高,另一方面,我公眾號(hào)的文章都是按照系列更新的,并不是零散的知識(shí)點(diǎn),這樣更便于大家系統(tǒng)地查看,如果大家有看過(guò),應(yīng)該注意到,到目前為止,我已經(jīng)更新了
【初識(shí)數(shù)據(jù)分析】、【數(shù)據(jù)分析思維】、【數(shù)據(jù)分析工具】、【數(shù)據(jù)分析統(tǒng)計(jì)學(xué)】、【數(shù)據(jù)分析面試寶典】、【機(jī)器學(xué)習(xí)】
等6個(gè)系列,所以我也一直在思考,接下來(lái)和大家聊一聊哪些話題、寫(xiě)哪個(gè)系列。
不知道大家有沒(méi)有類似的經(jīng)歷?有沒(méi)有曾經(jīng)因?yàn)樽非蟾叨说乃惴ê凸ぞ叨鴽](méi)有及時(shí)交付最終的業(yè)務(wù)結(jié)果,最后被老板一通批評(píng);有沒(méi)有拿著一個(gè)單點(diǎn)的數(shù)據(jù)分析結(jié)果就給出了一個(gè)全面的結(jié)論和建議;有沒(méi)有給過(guò)一些因果倒置或者“幸存者偏差”的結(jié)論,導(dǎo)致業(yè)務(wù)走了彎路。 這些經(jīng)歷大家多多少少都會(huì)遇到,為什么會(huì)犯這些錯(cuò)誤?因?yàn)槲覀內(nèi)狈α艘恍┗镜臄?shù)據(jù)分析思維。剛好最近一直在拜讀郭煒的【數(shù)據(jù)分析思維課】,講地很好,內(nèi)容深入淺出,很接地氣。我們很多人缺乏的不是數(shù)據(jù)分析的理論,而是在實(shí)際場(chǎng)景中應(yīng)用理論的能力,理論+實(shí)際場(chǎng)景=方法論,如何把看似浮在空中的理論落地到實(shí)際的工作場(chǎng)景中來(lái),就需要通過(guò)
簡(jiǎn)單易懂的案例和近似白話的語(yǔ)言傳達(dá)出來(lái),這也是為什么會(huì)有【白話數(shù)據(jù)分析】這個(gè)系列的原因。
無(wú)論你是什么階段什么水平,我們從生活/工作中最常見(jiàn)的案例出發(fā),用最直白的文字把理論講清楚,真正掌握數(shù)據(jù)分析的基本思維和原理,這也是寫(xiě)這個(gè)系列文章的初衷。 因?yàn)槭前自挘栽谶@個(gè)系列文章中,
沒(méi)有晦澀難懂的公式和復(fù)雜的程序,我只是希望用大白話的形式,結(jié)合工作和生活中的各種各樣的例子,學(xué)會(huì)怎樣從數(shù)據(jù)分析的角度來(lái)解決這些問(wèn)題,掌握一些數(shù)據(jù)分析最基本的知識(shí)
。放我們?cè)倏创患虑榈臅r(shí)候,思路和以前不一樣了,可以從數(shù)據(jù)的角度來(lái)詮釋身邊發(fā)生的事情,用數(shù)據(jù)的思維來(lái)做出你的判斷。
01 舉個(gè)栗子
作為數(shù)據(jù)分析師,標(biāo)準(zhǔn)差(Standard Deviation)是我們最熟悉的概念之一,它是描述數(shù)據(jù)分布形態(tài)和離散程度的重要指標(biāo)之一。在本文中,我將從多個(gè)角度來(lái)解析標(biāo)準(zhǔn)差,包括其定義、作用、應(yīng)用場(chǎng)景等,并且通過(guò)實(shí)際案例來(lái)闡述其在數(shù)據(jù)分析中的重要性。
1.1 什么是標(biāo)準(zhǔn)差?
標(biāo)準(zhǔn)差是衡量一組數(shù)據(jù)變化程度的統(tǒng)計(jì)量,
其實(shí)質(zhì)是用來(lái)描述數(shù)據(jù)的分散程度。標(biāo)準(zhǔn)差越大,表示數(shù)據(jù)越分散;標(biāo)準(zhǔn)差越小,表示數(shù)據(jù)越集中
。標(biāo)準(zhǔn)差是樣本或總體內(nèi)所有數(shù)據(jù)與平均值之間距離的平均值。簡(jiǎn)單來(lái)說(shuō),標(biāo)準(zhǔn)差是衡量一組數(shù)據(jù)相對(duì)于平均值的分散程度。
1.2 標(biāo)準(zhǔn)差的作用
標(biāo)準(zhǔn)差在數(shù)據(jù)分析中有多個(gè)重要作用:
1.2.1 描述數(shù)據(jù)分布的形態(tài)?
標(biāo)準(zhǔn)差可以幫助我們判斷數(shù)據(jù)的分布形態(tài)。當(dāng)標(biāo)準(zhǔn)差較小時(shí),數(shù)據(jù)集中在平均值附近,分布形態(tài)比較集中;而當(dāng)標(biāo)準(zhǔn)差較大時(shí),數(shù)據(jù)相對(duì)于平均值更為分散,分布形態(tài)比較散。通過(guò)標(biāo)準(zhǔn)差,我們可以大致了解數(shù)據(jù)的形態(tài),進(jìn)而選擇適當(dāng)?shù)姆治龇椒ā?
1.2.2 衡量數(shù)據(jù)的離散程度?
標(biāo)準(zhǔn)差可以衡量一組數(shù)據(jù)的離散程度,進(jìn)而判斷數(shù)據(jù)的穩(wěn)定性
。標(biāo)準(zhǔn)差越小,表示數(shù)據(jù)的離散程度越小,數(shù)據(jù)變化越穩(wěn)定;標(biāo)準(zhǔn)差越大,表示數(shù)據(jù)的離散程度越大,數(shù)據(jù)變化越不穩(wěn)定。通過(guò)標(biāo)準(zhǔn)差,我們可以判斷數(shù)據(jù)的穩(wěn)定性,從而確定相應(yīng)的風(fēng)險(xiǎn)控制策略。
1.2.3 標(biāo)準(zhǔn)差與均值的關(guān)系?
標(biāo)準(zhǔn)差與均值有著密切的關(guān)系。當(dāng)數(shù)據(jù)分布集中時(shí),標(biāo)準(zhǔn)差較小,均值較準(zhǔn)確;而當(dāng)數(shù)據(jù)分布較分散時(shí),標(biāo)準(zhǔn)差較大,均值較不準(zhǔn)確。在數(shù)據(jù)分析中,
我們需要綜合考慮標(biāo)準(zhǔn)差和均值來(lái)判斷數(shù)據(jù)的可靠性和準(zhǔn)確性
。
02?數(shù)據(jù)分析案例
案例:網(wǎng)站用戶訪問(wèn)量分析 假設(shè)某互聯(lián)網(wǎng)公司要分析其網(wǎng)站的用戶訪問(wèn)量,以便確定運(yùn)營(yíng)方案。公司首先收集了一個(gè)月的用戶訪問(wèn)數(shù)據(jù),共計(jì)30天。我們可以通過(guò)計(jì)算標(biāo)準(zhǔn)差來(lái)判斷用戶訪問(wèn)量的穩(wěn)定性。 首先,我們將用戶訪問(wèn)量按照日期進(jìn)行排列,然后計(jì)算平均值。如下表所示: 日期 訪問(wèn)量 1 500 2 550 3 480 ...... 30 520 平均值 = (500 + 550 + 480 + ... + 520) / 30 = 510
接下來(lái),我們計(jì)算每天的訪問(wèn)量與平均值的差值,并對(duì)其進(jìn)行平方。如下表所示: 日期訪問(wèn)量平均值差值平方差 1 500 510 -10 100 2 550 510 40 1600 3 480 510 -30 900 ............... 30 520 510 10 100 然后,我們將平方差的和除以總天數(shù),再將結(jié)果開(kāi)根號(hào),即可得到標(biāo)準(zhǔn)差。如下所示: 標(biāo)準(zhǔn)差 = √(100 + 1600 + 900 + ... + 100) / 30 = 31.62
通過(guò)計(jì)算標(biāo)準(zhǔn)差,我們可以判斷用戶訪問(wèn)量的穩(wěn)定程度。如果標(biāo)準(zhǔn)差較小,說(shuō)明用戶訪問(wèn)量相對(duì)穩(wěn)定,我們可以采取較為穩(wěn)定的運(yùn)營(yíng)方案;如果標(biāo)準(zhǔn)差較大,說(shuō)明用戶訪問(wèn)量波動(dòng)較大,我們需要考慮更為靈活的運(yùn)營(yíng)方案。
03?標(biāo)準(zhǔn)差的使用場(chǎng)景
3.1 確定數(shù)據(jù)的可靠性
在數(shù)據(jù)分析過(guò)程中,我們經(jīng)常需要判斷數(shù)據(jù)的可靠性。標(biāo)準(zhǔn)差是判斷數(shù)據(jù)是否穩(wěn)定的重要指標(biāo)之一,如果標(biāo)準(zhǔn)差較小,說(shuō)明數(shù)據(jù)較為穩(wěn)定,我們可以相對(duì)放心地使用數(shù)據(jù);如果標(biāo)準(zhǔn)差較大,說(shuō)明數(shù)據(jù)波動(dòng)較大,我們需要考慮數(shù)據(jù)的可靠性,以免影響分析結(jié)果的準(zhǔn)確性。
3.2 判斷數(shù)據(jù)是否異常
在數(shù)據(jù)分析過(guò)程中,我們還需要判斷數(shù)據(jù)是否存在異常值。如果某個(gè)數(shù)據(jù)的值遠(yuǎn)遠(yuǎn)超過(guò)其他數(shù)據(jù),可能是因?yàn)閿?shù)據(jù)錄入錯(cuò)誤或數(shù)據(jù)本身存在問(wèn)題。我們
可以通過(guò)計(jì)算標(biāo)準(zhǔn)差來(lái)判斷數(shù)據(jù)是否異常,如果某個(gè)數(shù)據(jù)的值超過(guò)平均值2-3倍的標(biāo)準(zhǔn)差,我們可以將其判斷為異常值
。
3.3 優(yōu)化數(shù)據(jù)采樣方案
在進(jìn)行數(shù)據(jù)分析時(shí),我們經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行采樣,以便快速地得出結(jié)論。然而,采樣本身也可能會(huì)帶來(lái)誤差,因此我們需要優(yōu)化采樣方案,以減小誤差。
標(biāo)準(zhǔn)差可以幫助我們衡量采樣誤差的大小,如果標(biāo)準(zhǔn)差較小,說(shuō)明采樣誤差較小,我們可以使用較小的樣本量得到較為準(zhǔn)確的結(jié)論;如果標(biāo)準(zhǔn)差較大,說(shuō)明采樣誤差較大,我們需要采集更多的樣本數(shù)據(jù),以減小誤差
。
04?總結(jié)
標(biāo)準(zhǔn)差是數(shù)據(jù)分析中非常重要的指標(biāo),可以描述數(shù)據(jù)分布的形態(tài),衡量數(shù)據(jù)的離散程度,同時(shí)與均值密切相關(guān)。在數(shù)據(jù)分析過(guò)程中,我們可以通過(guò)計(jì)算標(biāo)準(zhǔn)差來(lái)判斷數(shù)據(jù)的穩(wěn)定性和可靠性,判斷數(shù)據(jù)是否存在異常值,以及優(yōu)化數(shù)據(jù)采樣方案。因此,我們需要深入理解標(biāo)準(zhǔn)差的概念和計(jì)算方法,并在實(shí)踐中靈活運(yùn)用,以提高數(shù)據(jù)分析的準(zhǔn)確性和效率。