最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【白話數(shù)據(jù)分析】從數(shù)分角度聊聊“辛普森悖論”和平均值

2023-02-06 09:08 作者:數(shù)據(jù)分析星球  | 我要投稿

00

寫在前面

很久沒(méi)有更新文章了,很多粉絲也在不斷地催更,之所以一直沒(méi)有更新,一方面不想因?yàn)楦露?,這樣出來(lái)的內(nèi)容質(zhì)量也不高,另一方面,我公眾號(hào)的文章都是按照系列更新的,并不是零散的知識(shí)點(diǎn),這樣更便于大家系統(tǒng)地查看,如果大家有看過(guò),應(yīng)該注意到,到目前為止,我已經(jīng)更新了

【初識(shí)數(shù)據(jù)分析】、【數(shù)據(jù)分析思維】、【數(shù)據(jù)分析工具】、【數(shù)據(jù)分析統(tǒng)計(jì)學(xué)】、【數(shù)據(jù)分析面試寶典】、【機(jī)器學(xué)習(xí)】

等6個(gè)系列,所以我也一直在思考,接下來(lái)和大家聊一聊哪些話題、寫哪個(gè)系列。 不知道大家有沒(méi)有類似的經(jīng)歷?有沒(méi)有曾經(jīng)因?yàn)樽非蟾叨说乃惴ê凸ぞ叨鴽](méi)有及時(shí)交付最終的業(yè)務(wù)結(jié)果,最后被老板一通批評(píng);有沒(méi)有拿著一個(gè)單點(diǎn)的數(shù)據(jù)分析結(jié)果就給出了一個(gè)全面的結(jié)論和建議;有沒(méi)有給過(guò)一些因果倒置或者“幸存者偏差”的結(jié)論,導(dǎo)致業(yè)務(wù)走了彎路。 這些經(jīng)歷大家多多少少都會(huì)遇到,為什么會(huì)犯這些錯(cuò)誤?因?yàn)槲覀內(nèi)狈α艘恍┗镜臄?shù)據(jù)分析思維。剛好最近一直在拜讀郭煒的【數(shù)據(jù)分析思維課】,講地很好,內(nèi)容深入淺出,很接地氣。我們很多人缺乏的不是數(shù)據(jù)分析的理論,而是在實(shí)際場(chǎng)景中應(yīng)用理論的能力,理論+實(shí)際場(chǎng)景=方法論,如何把看似浮在空中的理論落地到實(shí)際的工作場(chǎng)景中來(lái),就需要通過(guò)

簡(jiǎn)單易懂的案例和近似白話的語(yǔ)言傳達(dá)出來(lái),這也是為什么會(huì)有【白話數(shù)據(jù)分析】這個(gè)系列的原因。

無(wú)論你是什么階段什么水平,我們從生活/工作中最常見的案例出發(fā),用最直白的文字把理論講清楚,真正掌握數(shù)據(jù)分析的基本思維和原理,這也是寫這個(gè)系列文章的初衷。 因?yàn)槭前自?,所以在這個(gè)系列文章中,

沒(méi)有晦澀難懂的公式和復(fù)雜的程序,我只是希望用大白話的形式,結(jié)合工作和生活中的各種各樣的例子,學(xué)會(huì)怎樣從數(shù)據(jù)分析的角度來(lái)解決這些問(wèn)題,掌握一些數(shù)據(jù)分析最基本的知識(shí)

。放我們?cè)倏创患虑榈臅r(shí)候,思路和以前不一樣了,可以從數(shù)據(jù)的角度來(lái)詮釋身邊發(fā)生的事情,用數(shù)據(jù)的思維來(lái)做出你的判斷。

01

舉個(gè)栗子

最近,公司的一位數(shù)據(jù)分析同事的競(jìng)品分析報(bào)告里提到:“我們客戶的平均客單價(jià)是 100元錢,競(jìng)爭(zhēng)對(duì)手的只有 50 元,我們的客戶比對(duì)方的高端多了。所以我們產(chǎn)品要走高端路線”

這些結(jié)論可信嗎?還真不一定

。 再舉一個(gè)例子,某游戲公司做了款游戲,有 Android 和 iOS 版本。一個(gè)數(shù)據(jù)分析師看完用戶的付費(fèi)數(shù)據(jù)后,發(fā)現(xiàn)整體上 iOS 付費(fèi)率比較高。他就直接告訴老板說(shuō),“我們 iOS的用戶付費(fèi)率要高于Android的用戶付費(fèi)率,我們應(yīng)該集中資源開發(fā)iOS客戶端!”

這個(gè)結(jié)論可信么?還真不一定

。 我們?cè)谌粘I钪幸矔?huì)遇到這種情況,可以看到各種統(tǒng)計(jì)數(shù)據(jù),“某市的人均住房面積是 120 平米”,“全國(guó)人均年收入超過(guò) 30 萬(wàn)元”,看完這個(gè)數(shù)據(jù)之后,開始懷疑人生了,對(duì)不起,我那么有錢我自己都不知道。

02

平均值為啥不靠譜?

以后看到這么不專業(yè)的統(tǒng)計(jì)報(bào)告就別看了。稍微有點(diǎn)數(shù)據(jù)思維的朋友都知道,這是我們被平均了,那準(zhǔn)確客觀的平均值統(tǒng)計(jì)應(yīng)該是怎樣的?首先,我們得知道平均值究竟是什么。從概念上看,平均值有很多種。單從數(shù)學(xué)上來(lái)說(shuō),就有算術(shù)平均值、幾何平均值、平方平均值、調(diào)和平均值、加權(quán)平均值等等。當(dāng)然,我們?nèi)粘I钪刑岬降钠骄刀寄J(rèn)是“算術(shù)平均值”,也就是“一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個(gè)數(shù)”。

這個(gè)概念很簡(jiǎn)單,但是算術(shù)平均值有很大的短板,其容易受到極端值的影響而不能很好地表征整體水平。它無(wú)法客觀準(zhǔn)確地反映數(shù)據(jù)整體情況。更進(jìn)一步來(lái)說(shuō),整體平均值是在數(shù)據(jù)呈均勻分布或者正態(tài)分布的情況下才會(huì)有意義,如果忽略整個(gè)數(shù)據(jù)的分布情況,只提平均值,其實(shí)是沒(méi)有意義的。

這也就是為什么你會(huì)在讀一些統(tǒng)計(jì)分析報(bào)告時(shí)覺得自己不是“被加薪了”,就是“被幸福了”。

03

啥是辛普森悖論?

好,再回到剛才的問(wèn)題,統(tǒng)計(jì)報(bào)告說(shuō)人均年收入達(dá)到了30w元,你很容易就會(huì)想到這里面有些年薪很高的人拉高了整體水平,所以需要分開來(lái)看,這個(gè)時(shí)候就需要去看細(xì)分群體的平均值,比整體平均值更有意義。整體平均值不能代表各細(xì)分群體情況,局部群體結(jié)論和整體平均值結(jié)論可能會(huì)背道而馳。 這個(gè)現(xiàn)象就是數(shù)據(jù)分析中最常見的“辛普森悖論”,

辛普森悖論是 1951 年由 E.H. 辛普森提出的,簡(jiǎn)單來(lái)講就是在分組比較中都占優(yōu)勢(shì)的一方,有的時(shí)候在總評(píng)中反而是失勢(shì)的一方。指局部的結(jié)論和整體的結(jié)論完全相反

。 再舉個(gè)例子說(shuō)明一下,公司要對(duì)客服部的服務(wù)質(zhì)量進(jìn)行評(píng)估,我們發(fā)現(xiàn)無(wú)論是男生還是女生,一組的優(yōu)秀客服比例都比二組好,但總體上一組的優(yōu)秀客服比例卻比二組低。

兩組客服質(zhì)量表現(xiàn)

一組 二組 女 男 女 男 優(yōu)秀客服 40 60 140 4 總客服人數(shù) 40 200 200 40 優(yōu)秀客服比例 100% 30% 70% 10% 一組的優(yōu)秀客服比例是:(40+60)/(60+200)≈40%

二組的優(yōu)秀客服比例是:(140+4)/(200+40)=60%

二組的的整體優(yōu)秀客服比例明顯高于一組。 再分開男女單獨(dú)比較: 一組女生優(yōu)秀客服比例100%,高于二組女生的70%。

一組男生優(yōu)秀客服比例30%,高于二組男生生的10%。

一組的男生優(yōu)秀客服比例和女生優(yōu)秀客服比例都比二組高,但為什么一組整體優(yōu)秀客服比例卻比二組低?二組的優(yōu)秀客服比例高的原因在于二組女生多,一組女生少,一組女生表現(xiàn)雖然好,但人數(shù)太少,拉不起整個(gè)一組的表現(xiàn),導(dǎo)致二組整體成績(jī)比一組好。 細(xì)心的同學(xué)可能注意到了,這種悖論一般出現(xiàn)在分組樣本不均衡的情況下,上面的例子中,兩組男女性比例相差較大。

我們通常會(huì)講到“質(zhì)量”這個(gè)詞,而且是一起出現(xiàn),但實(shí)際上,“質(zhì)”與“量”是兩個(gè)不同的方面,我們?cè)诳紤]質(zhì)的時(shí)候,一定要注意量的影響,我們?nèi)绻堰@兩者揉成一個(gè)“質(zhì)”,就會(huì)出現(xiàn)辛普森悖論。

回顧一下文章開頭提到的案例,我們發(fā)現(xiàn)Android用戶的付費(fèi)率比iOS用戶低,再細(xì)分下去就會(huì)發(fā)現(xiàn),

我們也是錯(cuò)誤地把“質(zhì)”(付費(fèi)率)和“量”(用戶數(shù))混為一談,結(jié)論很有可能是錯(cuò)誤的

。因?yàn)楹苡锌赡艹霈F(xiàn)這樣一種情況:Android 無(wú)論是男性還是女性的付費(fèi)率分別都比 iOS 高,但是整體上因?yàn)锳ndroid男性用戶比較多,而iOS女性用戶比較多,簡(jiǎn)單一點(diǎn)可以理解為,Android以男性用戶為主,iOS則恰巧相反,以女性用戶為主,占據(jù)主導(dǎo)因素的Android男性的付費(fèi)率比iOS女性的付費(fèi)率要低,所以最終導(dǎo)致整體上Android用戶的付費(fèi)率比iOS用戶低。簡(jiǎn)單的道理來(lái)說(shuō),就是Android最大的優(yōu)勢(shì)(男性用戶)沒(méi)有比過(guò)iOS最大的優(yōu)勢(shì)(女性用戶),這是決定最終整體走向的關(guān)鍵。

04

總體/局部,我們信哪個(gè)?

那么問(wèn)題來(lái)了?如果真的出現(xiàn)了辛普森悖論,那我們到底應(yīng)該相信整體的結(jié)論還是細(xì)分的結(jié)論?我想到這里,大家應(yīng)該比較清晰了,只要細(xì)分的用戶群體足夠大,有統(tǒng)計(jì)學(xué)意義上的顯著性,那一定是以細(xì)分結(jié)論為準(zhǔn),因?yàn)檎胬矶际切枰榻z剝繭,藏在細(xì)節(jié)處。但是如果細(xì)分的群體太小,比如上面的例子中,細(xì)分以后各組的用戶數(shù)都很小,不具統(tǒng)計(jì)學(xué)意義,那細(xì)分的結(jié)論就不可信了。

所以還是那句話,無(wú)論是整體還是細(xì)分,在看“質(zhì)”的同時(shí),一定要兼顧“量”的影響,這是理解辛普森悖論最重要的一點(diǎn)。

講到這里,平均值和辛普森悖論也給我們一些生活上的啟發(fā),

它告訴我們要抓大放小,把握住重要的東西,充分沉淀我們的優(yōu)勢(shì),這樣整體上我們就有更強(qiáng)的競(jìng)爭(zhēng)力,不要因?yàn)槟骋粋€(gè)不重要的單項(xiàng)優(yōu)勢(shì)就得意忘形,也不要因?yàn)橐粋€(gè)微不足道的失敗就一蹶不振。

生活要有一顆平常心,我們的目標(biāo)是讓我們這一生的“人生平均值”逐步提高。

【白話數(shù)據(jù)分析】從數(shù)分角度聊聊“辛普森悖論”和平均值的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
囊谦县| 阳新县| 陵水| 海晏县| 顺义区| 白城市| 荥阳市| 全州县| 白玉县| 永嘉县| 合山市| 杭锦后旗| 台东市| 通许县| 盐山县| 玉田县| 寿光市| 青州市| 绿春县| 黄陵县| 富蕴县| 桐乡市| 阿荣旗| 泰顺县| 苗栗县| 湛江市| 巩义市| 蕲春县| 白山市| 海兴县| 中牟县| 多伦县| 长泰县| 滦平县| 蕲春县| 仁寿县| 吴旗县| 宜章县| 普兰县| 日喀则市| 安泽县|