最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

相關(guān)性的那些事 | 讀《簡單統(tǒng)計學》- 5

2021-03-14 20:25 作者:曹操讀書  | 我要投稿

這是讀《簡單統(tǒng)計學》的第 5 篇文章。


「啤酒和尿布」是數(shù)據(jù)分析中的「經(jīng)典案例」,兩個看似不相關(guān)的東西,竟然具有相關(guān)性,還能產(chǎn)生商業(yè)價值。

最初看到這個「案例」的時候,是不是覺得數(shù)據(jù)分析很奇妙?從數(shù)據(jù)的相關(guān)性中發(fā)現(xiàn)商機,是不是還挺激動人心的?

不過很遺憾,「啤酒和尿布」是個段子,是有人為了推銷數(shù)據(jù)產(chǎn)品而編造的。

這個段子很容易驗證,只要去超市走一圈就知道了。

哪個員工敢把啤酒和尿布放在一起,超市經(jīng)理一定會開了他。

除非經(jīng)理也不想干了,要逼瘋來購物的男人女人們,以及公司的合規(guī)部門。

雖然「啤酒和尿布」是編造的,但還真有一個關(guān)于啤酒和婚姻的數(shù)據(jù)。



1想結(jié)婚?請喝啤酒。



這是美國 1960-1985 的啤酒銷量和已婚人口的數(shù)量。二者的相關(guān)性達到了驚人的99%。

單看這兩個數(shù)據(jù),能得到什么結(jié)論呢?

婚姻是愛情的墳墓?因為婚后生活太痛苦了,所以人們需要借酒消愁。

喝啤酒會碰撞出愛情的火花?所以想結(jié)束單身狗生活就應該多喝啤酒。

不過,為什么是啤酒呢?

紅酒行不行?

白酒行不行?

我點個Rio是不是就注定單身了?

其實,還有一個變量和啤酒銷量、結(jié)婚人數(shù)高度相關(guān),就是人口數(shù)量。

人口多,抽煙喝酒的人多,談戀愛結(jié)婚的人也多。當然,如果愿意生孩子的話,賣出的尿布也會多。

簡單地說,如果把和人口相關(guān)的數(shù)據(jù)放在一起,你會發(fā)現(xiàn)這些數(shù)據(jù)都有相關(guān)性。

所以,結(jié)婚人數(shù)和啤酒銷量并沒有什么因果邏輯,兩個數(shù)據(jù)都是在隨著人口數(shù)量而增長。

啤酒和婚姻是《簡單統(tǒng)計學》里面的一個案例,這個案例說明,相關(guān)性不代表因果性。

兩個看起來趨勢一致的現(xiàn)象,可能并沒有什么關(guān)系,而是另一個因素同時驅(qū)動了它們。

所謂的相關(guān)性,只是恰好把兩個趨勢一致的數(shù)據(jù)放在了一起而已。

當然,你也可以故意把趨勢一致的數(shù)據(jù)放在一起,這樣你就能騙人了。



2礦場不會影響房價,嗎?



2005年,美國一個礦業(yè)公司想在南加州的蒂梅丘拉建造一個超級采石場。蒂梅丘拉的居民反對這個計劃,因為擔心房產(chǎn)價值會下跌。

不過,咨詢師指出,加州科羅納市的采石場已經(jīng)存在了幾十年了,那里的房價與沒有采石場的城市具有幾乎相同的增長率。

因此,采石場不會影響房產(chǎn)價值。

所以你應該歡迎在自己的房子附近建采石場嗎?

當然是拒絕??!

《簡單統(tǒng)計學》里面是這樣寫的:

當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。

礦場生產(chǎn)和房產(chǎn)價值也是同樣的道理。二者都隨時間增長,但它們之間不一定存在因果關(guān)系。

2006 年,一份針對俄亥俄住宅的研究表明,距離采石場 1.6 公里的住宅價值下降了 15%,距離采石場 3.2 公里的住宅價值下降了 9% 。

所以,看起來相同的增長率,其實前面還有一個巨大的下跌。

再讀一遍這句話:

當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。

說到相關(guān)性,你還記不記得去年很多茅臺啊、茶水啊抑制新冠病毒的新聞?

相比礦場和房價,這樣的新聞更可惡。因為這是拿人的生命健康開玩笑。

隨著時間的發(fā)展,溶液里的病毒逐漸死亡,從數(shù)據(jù)上看,加進去的東西和病毒死亡確實有相關(guān)性,但并不一定有因果性。

打個粗俗的比方,我撒泡尿進去,然后病毒死了,能說明我的尿抑制病毒么?

不能啊。

相關(guān)性不代表因果性。

更何況,體外試驗和體內(nèi)試驗是完全不同的。

所以不要被相關(guān)性欺騙了。

挖掘相關(guān)性沒錯,但我們在分析問題的時候,應該把分析模型建立在因果邏輯上,而不是相關(guān)性上。

比如下面兩個例子,就是應用了高度相關(guān)且有因果邏輯的分析模型。



3「四萬萬」同胞是怎么來的



有人說民國時期的「四萬萬」人口是根據(jù)食鹽銷量推算出來的,這可是大錯特錯了。

我國早在公元前 2100 多年的夏禹時代就有過人口統(tǒng)計:

禹平水土,定九州,計民數(shù)?!妒酚洝は谋炯o》

西周的時候就有了專門統(tǒng)計人口的官吏和戶籍制度:

司民,掌登萬民之數(shù),自生齒以上,皆書于版。《周禮·秋官》

五家為鄰,五鄰為里《周禮·地官》

也有很多思想家提出過人口統(tǒng)計的思想:

分春日書比,立夏日月程,秋日大稽,與民數(shù)得亡?!豆茏印こ笋R》

以秋歲末之時,閱其民,案家人比地,定什伍口數(shù),別男女大小?!豆茏印ざ鹊亍?/p>

四境之內(nèi),丈夫女子皆有名于上?!渡叹龝ぞ硟?nèi)》

舉民眾口數(shù),生者著,死者削。《商君書·去強》

不過古時候地廣人稀,戰(zhàn)亂頻繁,人口普查是個辛苦的工作,錯漏在所難免。

而且百姓商賈為了逃避兵役、偷稅漏稅,往往謊報、瞞報人口數(shù)據(jù)。

為了準確統(tǒng)計人口,古代的政府想了很多辦法。

比如,漢朝時實行「案比」,就是「案戶比民」,要求本人在指定的時間到戶口登記處核驗。

仲秋之月,縣道皆案戶比民?!逗鬂h書·禮儀志》

《二十四孝》之一《行傭供母》的主角,每年都按時參加「案比」。

江革字次翁,齊國臨淄人也。少失父,獨與母居……每至歲時,縣當案比,革以母老,不欲搖動,自在轅中挽車,不用牛馬,由是鄉(xiāng)里稱之曰「江巨孝」。《后漢書·江革傳》

簡單的說,就是:江革母親年事已高,但是每年也要去縣衙核對戶籍。江革擔心牛馬拉車會有顛簸,坐著不舒服,所以他甘當牛馬,自己拉車。于是,鄉(xiāng)里人稱他為「江巨孝」。

比如,按人口分配「升學」名額。

隋唐開始科舉制度后,就按人口分配科舉名額。

升學當官和人口掛鉤,想當?shù)囟喑雠e人、進士,有更多的人能當官,就別瞞報人口。

凡貢人,上州歲貢三人,中州二人,下州一人。若有茂才異等,亦不抑以常數(shù)。《唐六典·三府督護州縣官吏》

因為科舉名額要不要按人口分配的事,北宋的時候,歐陽修和司馬光,對,就是那個砸缸的司馬光,還發(fā)生過激烈的爭執(zhí)。

司馬、歐陽二公之論不同, 司馬公之意主于均額, 以息奔競之風, 歐陽公之意主于核實, 以免繆濫之弊。要之, 朝廷既以文藝取人, 則歐公之說為是 ?!段墨I通考·選舉考》

比如清朝雍正時期推行「攤丁入畝」,從收人頭稅,改為收土地稅。

結(jié)果到道光的時候,統(tǒng)計的人口從2600萬增長為4.1億。

115年人口增長 15 倍,這可不是靠生孩子能完成的,而是之前瞞報漏報的人口太多了。

雍正十二年,二千六百四十一萬七千九百三十二口……道光二十九年,四萬一千二百九十八萬六千六百四十九口?!肚迨犯濉ぞ硪话俣?/p>

你看,不用到民國,道光的時候就知道有 4 億人口了。

那用「鹽」計算人口是怎么回事呢?

雖然古代政府想了很多辦法來統(tǒng)計人口,但數(shù)據(jù)難免不準,所以有很多人根據(jù)相關(guān)性建立了人口估算模型。

比如糧食消耗,土地數(shù)量,相對來說更準確的,是「食鹽-人口」模型。

這是一個有高度相關(guān)性,也有因果邏輯的計算模型。

早在春秋時期,我們就知道食鹽的銷量和人口數(shù)量高度相關(guān),而且消耗量比較穩(wěn)定,屬于剛需。

十口之家,十人食鹽,百口之家,百人食鹽?!豆茏印さ財?shù)》

終月,大男食鹽五升少半,大女食鹽三升少半;吾子食鹽二升少半?!豆茏印ずM酢?/p>

夫食鹽多寡,雖人無定額,然大抵每人每年以食鹽十斤,作為平均數(shù)?!吨袊}政實錄》

唐代史學家杜佑,就曾根據(jù)每戶平均人數(shù)和食鹽消耗量,估算全國的總戶數(shù)。

計諸道簿帳所收可有二百五十余萬戶……食鹽知見在之數(shù)者,采晉隋舊典制置可得五百萬矣?!锻ǖ洹な池洝?/p>

食鹽銷量和人口數(shù)量高度相關(guān),也有一定的因果邏輯,那么政府可以應用「食鹽-銷量」模型,來計算人口啊。

錯。

自古官方有記錄的人口數(shù)據(jù),都是人口統(tǒng)計的結(jié)果,而不是根據(jù)食鹽銷量估算的。

民國也是如此。

1912年,中華民國成立的那一年就進行過人口普查,但是具體的執(zhí)行情況已經(jīng)沒有記錄了,只知道一個數(shù)字,419,640,279。

估計這是孫中山說四萬萬民眾的依據(jù)。

1928年,南京國民政府著手調(diào)查戶口,但是因為管理混亂、效率低下,最終只有13個省完成了「作業(yè)」,剩下的省市,要么「作業(yè)」沒做完,要么連做也沒做。

最后沒辦法,民國政府內(nèi)政部不得不估算剩下省市的戶口數(shù)量。

當然不是用食鹽銷量估算的,而是根據(jù)人口密度。

簡單的說,先計算各省面積,再估算各省人口密度(用的平均數(shù)),最后計算得出人口數(shù)據(jù)。

最終內(nèi)政部估算出 1928 年全國人口總數(shù)為 474,787,386 人 。

這是民國政府第一次正式發(fā)布的全國人口總數(shù) , 也是 20 世紀經(jīng)常說的「四萬萬」的重要來源。?

所以「四萬萬同胞」是統(tǒng)計計算得來的,而不是用「食鹽銷量」推算的。

為什么不用「食鹽-人口」模型估算人口呢?因為太不準確了。

「食鹽-人口」模型看似只有兩個變量,十分簡單,但是這兩個變量,都很難拿到準確的數(shù)值。

比如食鹽銷量,受價格、走私的影響。甚至有的朝代根據(jù)統(tǒng)計人口限制食鹽產(chǎn)量,導致供不應求。官員瞞報漏報也會影響統(tǒng)計數(shù)據(jù)的準確性。

熙寧中,蜀鹽私販者眾,禁不能止。《宋史·卷一百八十三》

令兩京官吏人等及各處官民戶口食鹽?!睹鲿洹?/p>

鹽法之弊,多因商人匿引不繳,有司縱商不究?!缎⒆趯嶄洝ぞ硪话倨呤弧?/p>

比如食鹽的人均消耗數(shù)量,都是統(tǒng)計人員的經(jīng)驗數(shù)據(jù),沒有定數(shù)。

丁男日給米二升、鹽二勺五撮,妻、妾、老男、小則減之?!洞筇屏洹ぞ硎拧?/p>

本司歲辦額鹽四十八萬引,行鹽之地,兩浙、江東凡一千九百六萬余口。每日食鹽四錢一分八厘,總而計之,為四十四萬九千余引?!对贰ぞ砭攀摺?/p>

承運庫大使周端等言,廣東地廣民稀,鹽課無商中納,軍民多食私鹽,宜令所司核實人口,大口歲食鹽十二斤,小口半之?!睹魈趯嶄洝ぞ矶恕?/p>

而且,食鹽不是只能吃的,腌菜腌肉,養(yǎng)馬喂牛,也要用鹽。

鹽,一人日支半合,一月一升五合,一年一斗八升。

馬鹽,一馬日支鹽三合,一月九升,六個月五斗四升?!渡駲C制敵太白陰經(jīng)·人糧馬料篇》

一共兩個變量,兩個都不準確,那最終結(jié)果肯定也不準確啊。歷朝歷代的政府都知道這個問題,官方也就不會用這個模型來計算人口。

「食鹽-人口」模型看起來很豐滿,應用起來也真的很骨感。

所以啊,分析模型是有適用條件的,不能因為有相關(guān)性、有因果邏輯,就盲目套用。

但是,如果能夠拿到準確的銷量、用量的數(shù)值,「食鹽-人口」模型算得上是一個不錯的分析模型。

「啤酒與尿布」是段子,「食鹽-人口」模型不靠譜,那基于相關(guān)性挖掘數(shù)據(jù)就沒有價值了么?

有的。

下面這個案例就是通過挖掘用戶數(shù)據(jù)的相關(guān)性,建立分析模型,幫助公司更好經(jīng)營的。



4你懷孕了,超市知道



2003 年左右,一名憤怒的男子走進明尼阿波利斯的塔吉特超市:

「我要見你們經(jīng)理,

「我女兒還在上高中,你們卻給她發(fā)嬰兒衣服和嬰兒床的優(yōu)惠券?

「你們是慫恿她懷孕嗎?」

超市經(jīng)理很迷茫,他查看了郵箱,發(fā)現(xiàn)塔吉特確實給這個男人的女兒發(fā)過育兒用品的優(yōu)惠券,甚至還有孕婦服的廣告。

經(jīng)理只好道歉,但是在幾天后回訪的時候,這名憤怒的男子卻有點不好意思,因為他的女兒真的懷孕了。

那么,塔吉特是怎么發(fā)現(xiàn)孕期女性的呢?

通過數(shù)據(jù)挖掘,尋找相關(guān)性。

塔吉特的統(tǒng)計人員發(fā)現(xiàn),女性在備孕期和懷孕后,會開始購買大量的營養(yǎng)素和沒有味道的洗浴用品。

購買行為和用戶身體狀態(tài)有高度的相關(guān)性,而且,還有一定的因果邏輯。

統(tǒng)計人員找出了大約 25 種產(chǎn)品,并據(jù)此建立了「懷孕預測」模型,估算顧客的預產(chǎn)期。

上面那個憤怒男子的事件,就發(fā)生在「懷孕預測」模型建立一年后。

塔吉特這個「懷孕預測」模型的案例來自《紐約時報》的一篇報道,標題是《公司是怎么知道你的秘密的(How Companies Learn Your Secrets)》,作者是商業(yè)調(diào)查記者查爾斯·杜希格,他也是《習慣的力量》的作者。

單看作者是不是就比較可靠?

而且這個案例有名有姓,十分具體,只有這一個版本,比「啤酒與尿布」靠譜了 10000 個特朗普。

不過,在杜希格寫了這篇新聞并且把新聞摘要發(fā)給塔吉特之后,塔吉特就把杜希格拉入了黑名單,拒絕他的任何采訪。

這個舉動,意味深刻啊。

那么,這個「懷孕預測」模型有效嗎?

新聞里說,在基于「懷孕預測」模型的營銷活動開始后不久,塔吉特的母嬰產(chǎn)品銷量就出現(xiàn)了爆炸式增長。

2002 年至 2010 年期間,塔吉特的收入從 440 億美元增長到 670 億美元。2005 年,塔吉特總裁格雷格·施泰因哈費爾(Gregg Steinhafel)也說,「高度關(guān)注吸引特定客戶群體(如母親和嬰兒)的產(chǎn)品」。

所以,這個基于相關(guān)性建立的模型,是有效的,經(jīng)過了市場驗證的。

這么看來,數(shù)據(jù)挖掘還是很有用的嘛。

不過,先別激動,我們要吸取下「食鹽-人口」模型的教訓,做出一點懷疑。

畢竟「懷孕預測」模型的因果邏輯并不是絕對的。

比如,開始購買營養(yǎng)素、沒有味道的洗浴用品,一定是因為備孕、懷孕引起的嗎?

答案當然是否定的。

事實上,在《紐約時報》那篇新聞的評論區(qū),就有反例:

一位沒有備孕懷孕的女士,因為總是購買沒有香味的洗浴用品和偶爾購買大包的棉球,結(jié)果收到了一盒嬰兒配方奶粉。

導致這種錯誤的原因很簡單,模型只是模型,只能去尋找符合設定的行為模式,然后做出行動。

更何況這個模型只是根據(jù)「相關(guān)性」建立的。

由于這位女士的行為符合了預測模型的行為模式,所以系統(tǒng)就機械的郵寄促銷產(chǎn)品。

所以,基于相關(guān)性的模型并不是 100% 可靠的,也有一定的概率出錯。

切記,相關(guān)性不代表因果性



5怎么避免商業(yè)營銷模型的騷擾?



雖然相關(guān)性模型不是 100% 準確,但現(xiàn)在個人信息的泄露還是難免的。我們在線下線上消費時,也總會被要求填寫各種隱私信息。

垃圾短信刪也刪不完,推銷電話也一個接一個。

那,怎么避免營銷模型的騷擾呢?

很多的商業(yè)分析模型、營銷模型都是基于相關(guān)性建立的,那么減少相關(guān)行為、避免被模型跟蹤到就可以了。

比如,用現(xiàn)金,這樣消費行為就無法被記錄。當然這在咱國內(nèi)是比較難的。

比如,用虛擬身份。

下次商家收集你的信息的時候,可以寫自己芳齡 18,博士畢業(yè),年入 1 個億。也可以寫自己 108 歲,時尚前衛(wèi),喜歡打籃球。

混亂的信息會讓營銷模型難以發(fā)現(xiàn)行為模式,也就避免了促銷信息。

比如,用小號。

電話填小號、郵箱填小號,微博、微信也設一個小號。這樣所有的促銷信息都會關(guān)聯(lián)到小號上,即使模型發(fā)現(xiàn)你的行為符合了促銷的要求,也找不到你。


還記得《容易上當?shù)娜?,都是聰明人》里面提到的?nèi)容嗎?

尋找模式是人類的天賦。通過套用模式,我們可以更大限度的消除未知、消除風險。

各種分析模型也是尋找模式,而且相比人類,更加死板、機械化。

從相關(guān)性中發(fā)現(xiàn)的模式,確實能建立有價值的分析模型,塔吉特就是案例。

但很多時候,模式,特別是基于相關(guān)性的模式,并不是 100% 有效的。

所以發(fā)現(xiàn)相關(guān)性之后,還要考慮下兩件事情有沒有因果邏輯。

再讀下這句話:

當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。

很多時候人們會有意無意的把沒有因果邏輯的事情放在一起,得出看似相關(guān)的結(jié)論。

而這些結(jié)論往往是違反常識的,比如 啤酒促進結(jié)婚,礦場不會影響房價。

所以,如果聽說了有相關(guān)性卻違反常識的數(shù)據(jù)、新聞的時候,可以先想想兩件事是不是有因果關(guān)系。

你有很大的概率,發(fā)現(xiàn)數(shù)據(jù)騙子。

相關(guān)性不代表因果性。


今天讀了什么書?有什么收獲?

把你的收獲,以?#讀《***》#?的形式留言

和我們一起分享吧


相關(guān)性的那些事 | 讀《簡單統(tǒng)計學》- 5的評論 (共 條)

分享到微博請遵守國家法律
辰溪县| 奉贤区| 四平市| 维西| 盘山县| 景东| 沧州市| 通辽市| 湖口县| 驻马店市| 赣榆县| 蓬莱市| 桓台县| 齐河县| 丹江口市| 岗巴县| 华蓥市| 合川市| 潢川县| 铁力市| 博野县| 乌恰县| 新化县| 武夷山市| 新干县| 廉江市| 泽州县| 金沙县| 依安县| 达尔| 保靖县| 云林县| 洞头县| 泰来县| 蚌埠市| 白河县| 安陆市| 扬州市| 永宁县| 古浪县| 扬州市|