相關(guān)性的那些事 | 讀《簡單統(tǒng)計學》- 5
這是讀《簡單統(tǒng)計學》的第 5 篇文章。
「啤酒和尿布」是數(shù)據(jù)分析中的「經(jīng)典案例」,兩個看似不相關(guān)的東西,竟然具有相關(guān)性,還能產(chǎn)生商業(yè)價值。
最初看到這個「案例」的時候,是不是覺得數(shù)據(jù)分析很奇妙?從數(shù)據(jù)的相關(guān)性中發(fā)現(xiàn)商機,是不是還挺激動人心的?

不過很遺憾,「啤酒和尿布」是個段子,是有人為了推銷數(shù)據(jù)產(chǎn)品而編造的。
這個段子很容易驗證,只要去超市走一圈就知道了。
哪個員工敢把啤酒和尿布放在一起,超市經(jīng)理一定會開了他。
除非經(jīng)理也不想干了,要逼瘋來購物的男人女人們,以及公司的合規(guī)部門。
雖然「啤酒和尿布」是編造的,但還真有一個關(guān)于啤酒和婚姻的數(shù)據(jù)。
1—想結(jié)婚?請喝啤酒。
這是美國 1960-1985 的啤酒銷量和已婚人口的數(shù)量。二者的相關(guān)性達到了驚人的99%。

單看這兩個數(shù)據(jù),能得到什么結(jié)論呢?
婚姻是愛情的墳墓?因為婚后生活太痛苦了,所以人們需要借酒消愁。
喝啤酒會碰撞出愛情的火花?所以想結(jié)束單身狗生活就應該多喝啤酒。
不過,為什么是啤酒呢?
紅酒行不行?
白酒行不行?
我點個Rio是不是就注定單身了?
其實,還有一個變量和啤酒銷量、結(jié)婚人數(shù)高度相關(guān),就是人口數(shù)量。
人口多,抽煙喝酒的人多,談戀愛結(jié)婚的人也多。當然,如果愿意生孩子的話,賣出的尿布也會多。
簡單地說,如果把和人口相關(guān)的數(shù)據(jù)放在一起,你會發(fā)現(xiàn)這些數(shù)據(jù)都有相關(guān)性。
所以,結(jié)婚人數(shù)和啤酒銷量并沒有什么因果邏輯,兩個數(shù)據(jù)都是在隨著人口數(shù)量而增長。

啤酒和婚姻是《簡單統(tǒng)計學》里面的一個案例,這個案例說明,相關(guān)性不代表因果性。
兩個看起來趨勢一致的現(xiàn)象,可能并沒有什么關(guān)系,而是另一個因素同時驅(qū)動了它們。
所謂的相關(guān)性,只是恰好把兩個趨勢一致的數(shù)據(jù)放在了一起而已。
當然,你也可以故意把趨勢一致的數(shù)據(jù)放在一起,這樣你就能騙人了。
2—礦場不會影響房價,嗎?
2005年,美國一個礦業(yè)公司想在南加州的蒂梅丘拉建造一個超級采石場。蒂梅丘拉的居民反對這個計劃,因為擔心房產(chǎn)價值會下跌。
不過,咨詢師指出,加州科羅納市的采石場已經(jīng)存在了幾十年了,那里的房價與沒有采石場的城市具有幾乎相同的增長率。
因此,采石場不會影響房產(chǎn)價值。

所以你應該歡迎在自己的房子附近建采石場嗎?
當然是拒絕??!
《簡單統(tǒng)計學》里面是這樣寫的:
當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。
礦場生產(chǎn)和房產(chǎn)價值也是同樣的道理。二者都隨時間增長,但它們之間不一定存在因果關(guān)系。
2006 年,一份針對俄亥俄住宅的研究表明,距離采石場 1.6 公里的住宅價值下降了 15%,距離采石場 3.2 公里的住宅價值下降了 9% 。
所以,看起來相同的增長率,其實前面還有一個巨大的下跌。

再讀一遍這句話:
當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。
說到相關(guān)性,你還記不記得去年很多茅臺啊、茶水啊抑制新冠病毒的新聞?
相比礦場和房價,這樣的新聞更可惡。因為這是拿人的生命健康開玩笑。
隨著時間的發(fā)展,溶液里的病毒逐漸死亡,從數(shù)據(jù)上看,加進去的東西和病毒死亡確實有相關(guān)性,但并不一定有因果性。
打個粗俗的比方,我撒泡尿進去,然后病毒死了,能說明我的尿抑制病毒么?
不能啊。
相關(guān)性不代表因果性。
更何況,體外試驗和體內(nèi)試驗是完全不同的。
所以不要被相關(guān)性欺騙了。
挖掘相關(guān)性沒錯,但我們在分析問題的時候,應該把分析模型建立在因果邏輯上,而不是相關(guān)性上。
比如下面兩個例子,就是應用了高度相關(guān)且有因果邏輯的分析模型。
3—「四萬萬」同胞是怎么來的
有人說民國時期的「四萬萬」人口是根據(jù)食鹽銷量推算出來的,這可是大錯特錯了。
我國早在公元前 2100 多年的夏禹時代就有過人口統(tǒng)計:
禹平水土,定九州,計民數(shù)?!妒酚洝は谋炯o》
西周的時候就有了專門統(tǒng)計人口的官吏和戶籍制度:
司民,掌登萬民之數(shù),自生齒以上,皆書于版。《周禮·秋官》
五家為鄰,五鄰為里《周禮·地官》
也有很多思想家提出過人口統(tǒng)計的思想:
分春日書比,立夏日月程,秋日大稽,與民數(shù)得亡?!豆茏印こ笋R》
以秋歲末之時,閱其民,案家人比地,定什伍口數(shù),別男女大小?!豆茏印ざ鹊亍?/p>
四境之內(nèi),丈夫女子皆有名于上?!渡叹龝ぞ硟?nèi)》
舉民眾口數(shù),生者著,死者削。《商君書·去強》
不過古時候地廣人稀,戰(zhàn)亂頻繁,人口普查是個辛苦的工作,錯漏在所難免。
而且百姓商賈為了逃避兵役、偷稅漏稅,往往謊報、瞞報人口數(shù)據(jù)。
為了準確統(tǒng)計人口,古代的政府想了很多辦法。
比如,漢朝時實行「案比」,就是「案戶比民」,要求本人在指定的時間到戶口登記處核驗。
仲秋之月,縣道皆案戶比民?!逗鬂h書·禮儀志》
《二十四孝》之一《行傭供母》的主角,每年都按時參加「案比」。
江革字次翁,齊國臨淄人也。少失父,獨與母居……每至歲時,縣當案比,革以母老,不欲搖動,自在轅中挽車,不用牛馬,由是鄉(xiāng)里稱之曰「江巨孝」。《后漢書·江革傳》
簡單的說,就是:江革母親年事已高,但是每年也要去縣衙核對戶籍。江革擔心牛馬拉車會有顛簸,坐著不舒服,所以他甘當牛馬,自己拉車。于是,鄉(xiāng)里人稱他為「江巨孝」。
比如,按人口分配「升學」名額。
隋唐開始科舉制度后,就按人口分配科舉名額。
升學當官和人口掛鉤,想當?shù)囟喑雠e人、進士,有更多的人能當官,就別瞞報人口。
凡貢人,上州歲貢三人,中州二人,下州一人。若有茂才異等,亦不抑以常數(shù)。《唐六典·三府督護州縣官吏》
因為科舉名額要不要按人口分配的事,北宋的時候,歐陽修和司馬光,對,就是那個砸缸的司馬光,還發(fā)生過激烈的爭執(zhí)。
司馬、歐陽二公之論不同, 司馬公之意主于均額, 以息奔競之風, 歐陽公之意主于核實, 以免繆濫之弊。要之, 朝廷既以文藝取人, 則歐公之說為是 ?!段墨I通考·選舉考》
比如清朝雍正時期推行「攤丁入畝」,從收人頭稅,改為收土地稅。
結(jié)果到道光的時候,統(tǒng)計的人口從2600萬增長為4.1億。
115年人口增長 15 倍,這可不是靠生孩子能完成的,而是之前瞞報漏報的人口太多了。
雍正十二年,二千六百四十一萬七千九百三十二口……道光二十九年,四萬一千二百九十八萬六千六百四十九口?!肚迨犯濉ぞ硪话俣?/p>
你看,不用到民國,道光的時候就知道有 4 億人口了。
那用「鹽」計算人口是怎么回事呢?
雖然古代政府想了很多辦法來統(tǒng)計人口,但數(shù)據(jù)難免不準,所以有很多人根據(jù)相關(guān)性建立了人口估算模型。
比如糧食消耗,土地數(shù)量,相對來說更準確的,是「食鹽-人口」模型。

這是一個有高度相關(guān)性,也有因果邏輯的計算模型。
早在春秋時期,我們就知道食鹽的銷量和人口數(shù)量高度相關(guān),而且消耗量比較穩(wěn)定,屬于剛需。
十口之家,十人食鹽,百口之家,百人食鹽?!豆茏印さ財?shù)》
終月,大男食鹽五升少半,大女食鹽三升少半;吾子食鹽二升少半?!豆茏印ずM酢?/p>
夫食鹽多寡,雖人無定額,然大抵每人每年以食鹽十斤,作為平均數(shù)?!吨袊}政實錄》
唐代史學家杜佑,就曾根據(jù)每戶平均人數(shù)和食鹽消耗量,估算全國的總戶數(shù)。
計諸道簿帳所收可有二百五十余萬戶……食鹽知見在之數(shù)者,采晉隋舊典制置可得五百萬矣?!锻ǖ洹な池洝?/p>
食鹽銷量和人口數(shù)量高度相關(guān),也有一定的因果邏輯,那么政府可以應用「食鹽-銷量」模型,來計算人口啊。
錯。
自古官方有記錄的人口數(shù)據(jù),都是人口統(tǒng)計的結(jié)果,而不是根據(jù)食鹽銷量估算的。
民國也是如此。
1912年,中華民國成立的那一年就進行過人口普查,但是具體的執(zhí)行情況已經(jīng)沒有記錄了,只知道一個數(shù)字,419,640,279。
估計這是孫中山說四萬萬民眾的依據(jù)。
1928年,南京國民政府著手調(diào)查戶口,但是因為管理混亂、效率低下,最終只有13個省完成了「作業(yè)」,剩下的省市,要么「作業(yè)」沒做完,要么連做也沒做。
最后沒辦法,民國政府內(nèi)政部不得不估算剩下省市的戶口數(shù)量。
當然不是用食鹽銷量估算的,而是根據(jù)人口密度。

簡單的說,先計算各省面積,再估算各省人口密度(用的平均數(shù)),最后計算得出人口數(shù)據(jù)。
最終內(nèi)政部估算出 1928 年全國人口總數(shù)為 474,787,386 人 。

這是民國政府第一次正式發(fā)布的全國人口總數(shù) , 也是 20 世紀經(jīng)常說的「四萬萬」的重要來源。?
所以「四萬萬同胞」是統(tǒng)計計算得來的,而不是用「食鹽銷量」推算的。
為什么不用「食鹽-人口」模型估算人口呢?因為太不準確了。
「食鹽-人口」模型看似只有兩個變量,十分簡單,但是這兩個變量,都很難拿到準確的數(shù)值。
比如食鹽銷量,受價格、走私的影響。甚至有的朝代根據(jù)統(tǒng)計人口限制食鹽產(chǎn)量,導致供不應求。官員瞞報漏報也會影響統(tǒng)計數(shù)據(jù)的準確性。
熙寧中,蜀鹽私販者眾,禁不能止。《宋史·卷一百八十三》
令兩京官吏人等及各處官民戶口食鹽?!睹鲿洹?/p>
鹽法之弊,多因商人匿引不繳,有司縱商不究?!缎⒆趯嶄洝ぞ硪话倨呤弧?/p>
比如食鹽的人均消耗數(shù)量,都是統(tǒng)計人員的經(jīng)驗數(shù)據(jù),沒有定數(shù)。
丁男日給米二升、鹽二勺五撮,妻、妾、老男、小則減之?!洞筇屏洹ぞ硎拧?/p>
本司歲辦額鹽四十八萬引,行鹽之地,兩浙、江東凡一千九百六萬余口。每日食鹽四錢一分八厘,總而計之,為四十四萬九千余引?!对贰ぞ砭攀摺?/p>
承運庫大使周端等言,廣東地廣民稀,鹽課無商中納,軍民多食私鹽,宜令所司核實人口,大口歲食鹽十二斤,小口半之?!睹魈趯嶄洝ぞ矶恕?/p>
而且,食鹽不是只能吃的,腌菜腌肉,養(yǎng)馬喂牛,也要用鹽。
鹽,一人日支半合,一月一升五合,一年一斗八升。
馬鹽,一馬日支鹽三合,一月九升,六個月五斗四升?!渡駲C制敵太白陰經(jīng)·人糧馬料篇》
一共兩個變量,兩個都不準確,那最終結(jié)果肯定也不準確啊。歷朝歷代的政府都知道這個問題,官方也就不會用這個模型來計算人口。
「食鹽-人口」模型看起來很豐滿,應用起來也真的很骨感。
所以啊,分析模型是有適用條件的,不能因為有相關(guān)性、有因果邏輯,就盲目套用。
但是,如果能夠拿到準確的銷量、用量的數(shù)值,「食鹽-人口」模型算得上是一個不錯的分析模型。
「啤酒與尿布」是段子,「食鹽-人口」模型不靠譜,那基于相關(guān)性挖掘數(shù)據(jù)就沒有價值了么?
有的。
下面這個案例就是通過挖掘用戶數(shù)據(jù)的相關(guān)性,建立分析模型,幫助公司更好經(jīng)營的。
4—你懷孕了,超市知道
2003 年左右,一名憤怒的男子走進明尼阿波利斯的塔吉特超市:
「我要見你們經(jīng)理,
「我女兒還在上高中,你們卻給她發(fā)嬰兒衣服和嬰兒床的優(yōu)惠券?
「你們是慫恿她懷孕嗎?」
超市經(jīng)理很迷茫,他查看了郵箱,發(fā)現(xiàn)塔吉特確實給這個男人的女兒發(fā)過育兒用品的優(yōu)惠券,甚至還有孕婦服的廣告。
經(jīng)理只好道歉,但是在幾天后回訪的時候,這名憤怒的男子卻有點不好意思,因為他的女兒真的懷孕了。
那么,塔吉特是怎么發(fā)現(xiàn)孕期女性的呢?
通過數(shù)據(jù)挖掘,尋找相關(guān)性。
塔吉特的統(tǒng)計人員發(fā)現(xiàn),女性在備孕期和懷孕后,會開始購買大量的營養(yǎng)素和沒有味道的洗浴用品。
購買行為和用戶身體狀態(tài)有高度的相關(guān)性,而且,還有一定的因果邏輯。
統(tǒng)計人員找出了大約 25 種產(chǎn)品,并據(jù)此建立了「懷孕預測」模型,估算顧客的預產(chǎn)期。
上面那個憤怒男子的事件,就發(fā)生在「懷孕預測」模型建立一年后。
塔吉特這個「懷孕預測」模型的案例來自《紐約時報》的一篇報道,標題是《公司是怎么知道你的秘密的(How Companies Learn Your Secrets)》,作者是商業(yè)調(diào)查記者查爾斯·杜希格,他也是《習慣的力量》的作者。

單看作者是不是就比較可靠?
而且這個案例有名有姓,十分具體,只有這一個版本,比「啤酒與尿布」靠譜了 10000 個特朗普。
不過,在杜希格寫了這篇新聞并且把新聞摘要發(fā)給塔吉特之后,塔吉特就把杜希格拉入了黑名單,拒絕他的任何采訪。
這個舉動,意味深刻啊。
那么,這個「懷孕預測」模型有效嗎?
新聞里說,在基于「懷孕預測」模型的營銷活動開始后不久,塔吉特的母嬰產(chǎn)品銷量就出現(xiàn)了爆炸式增長。
2002 年至 2010 年期間,塔吉特的收入從 440 億美元增長到 670 億美元。2005 年,塔吉特總裁格雷格·施泰因哈費爾(Gregg Steinhafel)也說,「高度關(guān)注吸引特定客戶群體(如母親和嬰兒)的產(chǎn)品」。
所以,這個基于相關(guān)性建立的模型,是有效的,經(jīng)過了市場驗證的。
這么看來,數(shù)據(jù)挖掘還是很有用的嘛。
不過,先別激動,我們要吸取下「食鹽-人口」模型的教訓,做出一點懷疑。
畢竟「懷孕預測」模型的因果邏輯并不是絕對的。
比如,開始購買營養(yǎng)素、沒有味道的洗浴用品,一定是因為備孕、懷孕引起的嗎?
答案當然是否定的。
事實上,在《紐約時報》那篇新聞的評論區(qū),就有反例:
一位沒有備孕懷孕的女士,因為總是購買沒有香味的洗浴用品和偶爾購買大包的棉球,結(jié)果收到了一盒嬰兒配方奶粉。

導致這種錯誤的原因很簡單,模型只是模型,只能去尋找符合設定的行為模式,然后做出行動。
更何況這個模型只是根據(jù)「相關(guān)性」建立的。
由于這位女士的行為符合了預測模型的行為模式,所以系統(tǒng)就機械的郵寄促銷產(chǎn)品。
所以,基于相關(guān)性的模型并不是 100% 可靠的,也有一定的概率出錯。
切記,相關(guān)性不代表因果性。
5—怎么避免商業(yè)營銷模型的騷擾?
雖然相關(guān)性模型不是 100% 準確,但現(xiàn)在個人信息的泄露還是難免的。我們在線下線上消費時,也總會被要求填寫各種隱私信息。
垃圾短信刪也刪不完,推銷電話也一個接一個。
那,怎么避免營銷模型的騷擾呢?
很多的商業(yè)分析模型、營銷模型都是基于相關(guān)性建立的,那么減少相關(guān)行為、避免被模型跟蹤到就可以了。
比如,用現(xiàn)金,這樣消費行為就無法被記錄。當然這在咱國內(nèi)是比較難的。
比如,用虛擬身份。
下次商家收集你的信息的時候,可以寫自己芳齡 18,博士畢業(yè),年入 1 個億。也可以寫自己 108 歲,時尚前衛(wèi),喜歡打籃球。
混亂的信息會讓營銷模型難以發(fā)現(xiàn)行為模式,也就避免了促銷信息。
比如,用小號。
電話填小號、郵箱填小號,微博、微信也設一個小號。這樣所有的促銷信息都會關(guān)聯(lián)到小號上,即使模型發(fā)現(xiàn)你的行為符合了促銷的要求,也找不到你。
還記得《容易上當?shù)娜?,都是聰明人》里面提到的?nèi)容嗎?
尋找模式是人類的天賦。通過套用模式,我們可以更大限度的消除未知、消除風險。
各種分析模型也是尋找模式,而且相比人類,更加死板、機械化。
從相關(guān)性中發(fā)現(xiàn)的模式,確實能建立有價值的分析模型,塔吉特就是案例。
但很多時候,模式,特別是基于相關(guān)性的模式,并不是 100% 有效的。
所以發(fā)現(xiàn)相關(guān)性之后,還要考慮下兩件事情有沒有因果邏輯。
再讀下這句話:
當任何兩樣事物隨時間增長時,它們之間可能沒有任何因果關(guān)系,但它們?nèi)匀痪哂薪y(tǒng)計相關(guān)性。
很多時候人們會有意無意的把沒有因果邏輯的事情放在一起,得出看似相關(guān)的結(jié)論。
而這些結(jié)論往往是違反常識的,比如 啤酒促進結(jié)婚,礦場不會影響房價。
所以,如果聽說了有相關(guān)性卻違反常識的數(shù)據(jù)、新聞的時候,可以先想想兩件事是不是有因果關(guān)系。
你有很大的概率,發(fā)現(xiàn)數(shù)據(jù)騙子。
相關(guān)性不代表因果性。
今天讀了什么書?有什么收獲?
把你的收獲,以?#讀《***》#?的形式留言
和我們一起分享吧