超市怎么知道你懷孕的 | 相關(guān)性模型在商業(yè)中的應(yīng)用一例
這是讀《簡(jiǎn)單統(tǒng)計(jì)學(xué)》的第 5-4 篇文章。
「啤酒與尿布」是段子,「食鹽-人口」模型不靠譜,那基于相關(guān)性挖掘數(shù)據(jù)就沒有價(jià)值了么?
有的。
下面這個(gè)案例就是通過挖掘用戶數(shù)據(jù)的相關(guān)性,建立分析模型,幫助公司更好經(jīng)營(yíng)的。
你懷孕了,超市知道
2003 年左右,一名憤怒的男子走進(jìn)明尼阿波利斯的塔吉特超市:
「我要見你們經(jīng)理,
「我女兒還在上高中,你們卻給她發(fā)嬰兒衣服和嬰兒床的優(yōu)惠券?
「你們是慫恿她懷孕嗎?」
超市經(jīng)理很迷茫,他查看了郵箱,發(fā)現(xiàn)塔吉特確實(shí)給這個(gè)男人的女兒發(fā)過育兒用品的優(yōu)惠券,甚至還有孕婦服的廣告。
經(jīng)理只好道歉,但是在幾天后回訪的時(shí)候,這名憤怒的男子卻有點(diǎn)不好意思,因?yàn)樗呐畠赫娴膽言辛恕?/p>
那么,塔吉特是怎么發(fā)現(xiàn)孕期女性的呢?
通過數(shù)據(jù)挖掘,尋找相關(guān)性。
塔吉特的統(tǒng)計(jì)人員發(fā)現(xiàn),女性在備孕期和懷孕后,會(huì)開始購(gòu)買大量的營(yíng)養(yǎng)素和沒有味道的洗浴用品。
購(gòu)買行為和用戶身體狀態(tài)有高度的相關(guān)性,而且,還有一定的因果邏輯。
統(tǒng)計(jì)人員找出了大約 25 種產(chǎn)品,并據(jù)此建立了「懷孕預(yù)測(cè)」模型,估算顧客的預(yù)產(chǎn)期。
上面那個(gè)憤怒男子的事件,就發(fā)生在「懷孕預(yù)測(cè)」模型建立一年后。
塔吉特這個(gè)「懷孕預(yù)測(cè)」模型的案例來自《紐約時(shí)報(bào)》的一篇報(bào)道,標(biāo)題是《公司是怎么知道你的秘密的(How Companies Learn Your Secrets)》,作者是商業(yè)調(diào)查記者查爾斯·杜希格,他也是《習(xí)慣的力量》的作者。

單看作者是不是就比較可靠?
而且這個(gè)案例有名有姓,十分具體,只有這一個(gè)版本,比「啤酒與尿布」靠譜了 10000 個(gè)特朗普。
不過,在杜希格寫了這篇新聞并且把新聞?wù)l(fā)給塔吉特之后,塔吉特就把杜希格拉入了黑名單,拒絕他的任何采訪。這個(gè)舉動(dòng),意味深刻啊。
那么,這個(gè)「懷孕預(yù)測(cè)」模型有效嗎?
新聞里說,在基于「懷孕預(yù)測(cè)」模型的營(yíng)銷活動(dòng)開始后不久,塔吉特的母嬰產(chǎn)品銷量就出現(xiàn)了爆炸式增長(zhǎng)。
2002 年至 2010 年期間,塔吉特的收入從 440 億美元增長(zhǎng)到 670 億美元。2005 年,塔吉特總裁格雷格·施泰因哈費(fèi)爾(Gregg Steinhafel)也說,「高度關(guān)注吸引特定客戶群體(如母親和嬰兒)的產(chǎn)品」。
所以,這個(gè)基于相關(guān)性建立的模型,是有效的,經(jīng)過了市場(chǎng)驗(yàn)證的。
這么看來,數(shù)據(jù)挖掘還是很有用的嘛。
不過,先別激動(dòng),我們要吸取下「食鹽-人口」模型的教訓(xùn),做出一點(diǎn)懷疑。
畢竟「懷孕預(yù)測(cè)」模型的因果邏輯并不是絕對(duì)的。
比如,開始購(gòu)買營(yíng)養(yǎng)素、沒有味道的洗浴用品,一定是因?yàn)閭湓小言幸鸬膯幔?/p>
答案當(dāng)然是否定的。
事實(shí)上,在《紐約時(shí)報(bào)》那篇新聞的評(píng)論區(qū),就有反例:
一位沒有備孕懷孕的女士,因?yàn)榭偸琴?gòu)買沒有香味的洗浴用品和偶爾購(gòu)買大包的棉球,結(jié)果收到了一盒嬰兒配方奶粉。

導(dǎo)致這種錯(cuò)誤的原因很簡(jiǎn)單,模型只是模型,只能去尋找符合設(shè)定的行為模式,然后做出行動(dòng)。
更何況這個(gè)模型只是根據(jù)「相關(guān)性」建立的。
由于這位女士的行為符合了預(yù)測(cè)模型的行為模式,所以系統(tǒng)就機(jī)械的郵寄促銷產(chǎn)品。
所以,基于相關(guān)性的模型并不是 100% 可靠的,也有一定的概率出錯(cuò)。
切記,相關(guān)性不代表因果性。
怎么避免商業(yè)營(yíng)銷模型的騷擾
雖然相關(guān)性模型不是 100% 準(zhǔn)確,但現(xiàn)在個(gè)人信息的泄露還是難免的。我們?cè)诰€下線上消費(fèi)時(shí),也總會(huì)被要求填寫各種隱私信息。
垃圾短信刪也刪不完,推銷電話也一個(gè)接一個(gè)。
那,怎么避免營(yíng)銷模型的騷擾呢?
很多的商業(yè)分析模型、營(yíng)銷模型都是基于相關(guān)性建立的,那么減少相關(guān)行為、避免被模型跟蹤到就可以了。
比如,用現(xiàn)金,這樣消費(fèi)行為就無法被記錄。當(dāng)然這在咱國(guó)內(nèi)是比較難的。
比如,用虛擬身份。
下次商家收集你的信息的時(shí)候,可以寫自己芳齡 18,博士畢業(yè),年入 1 個(gè)億。也可以寫自己 108 歲,時(shí)尚前衛(wèi),喜歡打籃球。
混亂的信息會(huì)讓營(yíng)銷模型難以發(fā)現(xiàn)行為模式,也就避免了促銷信息。
比如,用小號(hào)。
電話填小號(hào)、郵箱填小號(hào),微博、微信也設(shè)一個(gè)小號(hào)。這樣所有的促銷信息都會(huì)關(guān)聯(lián)到小號(hào)上,即使模型發(fā)現(xiàn)你的行為符合了促銷的要求,也找不到你。
還記得《容易上當(dāng)?shù)娜?,都是聰明人》里面提到的?nèi)容嗎?
尋找模式是人類的天賦。通過套用模式,我們可以更大限度的消除未知、消除風(fēng)險(xiǎn)。
各種分析模型也是尋找模式,而且相比人類,更加死板、機(jī)械化。
從相關(guān)性中發(fā)現(xiàn)的模式,確實(shí)能建立有價(jià)值的分析模型,塔吉特就是案例。
但很多時(shí)候,模式,特別是基于相關(guān)性的模式,并不是 100%?有效的。
所以發(fā)現(xiàn)相關(guān)性之后,還要考慮下兩件事情有沒有因果邏輯。
切記,相關(guān)性不代表因果性。