什么是辛普森悖論?
以一種方式查看數(shù)據(jù)可以講述一個故事,但是有時以另一種方式查看數(shù)據(jù)可以講述相反的故事。了解這一悖論及其發(fā)生的原因至關(guān)重要,并且可以使用新工具來自動檢測數(shù)據(jù)集中的這一棘手問題。
當(dāng)我們想研究數(shù)據(jù)中的關(guān)系時,我們可以繪制,交叉制表或?qū)υ摂?shù)據(jù)建模。當(dāng)我們這樣做時,我們可能會遇到這樣的情況:從單個數(shù)據(jù)集的兩個不同視圖中看到的關(guān)系導(dǎo)致我們得出相反的結(jié)論。這些都是辛普森悖論的案例。
找到這些案例可以幫助我們更好地理解我們的數(shù)據(jù)并發(fā)現(xiàn)有趣的關(guān)系。本文提供了這些情況發(fā)生的位置的一些示例,討論了它們?nèi)绾伟l(fā)生以及為什么發(fā)生,并提出了在您自己的數(shù)據(jù)中自動檢測這些情況的方法。
什么是辛普森悖論?
辛普森悖論是指一種情況,您認(rèn)為您了解兩個變量之間的關(guān)系方向,但是當(dāng)您考慮其他變量時,該方向似乎相反。
為什么發(fā)生辛普森悖論?
之所以發(fā)生Simpson悖論,是因為數(shù)據(jù)的分解(例如,將其拆分為子組)可能導(dǎo)致某些子組與其他子組相比具有不平衡的表示形式。這可能是由于變量之間的關(guān)系,或者僅僅是由于數(shù)據(jù)已被劃分為子組的方式。
范例1:入場
辛普森悖論的一個著名的例子出現(xiàn)在加州大學(xué)伯克利分校錄取數(shù)據(jù)。在此示例中,從總體上看研究生錄取數(shù)據(jù)時,看來男人比女人更容易被錄?。ㄐ詣e歧視?。钱?dāng)單獨查看每個部門的數(shù)據(jù)時,男人比女人更容易被錄取。大多數(shù)部門中的女性。
這是為什么發(fā)生這種情況的說明:
不同部門的接受率非常不同(有些部門比其他部門“難”得多)
更多女性申請“更難”的部門
因此,女性的總體接受率較低
這導(dǎo)致我們問:哪個視圖是正確的視圖?男人或女人的接受率更高?這所大學(xué)的招生是否存在性別偏見?
在這種情況下,似乎最合理的結(jié)論是,按部門查看招生率更為合理,而分類的觀點是正確的。
范例2:棒球
辛普森悖論的另一個例子可以在兩個著名棒球運(yùn)動員,杰特和大衛(wèi)。1995年和1996年,David Justice分別擁有較高的打擊率,但兩年來,Derek Jeter的打擊率均較高。
兩位選手的平均命中率均比1995年高
1996年,德里克·杰特(Derek Jeter)的蝙蝠數(shù)量明顯增加。1995年,戴維·正義案(David Justice)的人數(shù)更多
因此,Derek Jeter的平均擊球率更高
范例3:薪資
總薪資隨著年齡增長而減少。這是一個令人困惑的現(xiàn)象,因為隨著年齡增長,人們應(yīng)該獲得更多的經(jīng)驗和工資收入。然而,這種情況卻并非總是如此。
我們以一項研究為例,該研究發(fā)現(xiàn)在美國,25歲至54歲的人的總薪資有所減少。另一項研究表明,此類人群中,職業(yè)率較低的人群薪資水平低于職業(yè)率高的人群。
隨著年齡的增加,總薪資有所減少。這是因為職業(yè)率的下降導(dǎo)致的,即越來越多的人不再擁有穩(wěn)定的工作,從而導(dǎo)致薪資水平不斷下降。
總之,辛普森悖論展示了一個令人驚訝的事實,即隨著年齡的增長,總薪資有可能減少,這是由于職業(yè)率的下降而導(dǎo)致的。因此,我們應(yīng)該采取有效的措施來確保職業(yè)率保持穩(wěn)定,以便使每個人都能夠獲得合理的報酬。