【因果推斷入門】第1季第2集 辛普森悖論 上 Simpson's Paradox

辛普森悖論
例1

單看男性的數(shù)據(jù)吃藥對恢復(fù)有幫助,單看女性的數(shù)據(jù)吃藥對恢復(fù)也有幫助
但是忽視性別后看整體數(shù)據(jù)吃藥對恢復(fù)就沒有幫助

解釋(性別是一個較為重要的因素)
用條件概率表達





A的取值(人群中吃藥恢復(fù)的概率)
不僅取決于
①(男性吃藥恢復(fù)的概率)
③(女性吃藥恢復(fù)的概率)
還取決于于
q(吃藥的人群中是男性的概率)
((1-q)吃藥的人群中是女性的概率)

- 吃藥的人里女性數(shù)量較多
- 女性的恢復(fù)力比男性差

性別會影響
①用藥的情況
②身體的恢復(fù)情況
所以對于整體的數(shù)據(jù)(不區(qū)分性別),用藥的恢復(fù)比不用藥的差是因為
用藥的人里女性比較多,而女性的恢復(fù)力比男性差一些
性別是混淆變量
如果想要觀察到用藥和恢復(fù)之間有沒有因果關(guān)系
首先要把像性別這樣的因素剔除掉(剔除掉的辦法就是看這個因素的分類數(shù)據(jù))
如果看的是整體數(shù)據(jù)用藥對恢復(fù)就沒有幫助,但其實并不是藥沒有效果,只是用藥的人里女性較多而女性的恢復(fù)比較差
性別在這里扮演了混淆變量的角色
性別(混淆變量)
同時影響用藥(原因)和恢復(fù)(結(jié)果)
它的存在會讓你的數(shù)據(jù)整體與局部產(chǎn)生一個反向的結(jié)論
所以應(yīng)該看分類數(shù)據(jù),因為分類數(shù)據(jù)把性別的因素剔除掉了
辛普森悖論










標(biāo)簽: