悖论趣谈(一)

悖论是一些很有意思的东西,wikipedia 上有不少,准备有空将一些仔细看看。

这里介绍 Simpson’s paradox:我们发现某种药物在观测的人群上 57.5% 服用药物的人之后被治愈,而 50% 没有服用药物的人也被治愈。似乎这个药产生了作用?

但是进一步分析表明:在男性患者中 70% 吃药的人治愈,而 80% 不吃药的也能治愈;在女性患者中,20% 吃药的治愈,但 40% 不吃药的也能治愈。这看起来是说,这药吃了对男的对女的都没好处!?

这如何可能?

上图 G 表示性别(1 对应男),D 表示是否服药(1 表示服药),C 表示最终是否治愈(1 表示治愈)。

根据以上说法,我们其实观测到

\Pr(C = 1 \mid D = 1) > \Pr(C = 1 \mid D = 0)

这个与

\Pr(C = 1 \mid G = 1, D = 1) < \Pr (C = 1 \mid G = 1, D = 0)\Pr(C = 1 \mid G = 0, D = 1) < \Pr (C = 1 \mid G = 0, D = 0)

似乎矛盾。注意做 normalize 的项是 \Pr(G \mid D),即吃药(不吃药)的男女比例。事实上,并非男人女人吃药的习惯一样,以上问题中男人有 75% 吃药而女性只有 25%。这时就算患者中男女比例是对半的也会出现前面的情形。(根据 \Pr (G, D, C)G sum out,然后计算条件概率即可)

那我们到底应该听哪个概率的说法呢?这也就是这个 paradox 的由来。

在后面的 PGM 的笔记中我们会看到这里应该使用 causal network 将以上图模型转换成 mutilated network 后的条件概率,即 \Pr (C \mid \mathrm{do} (D = 1)),这时 D 不在依赖于 G。这个 paradox 可以认为获得数据的人群并不是“仅遵医嘱”的,且性别和服药本身看似独立却存在了某种联系。这样得到的后验 \Pr(C \mid D) 不符合我们的“看病的情形”,因为我们假定看病的人都会很乖的“仅遵医嘱”了。

斜线左下是吃药的,右上是不吃药的。淡黄色区域是治愈的。

看罢此图你应该清楚该吃药还是不该吃药了吧!

——————
And God opened her eyes, and she saw a well of water; and she went, and filled the bottle with water, and gave the lad drink.

Advertisements
悖论趣谈(一)

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s