“我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第1篇文章,点击检查活动详情”

已知特征X=x1X=x_1的样本呈现Y=y1Y=y_1的特色,或者Y=y1Y=y_1的样本有X=x1X=x_1的特征,怎么核算干涉X对Y的影响 Eg. 看快手视频喜爱谈论的用户活泼程度更高,那引导用户去宣布谈论能让他们更活泼么?

建模特征应该怎么选择,以及特征经过那些途径终究影响Y Eg. 个人并不喜爱有啥放啥的建模方法,既增加模型不稳定性还会增加特征解说的难度。尤其在业务中咱们跟多想知道的是不同特征影响Y的方法

怎么解说数据剖析中有违常理或者自相矛盾的定论?为什么把数据分组和全体核算会得到不同的成果? Eg. 药物试验成果标明对高血压患者药物无效,对低血压患者药物也无效,但合起来对悉数患者药物有用?

无法开展AB试验的时分,咱们怎么从观测数据中估计因果联系 Eg. 最常遇到这种问题的是社会学,医学试验,例如从戎经历对收入的影响,吸烟是否会得肺癌。但这也提醒咱们有些本钱高的AB试验其实是有或许从已有数据中找到近似答案的。

如果你在和数据打交道的进程中也碰到过以上的问题,那图灵奖得主Judea Pearl的The Book of WHY或许会帮你翻开新世界的大门。因果推理方面我也是新人,这儿仅仅抛出一些观点来和大家一同讨论。下面列举了因果推理和统计学本质的一些差异, 详细的理论咱们在后面章节慢慢展开~

  • 统计学处理的是P(Y|X),它更多是对观测的描写。而因果推理旨在处理What-if问题,用Do-Caculus来表达便是P(Y|do(X)),既对X进行干涉,对Y的影响。一个同事开玩笑说因果推理就像开启上帝之眼

  • 统计学认为数据是全部,而因果推理坚持数据发生的进程是解说数据所有必要的。想直观感触差异的能够看下这个 Toy Example

  • 统计完全客观,而因果推理需求依靠基于经历等因素给出因果图(DAG)再进行剖析核算。

作为序章最重要的是什么?吸引人眼球!所以本章经过5个数据剖析中经典事例,看看当统计陷入两难,因果推理是怎么变身奥特曼来打小怪兽的!

以下事例只为直观感触因果推理的现实意义,暂不考虑统计明显,小样本不置信等问题

Confounding Bias – Simpson Paradox

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

**Confounding在数据剖析中十分常见,既存在一起影响treatment和outcome的变量没有被操控,它是统计剖析要操控变量的根本原因之一,是AB试验有用的背后逻辑,它也直接导致了P(Y∣X)≠p(Y∣do(x))P(Y|X) \neq p(Y|do(x))。**但往往Confounder的存在只需在剖析成果严重不符合逻辑时才被人们想到。

离散Confounder – 事例1. 今日你吃药了么?

以下是一次观测性医学试验的成果,别离给出男性和女人在服/不服用药物后心脏病发生的概率。风趣的是这种药物既不能明显下降女人病发概率,也不能明显下降男性病发概率,但却能下降全体的病发概率,你是剖析师请问这种药物有用么?

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

答案是NO,这种药物无效 这便是闻名的Simpson Paradox。用上面的因果图(DAG)剖析定论会变得显而易见。这儿treatment是服药,outcome是心脏病发生的概率,而由于是观测性试验所以性别或许会成为confounder。注意这儿我用的是或许。而验证这种或许性就要看性别是否一起影响treatment和outcome。先看treatment,女人是对照组20,试验组40,而男性是对照组40,试验组20。因而性别明显影响treatment的渗透率 -服药人群份额。再看outcome,同在对照组女人病发率是5%而男性是30%,因而性别一起影响outcome-病发概率。

因而衡量treatment(服药)对outcome(心脏病发生)的影响,咱们需求操控confounder。这样全体的发病率核算如下:

P(treatment∣outcome)=P(treatment∣outcome,男)∗P(男)+P(treatment∣outcome,女)∗P(女)P(treatment|outcome) = P(treatment|outcome, 男) * P(男) + P(treatment|outcome, 女) * P(女)

对照组的全体作用变为 0.5 * 5% + 0.5 * 40% = 17.5% 试验组的全体作用变为 0.5 * 7.5% + 0.5 * 40% = 23.75% 这样全体就和男女别离的定论共同,服药并不能下降心脏病发概率。

接连Confounder – 事例2.运动导致高胆固醇?

在上面的比方中confounder是个离散变量男女。下面咱们举个接连confounder的比方。研讨目标是每周运动时刻对胆固醇水平的影响。‘影响’在统计学中多数只能依靠于相关联系,于是咱们画个散点图吧。 嗯?!运动时刻越长,胆固醇水平越高!You What?! 这简直是讨厌运动,坚持生命在于静止的最好理由。

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

当然这时有经历的剖析师一定会跳出来说应该要操控变量!其实这儿并不是操控全部能操控的人群差异,而只需操控Confounder变量就能够了。一个最直观的Confounder变量便是年纪。年纪越高胆固醇水平越高,而运动时刻越短,它一起影响treatment和outcome。Group by年纪后,咱们会得到每个年纪段内运动时刻和胆固醇水平是反向的。

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

下一次依据统计成果给出定论时,无论成果和你的预期 [直觉|第六感|推理|经历] 多么共同,都记住多想一步哟。看看自己是否遗漏了或许的confounder呢?

Mediation Bias

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

**Mediation Bias最常发生在操控了不该操控的变量而导致影响被人为削弱。**在传统统计学中,由于没有引入因果推理,本着操控全部能操控的变量来做剖析的准则,往往会在不经意间踩进Mediation的深坑。一起Mediation Analysis也是AB试验后续剖析中有很高实用价值的一个方向,有机会咱在AB试验高端玩法系列中好好聊聊。

变量操控并非越多越好 – 事例3. 今日你又吃药了吗?

还记住上面心脏病药物试验么?当时咱们给出的定论是应该分男女别离核算试验作用,由于性别是药物作用的Confounder。这儿让咱们把性别因素换成患者血压,并以此告知大家分组核算并不是永远正确的。

数据和事例1一样,只不过这儿的分组变量变成了患者血压。

这儿加入新的假设,已知高血压是导致心脏病发生的原因之一,且该药物理论上有降血压的作用,因而医生想要查验该药物对防治心脏病的作用。

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

由于是观测性试验,如果从传统剖析的视点,咱们似乎应该操控全部能操控的变量,确保人群共同。但依据假设,结合数据咱们能发现服药患者中高血压占比明显下降,这时降血压成为药物下降心脏病发生的一个Mediator,也便是部分药物作用经过下降血压来下降心脏病发概率。因果图如下

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

这种情况下如果咱们按血压对患者分组,相当于Condition on Mediator,人为剔除了药物经过操控血压维护心脏的作用,会形成药物影响被人为轻视。因而应该兼并核算,药物对操控心脏病是有用的。

在剖析观测数据时,并非全部变量都应该被操控。 全部处于treatment和outcome因果路径上的变量都不应该被操控。这儿直接核算全体作用是合理的

Collidar Bias – BERKSON PARADOX

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

Collidar 最直观的影响是伪相关联系, 往往发生在对部分样本进行剖析时,由于疏忽了样本本身的特色然后得到一些十分奇葩的相关联系。

负‘相关’- 事例4. 孕妈妈应该吸烟?!

1959年的一项关于新生儿的研讨中呈现了风趣的数据:

  • 已有研讨标明孕妈妈吸烟会形成新生儿平均体重偏低
  • 已有研讨标明体重过轻(<5.5磅)的新生儿存活率明显偏低
  • 该试验数据发现在体重过轻(<5.5磅)的新生儿中,妈妈吸烟的宝宝存活率明显高于妈妈不吸烟的宝宝

这是正正得负的节奏。。。>_<

还记住上面咱们说Collidar Bias最容易在剖析部分样本时发生,而这儿体重过轻的新生儿明显便是部分样本。让咱们画一个最简略的因果图答案就很明显了。

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

经过只调查体重过轻的新生儿存活率,咱们一脚踩进了Collidar=’出世体重过轻’这个圈套,由于Condition on Collidar,然后让两个本来无关的原因呈现了负向联系。简略讲,便是新生儿缺点和妈妈吸烟都有或许导致新生儿体重过轻,两个因素此消彼长,当已知妈妈吸烟的时分,新生儿缺点的概率会下降。而天生缺点导致的体重过轻对婴儿存活率的影响更大是一个合理揣度。因而孕妈妈吸烟反而会导致存活率上升。

上面的DAG并不完整,比方妈妈吸烟也有或许直接引起新生儿缺点等等。但至少Collidar的存在在这儿是很有说服力的

正‘相关’- 事例5. 呼吸道疾病和骨科疾病有联系?

由于Collidar而发生伪关联的变量往往是负相关的,就像上面的比方,也称explain-away effect。简略了解便是A,B都导致Collidar,那操控Collidar,A多了B就少了。但下面这个比方却是Collidar发生伪正向联系。

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

调查数据不难发现,对普通百姓而言患呼吸道疾病和骨科疾病没啥联系。但如果只看住院患者,患呼吸道疾病的患者一起患骨科疾病的概率会明显提高3倍以上!

因果推理的春天 - 数据挖掘中的Confounding, Collidar, Mediation Bias

这个事例的DAG很好画,可是为什么这儿不是负效应而是正效应呢?一种解说是单独呼吸疾病,或者骨科疾病直接导致住院的概率都很小,因而这儿对于Collidar=‘住院’,两种疾病形成互补效应而非替代效应,既一起患有两种疾病的患者住院概率更高。因而只看住院患者就发生了伪正向联系。

上述DAG并不是唯一的或许,也有或许是患者的其他疾病导致住院的一起,导致患呼吸道和骨科疾病的概率上升。Anyway只看到以上数据是无法给出定论的,因而在剖析部分样本的时分请格外小心


序章的事例就分享这么多,开始怀疑人生了有没有?!

想看更多因果推理AB试验相关paper的小伙伴看过来 Paper_CausalInference_abtest


Ref

  1. towardsdatascience.com/why-every-d…
  2. Judea Pearl, The Book of Why, the new science of casue and effect