当前位置: 代码迷 >> 综合 >> 因果推理简介(causal inference)
  详细解决方案

因果推理简介(causal inference)

热度:63   发布时间:2023-11-22 22:15:08.0

结构因果模型SCM

在这里插入图片描述
??结构因果模型(SCM)由内生变量VVV、外生变量UUU和映射函数FFF构成。因果的定义:若YYYfXf_XfX? 的定义域中,则YYYXXX的直接原因 ;如果YYYXXX的直接原因,或者是直接原因的原因,则YYYXXX的原因。
??UUU中的变量称为外生变量,它们属于模型的外部,不必解释它们变化的原因。VVV中的变量称为内生变量,模型中每一个内生变量都至少是一个外生变量的后代。外生变量没有祖先节点,不是内生变量的后代。

因果图的三种结构

在这里插入图片描述

链式结构

  1. 相关性: 链式结构中,信息从XXX经过YYY流向ZZZ,所以XXXZZZ是相关的
  2. 链式结构中的条件独立性: 如果变量XXX和变量ZZZ之间只有一条单向路径,YYY是截断这条路径的任何一组变量,则在Y=yY=yY=y的条件下,XXXZZZ是独立的
  3. 例:火灾→\rightarrow烟雾→\rightarrow烟雾警报,在统计的数据中查看“烟雾=1”的数据会发现,无论是否有火灾,一定会响警报,与火灾的值为0或者1无关,以中介为条件的情况下,火灾和烟雾警报独立

叉式结构

  1. 相关性: 叉式结构中,信息从XXX流向YYYZZZ,所以YYYZZZ是相关的
  2. 叉式结构中的条件独立性: 如果变量XXX是变量YYYZZZ的共因,并且变量YYYZZZ之间只有一条单向路径,则YYYZZZX=xX=xX=x的条件下是独立的
  3. 例:鞋子尺码←\leftarrow年龄→\rightarrow阅读能力,小孩年龄大,一般鞋码长,阅读能力也更强,但是只看统计数据中“年龄=8岁”小孩的记录会发现,鞋子尺码和其阅读能力间是没有关系的

对撞结构

  1. 相关性: 对撞结构中,变量XXXYYY都影响ZZZ,但是信息没有从ZZZ流向XXX或者YYY,所以XXXYYY是独立的(假设没有其他的边)
  2. 对撞结构中的条件独立性:ZZZXXXYYY的对撞节点,且XXXYYY间只有一条路径,则XXXYYY是无条件独立的,若以ZZZ或者ZZZ的子孙节点为条件会让XXXYYY产生关联(以对撞节点为条件会使得该节点的父节点互相依赖)
  3. 例:绩点→\rightarrow奖学金←\leftarrow活动分,查看获得奖学金的这些人,如果学习成绩不好,那么他们一定参加了很多活动才评上奖学金,参加活动和学习成绩产生了关联

ddd-分离

定义: 一条路径会被以一组节点ZZZ时阻断,当且仅当:

  1. 路径ppp包含链结构A→B→CA \rightarrow B \rightarrow CABC或者分叉结构 A←B→CA \leftarrow B \rightarrow CABC,且中间节点BBBZZZ中(也就是以BBB为条件),或者
  2. 路径ppp包含一个对撞结构A→B←CA \rightarrow B \leftarrow CABC,且对撞节点BBB及其子孙节点都不在ZZZ
    在这里插入图片描述
    例如,在条件集为空集时,ZZZXXXddd-分离的(条件独立);在条件集为X{X}X时,WWWYYYddd-分离的(条件独立)。

干预运算(dododo-calculus)

??完全的随机对照试验可以解决很多问题,但是有的问题不适合用随机对照试验来解决,可以对变量进行干预,提取因果关系。需要区别的是,对一个变量进行干预和以该变量为条件是不一样的。当要干预图模型中的一个变量时,需要固定这个变量的值,也就是改变了系统,其他变量的值通常会因此发生变化。例如,可以发现干预冰淇淋销量,发现不会影响犯罪的数目,冰淇淋销量和犯罪率没有因果关系。干预是否接种疫苗,发现接种后,患病率下降了,二者存在因果关系。但是以一个变量为条件,不会做任何改变,只是在取统计数据时关注这个条件下的某个子集。“以变量为条件,改变的是我们对世界的看法,而不是世界本身”。
在这里插入图片描述
??上图显示了冰淇淋销量例子的图模型,XXX表示冰淇淋销量,YYY表示犯罪率,ZZZ表示温度。例如进行干预,降低冰淇淋销量,在图模型中干预XXX表示把指向XXX的所有边移除(如下图),然后对XXX进行赋值。XXX的值由干预时的赋值决定,与父节点无关,但是这个赋值操作会影响XXX的子节点。在干预后的图模型中可以发现,XXXYYY完全独立,二者不相关,没有因果关系。
在这里插入图片描述
??在符号上,使用dododo运算来表示干预操作,变量XXX在干预情况下被赋值为xxx表示为do(X=x)do(X=x)do(X=x)。在X=xX=xX=x的条件下Y=yY=yY=y的概率为P(Y=y∣X=x)P(Y=y|X=x)P(Y=yX=x),通过干预使得X=xX=xX=x的概率为P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=ydo(X=x))P(Y=y∣X=x)P(Y=y|X=x)P(Y=yX=x)表示在数据中观察,X=xX=xX=x的这些个体组成的群体的YYY的分布;P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=ydo(X=x))表示的是如果所有个体都把XXX的值固定为X=xX=xX=x时,总体中YYY的分布。

平均因果效应ACE

??平均因果效应ACE可以用来衡量某个操作带来的效果,例如为了确定药物的有效性,假设干预操作是让整个人群都服药或者不服药,然后比较两种干预下的健康数值。用do(X=1)do(X=1)do(X=1)表示让所有人服药,用do(X=0)do(X=0)do(X=0)表示让所有人不服药,二者的差异为平均因果效应ACE。
ACE=P(Y=1∣do(X=1))?P(Y=1∣do(X=0))ACE=P(Y=1|do(X=1))-P(Y=1|do(X=0)) ACE=P(Y=1do(X=1))?P(Y=1do(X=0))

后门准则与调整公式

??假如要计算下图中的P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=ydo(X=x)),存在混杂(ZZZXXXYYY的共因),因为满足后门准则,因果效应是可识别的,具体可以使用调整公式来进行计算。
在这里插入图片描述
??后门准则: 给定有向无环图中的一组有序变量(X,Y)(X,Y)(X,Y),如果变量集合ZZZ满足:ZZZ中没有XXX的后代节点,且ZZZ阻断了XXXYYY直接的每条含有指向XXX的边的路径(后门路径),则称ZZZ满足关于(X,Y)(X,Y)(X,Y)的后门准则。
??需要注意的是X→YX \rightarrow YXY表示XXXYYY有前门路径,X←YX \leftarrow YXY表示XXXYYY有后门路径,反的箭头也表示是路径。。。。。
??如果变量集合ZZZ满足(X,Y)(X,Y)(X,Y)的后门准则,那么XXXYYY的因果效应可以使用调整公式计算(证明见参考文献):
P(Y=y∣do(X=x))=∑zP(Y=y∣X=x,Z=z)P(Z=z)P(Y=y|do(X=x))=\sum_z{P(Y=y|X=x,Z=z)P(Z=z)} P(Y=ydo(X=x))=z?P(Y=yX=x,Z=z)P(Z=z)

前门准则与前门校正公式

在这里插入图片描述
??对于上图(a),存在一个不可观测的混杂因子UUU,是XXXYYY的共因,要估计XXXYYY的因果效应就不能用后门准则了,因为没有UUU的统计信息。但是,如果额外有一个可以观测的变量ZZZ位于XXXYYY之间,作为中介变量,这种情况下XXXYYY的因果效应是可识别的,满足前门准则,可以使用前门校正公式来计算。
??前门准则: 变量集合ZZZ被称为满足关于有序变量对(X,Y)(X,Y)(X,Y)的前门准则,当:
????1. ZZZ切断了所有XXXYYY的有向路径(X→...→YX \rightarrow...\rightarrow YX...Y)
????2. XXXZZZ没有后门路径
????3. 所有ZZZYYY的后门路径都被XXX阻断

??如果ZZZ满足关于有序变量对(X,Y)(X,Y)(X,Y)的前门准则,并且P(x,z)>0P(x,z)>0P(x,z)>0,那么XXXYYY的因果效应是可识别的,且由下式计算:
P(Y=y∣do(x))=∑zP(z∣x)∑x′P(y∣x′,z)P(x′)P(Y=y|do(x))=\sum_z{P(z|x)}\sum_{x^{\prime}}{P(y|x^{\prime},z)P(x^{\prime})} P(Y=ydo(x))=z?P(zx)x?P(yx,z)P(x)

工具变量

??假如存在无法观测的混杂因子,不满足前门准则,要识别XXXYYY的因果效应,可以考虑引入工具变量,借助来计算因果效应。
??一个变量?称为工具变量,满足三个性质 :

  1. 相关性:RRRXXX有因果效应 (Relevance)
  2. RRRXXX的因果效应都由XXX中介 (Exclusion Restriction)
  3. 工具变量不存在混杂(不存在到YYY未被阻断的后门路径)(Instrumental Unconfoundedness)

在这里插入图片描述
??例如上图中,假设是线性模型,XXXYYY的因果效应是系数,也就是δ\deltaδ,混杂效应α\alphaα不可观测,引入工具变量RRR。如果求RRRYYY的平均因果效应,可以得到
E[Y∣R=1]?E[Y∣R=0]=E[δX+αC∣R=1]?E[δX+αC∣R=1](Y=δX+αC)=δ(E[X∣R=1]?E(X∣R=0))+α(E[C∣R=1]?E[C∣R=0])=δ(E[X∣R=1]?E(X∣R=0))(unconfoundedness)\begin{aligned} &\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]\\ &=\mathbb{E}[\delta X+\alpha C|R=1]-\mathbb{E}[\delta X+\alpha C|R=1] \qquad (Y=\delta X+\alpha C)\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0))+\alpha(\mathbb{E}[C|R=1]-\mathbb{E}[C|R=0])\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0)) \qquad (unconfoundedness) \end{aligned} ?E[YR=1]?E[YR=0]=E[δX+αCR=1]?E[δX+αCR=1](Y=δX+αC)=δ(E[XR=1]?E(XR=0))+α(E[CR=1]?E[CR=0])=δ(E[XR=1]?E(XR=0))(unconfoundedness)?
??所以可以求出来因果效应为
δ=E[Y∣R=1]?E[Y∣R=0]E[X∣R=1]?E[X∣R=0]\delta=\frac{\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]}{\mathbb{E}[X|R=1]-\mathbb{E}[X|R=0]} δ=E[XR=1]?E[XR=0]E[YR=1]?E[YR=0]?
??如果是下面的图,可以得到对应的结论:
在这里插入图片描述

参考文献

上面写的仅仅是个人理解,不一定正确,参考文献更为严谨
【1】因果推理网课,https://www.bradyneal.com/causal-inference-course
【2】因果推理课本,Causal Inference in Statistics:A Primer
【3】因果推理课本中文翻译版,统计因果推理入门
【4】因果推理知乎专栏,因果关系之梯,by望止洋,https://www.zhihu.com/column/c_1217887302124773376

  相关解决方案