结构因果模型SCM
??结构因果模型(SCM)由内生变量VVV、外生变量UUU和映射函数FFF构成。因果的定义:若YYY在fXf_XfX? 的定义域中,则YYY是XXX的直接原因 ;如果YYY是XXX的直接原因,或者是直接原因的原因,则YYY是XXX的原因。
??UUU中的变量称为外生变量,它们属于模型的外部,不必解释它们变化的原因。VVV中的变量称为内生变量,模型中每一个内生变量都至少是一个外生变量的后代。外生变量没有祖先节点,不是内生变量的后代。
因果图的三种结构
链式结构
- 相关性: 链式结构中,信息从XXX经过YYY流向ZZZ,所以XXX和ZZZ是相关的
- 链式结构中的条件独立性: 如果变量XXX和变量ZZZ之间只有一条单向路径,YYY是截断这条路径的任何一组变量,则在Y=yY=yY=y的条件下,XXX和ZZZ是独立的
- 例:火灾→\rightarrow→烟雾→\rightarrow→烟雾警报,在统计的数据中查看“烟雾=1”的数据会发现,无论是否有火灾,一定会响警报,与火灾的值为0或者1无关,以中介为条件的情况下,火灾和烟雾警报独立
叉式结构
- 相关性: 叉式结构中,信息从XXX流向YYY和ZZZ,所以YYY和ZZZ是相关的
- 叉式结构中的条件独立性: 如果变量XXX是变量YYY和ZZZ的共因,并且变量YYY和ZZZ之间只有一条单向路径,则YYY和ZZZ在X=xX=xX=x的条件下是独立的
- 例:鞋子尺码←\leftarrow←年龄→\rightarrow→阅读能力,小孩年龄大,一般鞋码长,阅读能力也更强,但是只看统计数据中“年龄=8岁”小孩的记录会发现,鞋子尺码和其阅读能力间是没有关系的
对撞结构
- 相关性: 对撞结构中,变量XXX和YYY都影响ZZZ,但是信息没有从ZZZ流向XXX或者YYY,所以XXX和YYY是独立的(假设没有其他的边)
- 对撞结构中的条件独立性: 若ZZZ是XXX和YYY的对撞节点,且XXX和YYY间只有一条路径,则XXX和YYY是无条件独立的,若以ZZZ或者ZZZ的子孙节点为条件会让XXX和YYY产生关联(以对撞节点为条件会使得该节点的父节点互相依赖)
- 例:绩点→\rightarrow→奖学金←\leftarrow←活动分,查看获得奖学金的这些人,如果学习成绩不好,那么他们一定参加了很多活动才评上奖学金,参加活动和学习成绩产生了关联
ddd-分离
定义: 一条路径会被以一组节点ZZZ时阻断,当且仅当:
- 路径ppp包含链结构A→B→CA \rightarrow B \rightarrow CA→B→C或者分叉结构 A←B→CA \leftarrow B \rightarrow CA←B→C,且中间节点BBB在ZZZ中(也就是以BBB为条件),或者
- 路径ppp包含一个对撞结构A→B←CA \rightarrow B \leftarrow CA→B←C,且对撞节点BBB及其子孙节点都不在ZZZ中
例如,在条件集为空集时,ZZZ与XXX是ddd-分离的(条件独立);在条件集为X{X}X时,WWW与YYY是ddd-分离的(条件独立)。
干预运算(dododo-calculus)
??完全的随机对照试验可以解决很多问题,但是有的问题不适合用随机对照试验来解决,可以对变量进行干预,提取因果关系。需要区别的是,对一个变量进行干预和以该变量为条件是不一样的。当要干预图模型中的一个变量时,需要固定这个变量的值,也就是改变了系统,其他变量的值通常会因此发生变化。例如,可以发现干预冰淇淋销量,发现不会影响犯罪的数目,冰淇淋销量和犯罪率没有因果关系。干预是否接种疫苗,发现接种后,患病率下降了,二者存在因果关系。但是以一个变量为条件,不会做任何改变,只是在取统计数据时关注这个条件下的某个子集。“以变量为条件,改变的是我们对世界的看法,而不是世界本身”。
??上图显示了冰淇淋销量例子的图模型,XXX表示冰淇淋销量,YYY表示犯罪率,ZZZ表示温度。例如进行干预,降低冰淇淋销量,在图模型中干预XXX表示把指向XXX的所有边移除(如下图),然后对XXX进行赋值。XXX的值由干预时的赋值决定,与父节点无关,但是这个赋值操作会影响XXX的子节点。在干预后的图模型中可以发现,XXX和YYY完全独立,二者不相关,没有因果关系。
??在符号上,使用dododo运算来表示干预操作,变量XXX在干预情况下被赋值为xxx表示为do(X=x)do(X=x)do(X=x)。在X=xX=xX=x的条件下Y=yY=yY=y的概率为P(Y=y∣X=x)P(Y=y|X=x)P(Y=y∣X=x),通过干预使得X=xX=xX=x的概率为P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=y∣do(X=x))。P(Y=y∣X=x)P(Y=y|X=x)P(Y=y∣X=x)表示在数据中观察,X=xX=xX=x的这些个体组成的群体的YYY的分布;P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=y∣do(X=x))表示的是如果所有个体都把XXX的值固定为X=xX=xX=x时,总体中YYY的分布。
平均因果效应ACE
??平均因果效应ACE可以用来衡量某个操作带来的效果,例如为了确定药物的有效性,假设干预操作是让整个人群都服药或者不服药,然后比较两种干预下的健康数值。用do(X=1)do(X=1)do(X=1)表示让所有人服药,用do(X=0)do(X=0)do(X=0)表示让所有人不服药,二者的差异为平均因果效应ACE。
ACE=P(Y=1∣do(X=1))?P(Y=1∣do(X=0))ACE=P(Y=1|do(X=1))-P(Y=1|do(X=0)) ACE=P(Y=1∣do(X=1))?P(Y=1∣do(X=0))
后门准则与调整公式
??假如要计算下图中的P(Y=y∣do(X=x))P(Y=y|do(X=x))P(Y=y∣do(X=x)),存在混杂(ZZZ是XXX和YYY的共因),因为满足后门准则,因果效应是可识别的,具体可以使用调整公式来进行计算。
??后门准则: 给定有向无环图中的一组有序变量(X,Y)(X,Y)(X,Y),如果变量集合ZZZ满足:ZZZ中没有XXX的后代节点,且ZZZ阻断了XXX与YYY直接的每条含有指向XXX的边的路径(后门路径),则称ZZZ满足关于(X,Y)(X,Y)(X,Y)的后门准则。
??需要注意的是X→YX \rightarrow YX→Y表示XXX到YYY有前门路径,X←YX \leftarrow YX←Y表示XXX到YYY有后门路径,反的箭头也表示是路径。。。。。
??如果变量集合ZZZ满足(X,Y)(X,Y)(X,Y)的后门准则,那么XXX对YYY的因果效应可以使用调整公式计算(证明见参考文献):
P(Y=y∣do(X=x))=∑zP(Y=y∣X=x,Z=z)P(Z=z)P(Y=y|do(X=x))=\sum_z{P(Y=y|X=x,Z=z)P(Z=z)} P(Y=y∣do(X=x))=z∑?P(Y=y∣X=x,Z=z)P(Z=z)
前门准则与前门校正公式
??对于上图(a),存在一个不可观测的混杂因子UUU,是XXX和YYY的共因,要估计XXX对YYY的因果效应就不能用后门准则了,因为没有UUU的统计信息。但是,如果额外有一个可以观测的变量ZZZ位于XXX和YYY之间,作为中介变量,这种情况下XXX和YYY的因果效应是可识别的,满足前门准则,可以使用前门校正公式来计算。
??前门准则: 变量集合ZZZ被称为满足关于有序变量对(X,Y)(X,Y)(X,Y)的前门准则,当:
????1. ZZZ切断了所有XXX到YYY的有向路径(X→...→YX \rightarrow...\rightarrow YX→...→Y)
????2. XXX到ZZZ没有后门路径
????3. 所有ZZZ到YYY的后门路径都被XXX阻断
??如果ZZZ满足关于有序变量对(X,Y)(X,Y)(X,Y)的前门准则,并且P(x,z)>0P(x,z)>0P(x,z)>0,那么XXX对YYY的因果效应是可识别的,且由下式计算:
P(Y=y∣do(x))=∑zP(z∣x)∑x′P(y∣x′,z)P(x′)P(Y=y|do(x))=\sum_z{P(z|x)}\sum_{x^{\prime}}{P(y|x^{\prime},z)P(x^{\prime})} P(Y=y∣do(x))=z∑?P(z∣x)x′∑?P(y∣x′,z)P(x′)
工具变量
??假如存在无法观测的混杂因子,不满足前门准则,要识别XXX到YYY的因果效应,可以考虑引入工具变量,借助来计算因果效应。
??一个变量?称为工具变量,满足三个性质 :
- 相关性:RRR对XXX有因果效应 (Relevance)
- RRR对XXX的因果效应都由XXX中介 (Exclusion Restriction)
- 工具变量不存在混杂(不存在到YYY未被阻断的后门路径)(Instrumental Unconfoundedness)
??例如上图中,假设是线性模型,XXX对YYY的因果效应是系数,也就是δ\deltaδ,混杂效应α\alphaα不可观测,引入工具变量RRR。如果求RRR对YYY的平均因果效应,可以得到
E[Y∣R=1]?E[Y∣R=0]=E[δX+αC∣R=1]?E[δX+αC∣R=1](Y=δX+αC)=δ(E[X∣R=1]?E(X∣R=0))+α(E[C∣R=1]?E[C∣R=0])=δ(E[X∣R=1]?E(X∣R=0))(unconfoundedness)\begin{aligned} &\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]\\ &=\mathbb{E}[\delta X+\alpha C|R=1]-\mathbb{E}[\delta X+\alpha C|R=1] \qquad (Y=\delta X+\alpha C)\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0))+\alpha(\mathbb{E}[C|R=1]-\mathbb{E}[C|R=0])\\ &=\delta(\mathbb{E}[X|R=1]-E(X|R=0)) \qquad (unconfoundedness) \end{aligned} ?E[Y∣R=1]?E[Y∣R=0]=E[δX+αC∣R=1]?E[δX+αC∣R=1](Y=δX+αC)=δ(E[X∣R=1]?E(X∣R=0))+α(E[C∣R=1]?E[C∣R=0])=δ(E[X∣R=1]?E(X∣R=0))(unconfoundedness)?
??所以可以求出来因果效应为
δ=E[Y∣R=1]?E[Y∣R=0]E[X∣R=1]?E[X∣R=0]\delta=\frac{\mathbb{E}[Y|R=1]-\mathbb{E}[Y|R=0]}{\mathbb{E}[X|R=1]-\mathbb{E}[X|R=0]} δ=E[X∣R=1]?E[X∣R=0]E[Y∣R=1]?E[Y∣R=0]?
??如果是下面的图,可以得到对应的结论:
参考文献
上面写的仅仅是个人理解,不一定正确,参考文献更为严谨
【1】因果推理网课,https://www.bradyneal.com/causal-inference-course
【2】因果推理课本,Causal Inference in Statistics:A Primer
【3】因果推理课本中文翻译版,统计因果推理入门
【4】因果推理知乎专栏,因果关系之梯,by望止洋,https://www.zhihu.com/column/c_1217887302124773376