目录
- 协方差
- 相关系数
前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。
联合分布中包含了相当丰富的信息。比如从联合分布中抽取某个随机变量的边缘分布,即获得该随机变量的分布,并可以据此,获得该随机变量的期望和方差。这样做是将视线限制在单一的一个随机变量上,我们损失了联合分布中包含的其他有用信息,比如不同随机变量之间的互动关系。为了了解不同随机变量之间的关系,需要求助其它的一些描述量。
协方差
协方差(covariance)表达了两个随机变量的协同变化关系。
如果X和Y是联合分布的随机变量,且分别有期望μX,μY,那么X和Y的协方差为:
协方差的定义基于期望。根据期望的定义,协方差可以直接用于离散随机变量和连续随机变量。
正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。
相关系数
随机变量的量纲选取的不同,会对方差和协方差的结果值带来数值上的影响。
因此我们需要对随机变量完成标准化,进行缩放处理,具体的方法就是将随机变量除以其标准差,得到相关系数。
相关系数是归一化的协方差,定义如下:
相关系数的大小在 -1 和 1 之间变化。
参考:
概率论11 协方差与相关系数