当前位置: 代码迷 >> 综合 >> 统计学习方法——均值、方差、标准差及协方差、协方差矩阵、相关系数
  详细解决方案

统计学习方法——均值、方差、标准差及协方差、协方差矩阵、相关系数

热度:48   发布时间:2024-01-06 07:24:46.0

一、几个基本概念:均值、方差、标准差

统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:

均值:,(在概率论和统计学中,数学期望(mean)(或均值,亦简称期望),一个意思,可用E(X)来表示,是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。)

标准差(Standard Deviation), 又叫均方差。

方差(variance):

标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

方差(variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8。显然后面这个集合里的元素分布较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、协方差有什么用?

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。

协方差就是这样一种用来度量两个随机变量关系的统计量(即二维数据),我们可以仿照方差的定义:

来度量各个维度偏离其均值的程度,协方差可以这样来定义:

  1. 当cov(X,Y)>0时,X与Y正相关
  2. 当cov(X,Y)=0时,X与Y不相关
  3. 当cov(X,Y)<0时,X与Y负相关

当X=Y时,表示为方差

preview

 

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

[注] 知乎上有个高票回答:如何通俗易懂地解释「协方差」与「相关系数」的概念?

从协方差的定义上我们也可以看出一些显而易见的性质,如:

三、协方差矩阵

协方差也只能处理二维问题(用于比较两两之间的关系),那么维数多了自然就需要计算多个协方差。则n维的数据有个数据对(两两之间成对配对),那么也就需要计算个协方差,所以自然而然会想到使用n×n的矩阵来组织这些数据。给出协方差矩阵的定义:

这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:

可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

四、Matlab协方差实战

必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数:

首先,随机生成一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。

wps_clip_image-15418

图 1 使用Matlab生成样本集

根据公式,计算协方差需要计算均值,前面特别强调了,协方差矩阵是计算不同维度之间的协方差,要时刻牢记这一点。样本矩阵的每行是一个样本,每列是一个维度,因此我们要按列计算均值。为了描述方便,我们先将三个维度的数据分别赋值:

wps_clip_image-17278

图 2 将三个维度的数据分别赋值

计算dim1与dim2,dim1与dim3,dim2与dim3的协方差:

wps_clip_image-19087

图 3 计算三个协方差

协方差矩阵的对角线上的元素就是各个维度的方差,下面我们依次计算这些方差:

wps_clip_image-20207

图 4 计算对角线上的方差

这样,我们就得到了计算协方差矩阵所需要的所有数据,可以调用Matlab的cov函数直接得到协方差矩阵:

wps_clip_image-25729

图 5 使用Matlab的cov函数直接计算样本的协方差矩阵

计算的结果,和之前的数据填入矩阵后的结果完全相同。

五、相关系数

相关系数的公式为:

\rho_{XY}=\frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}=E[\frac{X-E(X)}{\sigma_{X}} \cdot \frac{Y-E(Y)}{\sigma_{Y}}]

就是用X、Y的协方差除以X的标准差和Y的标准差,。即,先对X和Y做归一化操作,然后计算均值。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

  1. 当ρ=1时,说明X与Y完全线性正相关
  2. 当ρ=-1时,说明X与Y完全线性负相关
  3. 当ρ=0时,说明X与Y线性无关
  4. 当0<|ρ|<1时,X与Y存在一定的线性关系

部分内容转自:http://www.cnblogs.com/chaosimple/p/3182157.html,又作了修改和补充。