当前位置: 代码迷 >> 综合 >> Pearson 相关分析 理论与应用
  详细解决方案

Pearson 相关分析 理论与应用

热度:5   发布时间:2024-01-09 04:40:52.0

1 前提假设

使用Pearson相关分析时,需要考虑满足5个假设。

1. 两个变量都是连续变量。

2. 两个连续变量应当是配对的,即来源于同一个个体。

3. 两个连续变量之间存在线性关系,通常做散点图检验该假设。

4. 两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。

5. 两个变量符合双变量正态分布。

2 验证前提假设

2.1 两个连续变量之间存在线性关系

Pearson要求两个变量之间存在线性关系。要确定是否存在线性关系,需要查看两个变量的散点图。如果散点图大致呈一条直线,说明有线性关系。但是,如果不是一条直线(如一条曲线)则没有线性关系。下图给出了线性和非线性关系的例子。

 计算Pearson相关系数时,应有类似于上述第一个散点图的线性关系。如果两变量间不存在线性关系,应考虑其他基于非线性关系的统计方法。

2.2 没有明显的异常值

异常值可能会对相关分析的结果造成很大影响。检验线性假设的散点图中,异常值的点很容易被识别出来。

如果异常值存在,应修改为正确值或进行变换去除,并在报告中指出。如不去除,也应在报告中指出。

 2.3 两个变量符合双变量正态分布

大多数软件(如SPSS)仅仅支持单变量正态分布的检验,因而通常检验两变量是否均服从正态分布,从而视为服从双变量正态分布。但这样仍有一定可能犯错,R软件包mvnormtest中的mshapiro.test函数可以用于检验双变量正态分布。

如果两个变量符合正态分布,则可以计算Pearson相关系数。如果变量不符合正态分布,有三种选择:①对不符合正态分布的变量进行数据转换,生成新变量并对其检验这些假设;②采用非参检验,如计算Spearman相关系数;③由于Pearson相关系数对不符合正态分布的情况具有一定的抗性,因此仍可尝试计算Pearson相关系数。

3 计算Pearson相关系数

Pearson相关系数的计算公式如下:

Pearson相关系数取值范围在[-1,+1],负数代表负相关,正数代表正相关,0则代表不存在相关关系。相关系数越接近0,相关关系越弱;越接近-1或+1,相关关系越强。

4 研究问题时的假设

当研究问题入手时,应持怀疑而非肯定的态度。培根曾说:“如果一个人以种种肯定的立论开抬,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态开始,那么他必将获得肯定的结论。这也是我们常常将“原假设”设定到与期望的结果相对的原因。

参考文献

Pearson相关分析-SPSS教程

双变量正态分布,即两变量均服从正态分布?