之前说过了一元线性回归并给出了程序,今天来说说多元回归模型(Multiple Regression Model)
目录
一、多元回归模型的简介
二、求解多元回归模型:我们使用最小二乘法为例
三、评判方法
四、推理和回归
五、模型的优化
1.排除无关的变量:
2.多重共线性:
3.超大样本推理
一、多元回归模型的简介
多元回归模型等式:
y :因变量
X1, X2:自变量
βο, βι, β2:参数
ε:误差项(解释了q自变量的线性效应无法解释y的变异性)。
二元模型的图像示意:
我们称β为坡度系数或者斜率系数:
**斜率系数βj的解释:表示自变量xj每增加一个单位,因变量y的均值的变化。(保持模型中所有其他自变量的值为常数)
多元回归方程,描述y的均值如何与x1,x2……, xq相关。
二、求解多元回归模型:我们使用最小二乘法为例
最小二乘法的条件:
- 正态性:对于任意给定的自变量x1, x2的值组合,…, xq,潜在误差项ε的总体是均值为0,方差为常数的正态分布。
- 独立性:ε的值在统计上是独立的。
最小二乘法的步骤:
三、评判方法
我们与一元线性回归一样:采用R2来评判,之前已经讲过了,这里就提一下。
四、推理和回归
统计推断:通过分析从总体中抽取的样本数据,对总体的一个或多个特征(一个或多个参数的值)作出估计和得出结论的过程。
在回归分析中,通常用推理来估计和得出如下结论:
- 回归参数β0, β1, β2,…,βa的值
- 对于自变量的特定值,因变量y的平均值和/或预测值
(1)F检验测试:测试整体回归关系
使用基于F概率分布的F检验。查看是否拒绝0假设。
(2)检测单个回归关系是否显著
- 如果βj = 0,因变量y与自变量xj之间不存在线性关系。
- 如果βj ≠ 0, y和xj之间是线性关系
我们使用t检验:
随着t的大小增加(当t在任何方向偏离零),我们更有可能拒绝回归参数βj为零的假设。
五、模型的优化
1.排除无关的变量:
- 如果实际经验表明不显著的自变量与因变量之间存在关系,则应将自变量留在模型中。
- 如果模型在自变量不显著的情况下充分解释因变量,则考虑在自变量不显著的情况下重新进行回归。
- 当b0无统计学意义时,对纳入或排除y轴截距的适当处理可能需要特别考虑。
2.多重共线性:
概念:多元回归分析中自变量间的相关性。
在个体参数显著性的t检验中,多重共线性造成的困难在于,当自变量与因变量实际上有很强的关系时,可以得出与多重共线性自变量之一相关的参数与零没有显著差异的结论。但当自变量之间的相关性很小时,就避免了这个问题。
所以要检测多重共线性,我们会用一个R语言程序在下一讲中讲述如何检测和修复多重共线性。
3.超大样本推理
当样本超大时,几乎所有自变量和因变量之间的关系都具有统计学意义
就不能再用推理来区分有意义的关系和似是而非的关系。
这是因为回归参数βj的估计量bj的潜在值的可变性取决于两个因素:
- βj表示了总体要素与xj和y之间的关系有多密切
- 估计量bj的值所基于的样本的大小
当超大样本出现时,你已经不需要进行推理了,因为巨大的样本量集合可以涵盖到任何可能的关系。