目录
一、前言
二、变量的关系
三、回归与随机扰动项
四、线性回归的假设前提
五、线性回归的解法:
1.最小二乘法估计:求最小残差
2.最大似然估计:求最大的随机观测概率
六、事后检验
1.拟合优度检验:
2.变量显著性检验
3.参数区间估计:
一、前言
我们在讲过ANOVA,MANOVA,今天来说一下线性回归,本篇只做理论,R语言代码会在下一篇讲解。一元线性回归在统计学,计量经济学和机器学习中很常见,我们今天来走一遍一元线性回归的流程。
二、变量的关系
变量的关系包括很多种,
首先是确定性关系:例如:圆的面积S与半径r
第二种是依赖型关系:例如:农作物产量与气温,降水,干湿度的关系,你并不能找到一个完美的模型来模拟或者预测这几者的关系。
但是,要注意,依赖型关系不一定是因果性的,例如:天热了,冰激凌销量上升,同时溺水的人也增多了,你发现冰淇淋销量和溺水人数有一定的关系,但是这不意味着“因为冰淇淋销量上升,所以溺水的人多了”,这很荒谬。所以要注意这一点。
三、回归与随机扰动项
回归函数:因变量Y随自变量X变化的规律
随机扰动项:意味着观察值围绕期望值的差。
那么随机扰动项包括四类:
- 解释变量中被忽略的因素,例如农田产量可能不止和刚刚提到的三个因素有关,也可能和化肥量,农作物种类有关。
- 观测误差。
- 模型误差。
- 其他可能存在的误差。
另外说一点,回归函数有总体回归和样本回归的区别,我觉得不怎么有必要那么细,这里统一为回归方程。
回归方程的表述:
四、线性回归的假设前提
关于y的假设:
- 确定性假设,当你开始拟合的时候,你就不能再更改参数了
- 与随机项不相关假设,随机项不能和y有关系,例如:刚刚农田的例子,不能将化肥用量作为随机项。
- 观测值变化假设:必须有多个y值,不能只有一个点,只有一个点你没办法回归。
- 无完全共线性假设:因为完全共线就不是依赖关系了,而是确定性关系,就没必要回归了。
- 样本方差假设:当样本容量上升时,x的方差趋近于有限常数。
关于x的假设:
- 均值假设:E(u|x)=0 只要模型不离谱,不需要检验
- 同方差假设:Var(u|x) =0 需要检验
- 序列不相关假设:Cov(u1,u2|x1,x2)=0 需要检验
其他检验:正态性检验
五、线性回归的解法:
1.最小二乘法估计:求最小残差
我们通过求偏导数,来找到最值,这也是机器学习中常做的梯度下降法。
2.最大似然估计:求最大的随机观测概率
六、事后检验
1.拟合优度检验:
为什么最小二乘法也要做这个检验?最小二乘法不是最优的拟合么?
答:那万一最优拟合也很差呢?万一x,y本来就不存在线性关系,方程是强行拟合的呢?
TSS = ESS+RSS 也有叫SST SSE SSR,无所谓,都是一个东西
拟合优度R2 = ESS/TSS
拟合优度越大越好
2.变量显著性检验
通过假设检验的方式,T检验,F检验都可以,其原理是“小概率事件不易发生”,通过反证法来证明。
3.参数区间估计:
下一篇用R语言拟合一个数据集。