当前位置: 代码迷 >> 综合 >> 【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)
  详细解决方案

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

热度:72   发布时间:2023-09-20 12:24:47.0

目录

一、前言

二、变量的关系

三、回归与随机扰动项

四、线性回归的假设前提

五、线性回归的解法:

1.最小二乘法估计:求最小残差

2.最大似然估计:求最大的随机观测概率

 六、事后检验

1.拟合优度检验:

2.变量显著性检验

3.参数区间估计:


一、前言

我们在讲过ANOVA,MANOVA,今天来说一下线性回归,本篇只做理论,R语言代码会在下一篇讲解。一元线性回归在统计学,计量经济学和机器学习中很常见,我们今天来走一遍一元线性回归的流程。

二、变量的关系

变量的关系包括很多种,

首先是确定性关系:例如:圆的面积S与半径r

第二种是依赖型关系:例如:农作物产量与气温,降水,干湿度的关系,你并不能找到一个完美的模型来模拟或者预测这几者的关系。

但是,要注意,依赖型关系不一定是因果性的,例如:天热了,冰激凌销量上升,同时溺水的人也增多了,你发现冰淇淋销量和溺水人数有一定的关系,但是这不意味着“因为冰淇淋销量上升,所以溺水的人多了”,这很荒谬。所以要注意这一点。

三、回归与随机扰动项

回归函数:因变量Y随自变量X变化的规律

随机扰动项:意味着观察值围绕期望值的差。

那么随机扰动项包括四类:

  1. 解释变量中被忽略的因素,例如农田产量可能不止和刚刚提到的三个因素有关,也可能和化肥量,农作物种类有关。
  2. 观测误差。
  3. 模型误差。
  4. 其他可能存在的误差。

另外说一点,回归函数有总体回归和样本回归的区别,我觉得不怎么有必要那么细,这里统一为回归方程。

回归方程的表述:

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

四、线性回归的假设前提

关于y的假设:

  1. 确定性假设,当你开始拟合的时候,你就不能再更改参数了
  2. 与随机项不相关假设,随机项不能和y有关系,例如:刚刚农田的例子,不能将化肥用量作为随机项。
  3. 观测值变化假设:必须有多个y值,不能只有一个点,只有一个点你没办法回归。
  4. 无完全共线性假设:因为完全共线就不是依赖关系了,而是确定性关系,就没必要回归了。
  5. 样本方差假设:当样本容量上升时,x的方差趋近于有限常数。

关于x的假设:

  1. 均值假设:E(u|x)=0    只要模型不离谱,不需要检验
  2. 同方差假设:Var(u|x) =0    需要检验
  3.  序列不相关假设:Cov(u1,u2|x1,x2)=0   需要检验

其他检验:正态性检验

五、线性回归的解法:

1.最小二乘法估计:求最小残差

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

我们通过求偏导数,来找到最值,这也是机器学习中常做的梯度下降法。

2.最大似然估计:求最大的随机观测概率

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

 六、事后检验

1.拟合优度检验:

为什么最小二乘法也要做这个检验?最小二乘法不是最优的拟合么?

答:那万一最优拟合也很差呢?万一x,y本来就不存在线性关系,方程是强行拟合的呢?

TSS = ESS+RSS      也有叫SST SSE SSR,无所谓,都是一个东西

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

 【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

 【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

拟合优度R2 = ESS/TSS

拟合优度越大越好

2.变量显著性检验

通过假设检验的方式,T检验,F检验都可以,其原理是“小概率事件不易发生”,通过反证法来证明。

3.参数区间估计:

【定量分析、量化金融与统计学】R语言线性回归(1):一元线性回归(理论篇)

下一篇用R语言拟合一个数据集。