一、前言

我们在讲过ANOVA,MANOVA，今天来说一下线性回归，本篇只做理论，R语言代码会在下一篇讲解。一元线性回归在统计学，计量经济学和机器学习中很常见，我们今天来走一遍一元线性回归的流程。

二、变量的关系

变量的关系包括很多种，

首先是确定性关系：例如：圆的面积S与半径r

第二种是依赖型关系：例如：农作物产量与气温，降水，干湿度的关系，你并不能找到一个完美的模型来模拟或者预测这几者的关系。

但是，要注意，依赖型关系不一定是因果性的，例如：天热了，冰激凌销量上升，同时溺水的人也增多了，你发现冰淇淋销量和溺水人数有一定的关系，但是这不意味着“因为冰淇淋销量上升，所以溺水的人多了”，这很荒谬。所以要注意这一点。

回归函数：因变量Y随自变量X变化的规律

随机扰动项：意味着观察值围绕期望值的差。

那么随机扰动项包括四类：

另外说一点，回归函数有总体回归和样本回归的区别，我觉得不怎么有必要那么细，这里统一为回归方程。

回归方程的表述：

【定量分析、量化金融与统计学】R语言线性回归（1）：一元线性回归（理论篇）

关于y的假设：

关于x的假设：

其他检验：正态性检验

【定量分析、量化金融与统计学】R语言线性回归（1）：一元线性回归（理论篇）

我们通过求偏导数，来找到最值，这也是机器学习中常做的梯度下降法。

【定量分析、量化金融与统计学】R语言线性回归（1）：一元线性回归（理论篇）

为什么最小二乘法也要做这个检验？最小二乘法不是最优的拟合么？

答：那万一最优拟合也很差呢？万一x，y本来就不存在线性关系，方程是强行拟合的呢？

TSS = ESS+RSS 也有叫SST SSE SSR，无所谓，都是一个东西

拟合优度R2 = ESS/TSS

拟合优度越大越好

通过假设检验的方式，T检验，F检验都可以，其原理是“小概率事件不易发生”，通过反证法来证明。

【定量分析、量化金融与统计学】R语言线性回归（1）：一元线性回归（理论篇）

下一篇用R语言拟合一个数据集。