人工智能-统计机器学习-线性回归_综合

监督学习-线性回归（linear regression）

回归分析：分析不同变量之间存在的关系。

回归模型：刻画不同变量之间关系的模型，如果这个模型是线性的，则称为线性回归模型。

在现实生活中，往往需要分析若干变量之间的关系，如碳排放量与气候变暖之间的关系、某一商品广告投入量与该商品销售量之间的关系等。一旦确定了回归模型，就可以进行预测等分析工作，如从碳排放量预测气候变化程度、从广告投入量预测商品销售等。

为什么叫线性回归？

由英国著名生物学家兼统计学家高尔顿 Sir Francis Galton提出的

父母平均身高每增加一个单位, 其成年子女平均身高只增加0.516个单位，它反映了这种“衰退 (regression)”效应（“回归”到正常人平均身高）。 虽然?和y之间并不总是具有“衰退”（回归）关系，但是“线性回归”这一名称就保留了下来了。

如何求取上述线性方程（预测方程）的参数？

我们学习线性回归方程中的目的就是通过训练求得方程的参数，从而推得方程的一般形式用来预测以后的数据。

线性回归模型例子：

下表给出了莫纳罗亚山（夏威夷岛的活火山）从1970年到2005年每5年的二氧化碳浓度，单位是百万分比浓度（Parts Per Million，ppm）。

将上表数据代入回归模型：? = ?? + b

求取：最佳回归模型是最小化残差平方和的均值，即要求8组(?, ?)数据得到的残差平均值最小。残差平均值最小只与参数?和?有关，最优解即是使得残差最小所对应的?和?的值。

回归模型参数求取：

记在当前参数下第?个训练样本的预测值为

的标注值（实际值）与预测值之差记为

训练集中?个样本所产生误差总和为：

目标：寻找一组?和?，使得误差总和?(?, ?)值最小。在线性回归中，解决如此目标的方法叫最小二乘法。一般而言，要使函数具有最小值，可对?(?, ?) 参数?和?分别求导，令其导数值为零，再求取参数?和?的取值。