监督学习-线性回归(linear regression)
回归分析:分析不同变量之间存在的关系。
回归模型:刻画不同变量之间关系的模型,如果这个模型是线性的,则称为线性回归模型。
在现实生活中,往往需要分析若干变量之间的关系,如碳排放量与气候变暖之间的关系、某一商品广告投入量与该商品销售量之间的关系等。一旦确定了回归模型,就可以进行预测等分析工作,如从碳排放量预测气候变化程度、从广告投入量预测商品销售等。
为什么叫线性回归?
由英国著名生物学家兼 统计学家高尔顿 Sir Francis Galton提出的
父母平均身高每增加一个单位, 其成年子女平均 身高只增加0.516个单位,它反映了这种“衰退 (regression)”效应(“回归”到正常人平均身高)。 虽然?和y之间并不总是具有“衰退”(回归)关 系,但是“线性回归”这一名称就保留了下来了。
如何求取上述线性方程(预测方程)的参数?
我们学习线性回归方程中的目的就是通过训练求得方程的参数,从而推得方程的一般形式用来预测以后的数据。
线性回归模型例子:
下表给出了莫纳罗亚山(夏威夷岛的活火山)从1970年到2005年每5年的二氧化 碳浓度,单位是百万分比浓度 (Parts Per Million,ppm)。
将上表数据代入回归模型 :? = ?? + b
求取:最佳回归模型是最小化残差平方和的均值,即要求8组(?, ?)数据得到的残差平均值最小。残差平均值最小只与参数?和?有关,最优解即是使得残差最小所对应的?和?的值。
回归模型参数求取:
记在当前参数下第?个训练样本的预测值为
的标注值(实际值)与预测值之差记为
训练集中?个样本所产生误差总和为:
目标:寻找一组?和?,使得误差总和?(?, ?)值最小。在线性回归中,解决如此目标的方法叫最小二乘法。 一般而言,要使函数具有最小值,可对?(?, ?) 参数?和?分别求导,令其导数值为零,再求取参数?和?的取值。