正则线性模型
减少过度拟合的一个好办法就是对模型正则化(即约束它):它拥有的自由度越低,就越不容易过度拟合数据。比如,将多项式模型正则化的简单方法就是降低多项式的阶数。
对线性模型来说,正则化通常通过约束模型的权重来实现。接下来我们将会使用岭回归(Ridge Regression)、套索回归(LassoRegression)及弹性网络(Elastic Net)这三种不同的实现方法对权重进行约束。
岭回归
岭回归(也叫作吉洪诺夫正则化)是线性回归的正则化版:在成
本函数中添加一个等于的正则项。这使得学习中的算法不仅需要拟合数据,同时还要让模型权重保持最小。注意,正则项只能在训练的时候添加到成本函数中,一旦训练完成,你需要使用未经正则化的性能指标来评估模型性能。
超参数α控制的是对模型进行正则化的程度。如果α=0,则岭回归就是线性模型。如果α非常大,那么所有的权重都将非常接近于零,结果是一条穿过数据平均值的水平线。
岭回归成本函数: