要想了解如何增强机器学习模型性能,我们需要知道如何降低模型的误差。所以首先我们必须明白模型误差是由偏差(Bias)和方差(Variance)组成的。偏差是指样本预测值的平均值与样本真实值的差,而方差是指样本预测值偏离样本预测值平均值的程度。
其中
- 偏差(Bias)可以描述模型的准确性
- 而方差(Variance)可以描述模型的稳定性,一定程度上反映了模型泛化能力。
所以增强机器学习模型性能就意味着需要提高模型的准确性和稳定性。
我们来看看下图,直观的感受一下偏差(Bias)和方差(Variance)对模型的影响,你可以将其想象一个同学的一学期的考试情况,越靠红心代表考试得分越高:
- 右下角同学——学渣,每次考试分数不高,而且成绩还不稳定,属于高偏差高方差的模型。
- 左下角同学——学庸,成绩很稳定,可是每次考试得分都不高,属于方差较小可是偏差较大的模型。
- 右上角的同学——学聪,成绩还不错,可是忽高忽低,不稳定,属于偏差较小可是方差较大的模型。
- 左上角的同学——学霸,成键很棒,而且极其稳定,属于偏差较小,方差也小的模型。