1.误差原因
偏差:因为模型无法表达基本数据的复杂度——模型过度简化造成的-欠拟合
方差:用于测试预测结果对任意给定样本数据的变化,产生原因为:模型对训练它的有效数据过度敏感——过拟合,无法泛化模型
可以通过训练更多的数据降低方差,或者降低模型的复杂度。
4.
from sklearn.model_selection import learning_curve # sklearn 0.18
文档中一个合理的实现是:
learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
这里estimator
是我们正在用来预测的模型,例如它可以是GaussianNB()
,X
和y
是特征和目标。cv
是交叉验证生成器,例如KFold()
,'n_jobs'是平行运算的参数,train_sizes
是多少数量的训练数据用来生成曲线。