2.评估指标(evaluation metrics)
(1)机器学习研究的是,如何根据数据进行预测。
(2)务必要将数据分为训练集以及测试集,目的是对得到独立的数据集并以此对模型进行良好的泛化。
(3)针对不同的模型,选择相关的指标,完成对模型的评估。之后将介绍常见的模型误差来源,以及如何正确分解数据集
3.分类和回归
(1)分类指,根据未见过的样本进行预测,并对未知的实例进行分类,离散数据,给定类别。
(2)回归指,根据连续的数据进行预测
(3)问题决定着如何评估模型
4.
分类指标:多久模型进行一次准确或者不准确的预测
准确率:正确标识的点/所有的点,不适用于大数量数据集中,仅有少量想要的数据时,以及需要准确预测结果时。
精确率:
召回率:特定类,
F分数:
回归指标:预测值与实际值的差如何
平均绝对误差:
均方误差:
9.混淆矩阵(confusion metrics)
24.F1分数为精确率和召回率的加权平均值:
(精确率*召回率)/(精确率+召回率)*2(0-1,越大越好)
sklearn.metrics.
f1_score
(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
26.平均绝对误差
sklearn.metrics.
mean_absolute_error
(y_true, y_pred, sample_weight=None, multioutput=’uniform_average’)
27.均方误差
sklearn.metrics.
mean_squared_error
(y_true, y_pred, sample_weight=None, multioutput=’uniform_average’)
28.回归分数函数
R2分数,可释方差分数
学习曲线
偏差
在训练误差和测试误差收敛并且相当高时,这实质上表示模型具有偏差。无论我们向其提供多少数据,模型都无法表示基本关系,因而出现系统性的高误差。
方差
如果训练误差与测试误差之间的差距很大,这实质上表示模型具有高方差。与偏差模型不同的是,如果有更多可供学习的数据,或者能简化表示数据的最重要特征的模型,则通常可以改进具有方差的模型。
理想曲线:收敛并且误差极低。模型复杂度
与学习曲线图形不同,模型复杂度图形呈现的是模型复杂度如何改变训练曲线和测试曲线,而不是呈现用来训练模型的数据点数量。一般趋势是,随着模型增大,模型对固定的一组数据表现出更高的变化性。
References
http://charleshm.github.io/2016/03/Model-Performance/
burglar 盗贼
increment擅长,增额
asymmetry不对称的