Bootstrap
思想:利用小样本的分布来估计总体真实的分布,在小样本时效果很好
Bagging
属于集成学习的一种,从训练集从进行子抽样组成每个基模型所需要的子训练集。抽个要放回去,对所有基模型预测的结果进行综合产生最终的预测结果。代表:随机森林(RF),可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为连续值的量,比如C4.5算法来构造树。结果为少数服从多数,多个决策树的投票结果。随机森林中的分类器是并行生成的。
Boosting
一种框架算法,用来提高弱分类器准确度的方法。Boosting算法更加关注错分的样本。代表算法:Adaboost(Adaptive Boosting),分类器是串行生成的。
核心思想: 一种迭代算法,针对同一个训练集训练不同的分类器(弱分类器),然后进行分类,对于分类正确的样本权值低,分类错误的样本权值高(通常是决策边界附近的样本),最后的分类器是很多弱分类器的线性叠加(加权组合),权重由每个分类器错误样本的权值和个数决定,权重越大说明该分类器性能越优。
Adaboost算法解释