机器学习笔记23——集成/提升（Boosting）系列算法之XGBoost 算法原理以及python实现_综合

1、概述

全称：eXtreme Gradient Boosting （极限梯度提升）
作者：陈天奇(华盛顿大学博士)
基础：GBDT
所属：boosting迭代型、树类算法。
适用范围：分类、回归
优点：速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。

缺点：发布时间短（2014），工业领域应用较少，待检验

$\quad \quad$ XGBoost是在GBDT的基础上对boosting算法进行的改进，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：

一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以直接很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。算法本身的优化是我们后面讨论的重点。
二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行选择。对分组的特征，选择合适的分组大小，使用CPU缓存进行读取加速。将各个分组保存到多个硬盘以提高IO速度。
三是算法健壮性的优化：对于缺失值的特征，通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式。算法本身加入了L1和L2正则化项，可以防止过拟合，泛化能力更强。

$\quad \quad$ 在上面三方面的优化中，第一部分算法本身的优化是重点也是难点。现在我们就来看看算法本身的优化内容。

https://www.cnblogs.com/pinard/p/10979808.html

https://blog.csdn.net/zgcr654321/article/details/88414369

https://blog.csdn.net/sumaliqinghua/article/details/86745651