集成学习：XGBoost_综合

0 简介

Boosting的一种是GBDT的扩展
相比于GBDT ：

求解损失函数二阶展开牛顿法
损失函数加入正则化项

一般用于回归问题弱学习器用CART树

1 目标优化函数

$yi′y_i\prime$ 表示预测值
$yi,t′y_{i,t}\prime$ 第t次迭代对样本i的预测值
弱学习器 $f(x)=w_{q(x)}$ 其中q(x)把x映射到第i个叶子节点 wi是第i个节点的值
$yi,t′=yi,t?1′+ft(xi)y_{i,t}\prime=y_{i,t-1}\prime+f_t(x_i)$
$L=∑i=1n[l(yi,yi,t?1′+ft(xi))]+γT+12λw2L=\sum_{i=1}^n[l(y_i,y_{i,t-1}\prime+f_t(x_i))]+\gamma T+\cfrac12\lambda w^2$
最小化L 其中T是叶子节点数 w是所有预测值（叶子结点）的集合 γ和λ是正则化系数
叶子节点数尽量少预测值尽量小（因为弱分类器预测值是误差越小越好）
采用牛顿法
$L≈∑i=1n[l(yi,yi,t?1′)+gift(xi)+12hift2(xi)]+γT+12λw2L\approx \sum_{i=1}^n[l(y_i,y_{i,t-1}\prime)+g_if_t(x_i)+\cfrac12h_if_t^2(x_i)]+\gamma T+\cfrac12\lambda w^2$
$gi=?l(yi,yi,t?1′)?yi′........hi=?2l(yi,yi,t?1′)?2yi′g_i=\cfrac{\partial l(y_i,y_{i,t-1}\prime)}{\partial y_i\prime}........h_i=\cfrac{\partial ^2l(y_i,y_{i,t-1}\prime)}{\partial^2 y_i\prime}$
由于 $l(yi,yi,t?1′)l(y_i,y_{i,t-1}\prime)$ （上一个强学习器的损失）是常数所以相当于最小化：
$\sum_{i=1}^n[g_if_t(x_i)+\cfrac12h_if_t^2(x_i)]+\gamma T+\cfrac12\lambda \sum_{j=1}^Tw_j^2$
$$$$
差点推导公式

2 求解目标优化函数

(1)假设q(x)决策树结构确定获得所有叶子结点值
$ax2+bx最小值时2ax+b=0所以x=?b2aax^2+bx 最小值时 2ax+b=0所以x=-\cfrac{b}{2a}$
$wj?=?∑i∈Ijgi[∑i∈Ijhi]+λw_j^*=-\cfrac{\sum_{i\in I_j}g_i}{[\sum_{i\in I_j}h_i]+\lambda}$
(2)有了叶子结点值如何将x与叶子对应
确定最佳分裂 i=q(x)
$ax2+bxandx=?b2a...原式=?b24aax^2+bx\quad and \quad x=-\cfrac b{2a}...原式=-\cfrac {b^2}{4a}$
所以损失函数等于：
$Lq=∑j=1T[?(∑i∈Ijgi)22([∑i∈Ijhi]+λ)]+γTL_q=\sum_{j=1}^T[-\cfrac{(\sum_{i\in I_j}g_i)^2}{2([\sum_{i\in I_j}h_i]+\lambda)}]+\gamma T$
可以将损失函数 $L_q$ 作为决策树划分的一个度量（类似熵、GINI)
样本 $I$ 划分为 $I_左$ 和 $I_右$
$旧：?12总+γT旧：-\cfrac12总+\gamma T$
$新：?12左?12右+γ(T+1)新：-\cfrac12左-\cfrac12右+\gamma (T+1)$
所以分裂规则是最大化[旧-新] 也就是最大化以下：
$Lsplit=12(左+右?总)?γL_{split}=\cfrac12(左+右-总)-\gamma$

3 过拟合

（1）权重收缩
训练好弱分类器决策树后将其预测值乘β
（2）列采样
训练决策树时使用一部分特征

集成学习：XGBoost

目录

0 简介

1 目标优化函数

2 求解目标优化函数

3 过拟合