目录
- 一、提出背景
- 二、Label Smoothing 原理
- 三、Label Smoothing 在YOLO中的应用
label smoothing是一种在 分类/检测 问题中,防止过拟合的方法。
一、提出背景
交叉熵(Cross-Entropy)损失函数是分类模型中的一种非常重要的目标函数。在二分类问题中,交叉熵损失函数的形式如下:
如果分类准确,交叉熵损失函数的结果是0(即上式中p和y一致的情况),否则交叉熵为无穷大。也就是说交叉熵对分类正确给的是最大激励。
不太理解交叉熵(Cross-Entropy)损失函数的可以看看我的另一篇关于交叉熵损失函数的博文: 交叉熵损失函数.
对于标注数据来说,这个时候我们认为其标注结果是准确的(不然这个结果就没意义了)。但实际上,有一些标注数据并不一定是准确的。那么这时候,使用交叉熵损失函数作为目标函数并不一定是最优的。
也可以这么理解: 在分类任务中,我们通常对类别标签的编码使用[0,1,2,…]这种形式。在深度学习中,通常在全连接层的最后一层,加入一个softmax来计算输入数据属于每个类别的概率,并把概率最高的作为这个类别的输入,然后使用交叉熵作为损失函数。这会导致模型对正确分类的情况奖励最大,错误分类惩罚最大。如果训练数据能覆盖所有情况,或者是完全正确,那么这种方式没有问题。但事实上,这不可能。所以这种方式可能会带来泛化能力差的问题,即过拟合。
用下面的 label smoothing 可以缓解这个问题。
二、Label Smoothing 原理
原理: 假设我们的分类只有两个,一个是猫一个不是猫,分别用1和0表示。Label Smoothing的工作原理是对原来的[0 1]这种标注做一个改动,假设我们给定Label Smoothing的平滑参数为0.10.10.1:[0,1]×(1?0.1)+0.1/2=[0.05,0.95][0,1]×(1?0.1)+0.1/2=[0.05,0.95][0,1]×(1?0.1)+0.1/2=[0.05,0.95]
可以看到,原来的[0,1]标签成了[0.05,0.95][0.05,0.95][0.05,0.95]了,那么就是说,原来分类准确的时候,p=1p=1p=1,不准确为p=0p=0p=0。假设为Label Smoothing的平滑参数为?\epsilon?,现在变成了: 分类准确的时候 p=1?0.5??p=1-0.5*\epsilonp=1?0.5??, 分类不准确时 p=0.5??p=0.5*\epsilonp=0.5??,也就是说对分类准确做了一点惩罚。
这实际上是一种正则化策略,减少了真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。
下图为使用Label Smoothing的概率分布图:
三、Label Smoothing 在YOLO中的应用
# # https://github.com/ultralytics/yolov3/issues/238#issuecomment-598028441
def smooth_BCE(eps=0.1): # eps 平滑系数 [0, 1] => [0.95, 0.05]# return positive, negative label smoothing BCE targets# positive label= y_true * (1.0 - label_smoothing) + 0.5 * label_smoothing# y_true=1 label_smoothing=eps=0.1return 1.0 - 0.5 * eps, 0.5 * eps