重读这篇真实世界的的噪声受控的噪声标签学习论文
1. Intro
Contribution:
1.建立了一个可控的标签噪声数据集。(通过改变噪声标签的数量来改变噪声率)
2.提出了一种方法在合成和真实数据集上效果都很好。使用课程学习来最小化经验近邻风险。
3.证明了之前学者的研究发现并发现了标签噪声学习的一些规律(噪声种类,等级,训练设置和网络结构)
最大的贡献在于建立了一个真实世界的标签噪声可控的web数据集。
2. Related works
- 人工合成的噪声差异性较大,工作之间的可比较性较低。
像从网站上爬取下来的web图像,根据其surroundings来进行label,这种数据集的标签杂声固定且未知,想要进行受控的研究,就必须要有不同等级的噪声率;且真实世界的数据分布不平衡,无法进行可控的研究。所以需要来自真实世界的噪声标签,且噪声率可控。(引出研究空白) - 鲁棒DL方法
dropout,label cleaning/correction,example weighting,cross-validation,semi-supervised learning,data augmentation,SSL,data augmentation等。本文方法简单,能够应对真实世界和合成的噪声,相对于SSL,本方法没有用到任何clean label。(指出本文方法优势)
3. Dataset
1. Dataset Construction
人工标注获使得真实标签已知,然后再真实标签已知的情况下按照不同的噪声比率构建梯度标签噪声数据集。
2. Noisy Web Label Acquisition
通过搜索引擎和上下文来找到图片并打标签,去重等。
4. Method
主要是在MentorNet上进行了改进,添加了Mixup
1. Background on MentorNet and Mixup
简要介绍MentorNet和Mixup的原理。
2. MentorMix
将近一页的内容介绍改进的方法,对使用的正则化和参数更新方式进行了介绍。
5. Experiment
主要做了两方面实验:
1.测试提出的方法。
2.在不同的设置下测试DNNs的表现。
1. Method Comparison
metrics:best acc,last acc
训练设置:training from scratch或者fine-tuning
Baseline和本文方法:Vanilla原始版本(使用L2 Reg,Dropout,Data Aug),WeightDecay,DropoutBootstrap,S-model,MentorNet,Mixup和本文的方法Menrtormix进行baseline对比。
以下是实验结果:
从实验结果上看出红色噪声的危害更小,但是更难消除,且MentorNet效果好。
MentorNet对max acc有所提高。相对于Vanilla在Blue上提高16.3%,Red上提高2.4%
2. COMPARISON TO THE STATE-OF-THE-ART
在CIFAR-10/100,ILSVRC12,WebVision上分别和stare-of-the-art进行比较,由于使用的网络容量差不多(ResNet32),除了MentorNet和Mixup以外,其他的结果都是引用作者文章中的结果。
在人工合成噪声数据集CIFAR-10/100上(Blue):
在所有噪声率下都达到了最好的结果。
在ILSVRC12,WebVision真实噪声标签数据集上(Red):
ILSVRC12提高了≈3%\approx3\%≈3%(显著改进),在WebVision上也效果最好,Clothing-1M数据集上74.3%74.3\%74.3%,也有竞争力(Clothing-1M原文是78.24%78.24\%78.24%)。上面实验证明MentorMix对Red噪声也有用。
3. Understanding DNNs trained on noisy labels
这就是基于数据集和方法对LNL进行的一些探索,这里贴出一些结论:
- DNNs generalize much better on red label noise
- DNNs may not learn patterns first on red label noise
- 预训练好的话,即使是在noisy labelled data上进行fine-tune也可以表现得比较好(文中是在本文数据集上的验证精度和在Imagenet上的测试精度有相关性),但是train from scratch就不行。所以建议可以使用更好的预训练来克服label noise。
6. Conclusion
Contribution:
- 建立了可控噪声数据集
- 提出了Mentormix的LNL方法
- 进行了LNL的大规模实验,并有以下发现:
- DNN对网页标签噪声的泛化效果更好;
- DNN可能不会首先在网络标签噪声中学习模式,早期停止可能不是非常有效;
- 当对网络进行微调时,ImageNet体系结构在对称噪声和web标签噪声方面都具有良好的通用性;
- 在合成噪音方面表现良好的方法可能无法在来自网络的真实噪音标签上工作;
- 所提出的方法对来自网络的合成和真实世界的噪声标签产生一致的改进。
同时对LNL有以下建议:
- 推荐使用好的预训练模型。预训练模型越好,对下游噪声任务的推广效果越好;
- Early stopping可能对来自web的标签噪声无效,尤其是在细粒度分类任务中;
- LNL方法在合成噪声(Blue)上好,在真实噪声(Red)上不一定好;
- Red噪声的危害似乎较小,但相对Blue来说更难解决。
小结:
- 对于使用的方法指进行简要介绍,关键是使用;
- 对据实验结果进行分析,并从中得出一些结论,所以我的论文重点放在分析结果上,方法不是我的就略讲。