它还支持聚合推理,将来自不同扩增的预测组合在一起,以提高预测精度。此外,我们提出了一种新的知识转移技术,我们称为自蒸馏,它在一个单一的(快速的)推理中具有聚合推理的效果。我们展示了我们的框架在各种全监督设置上的大精度改进和广泛适用性,例如,少样本和分类不平衡的场景。
第二段 以往的工作通常对原始任务和自监督任务保持两个独立的分类器(但共享相同的特征表示),并同时优化它们的目标. 然而,当使用全标记数据集时,这种多任务学习方法通常无法增加准确性。how can we effectively utilize the transformation-based self-supervision for fully-supervised classification tasks?
贡献:Problem:我们首先讨论我们观察到的多任务学习方法迫使原始任务的主要分类器相对于自监督任务的转换保持不变。由于变换可以很大程度上改变样本的字符特征和/或识别对象的有意义信息,因此,这种不变性可能导致任务的复杂性增加。这样会损害全局特征学习。降低全监督模型的精度。Method:针对原始标签和自我监督标签的联合分布,学习一个单一的统一任务,而不是之前自我监督文献中通常使用的两个独立任务
这种标签增强方法,我们称为自监督标签增强(SLA),在没有假设原始标签和自监督标签之间关系的情况下,不强制(转换具有任何不变性),=========:既然我们为每个转换分配不同的自我监督标签,那么就有可能在测试时通过聚合所有的转换来做出预测,如图1(b)所示。这可以使用单一模型提供(隐式的)集成效果。为了加快推理过程而不损失集成效应,我们提出了一种新的自精馏技术,该技术将多个推理的知识转化为单个推理,如图1(b)所示。
原文的图:
图 a:概述我们的自我监督标签增加和以前的方法与自我监督
图b:举例说明我们的聚合方法利用所有扩增样本和自蒸馏方法转移聚合的知识到自己
在2.2节中介绍我们的学习框架,该框架可以充分利用自我监督的力量
本文额外使用的技术:
aggregation:利用所有不同的扩增样本,以提供使用单一模型的集成效果(将自监督标签和原标签融合)。
self-distillation:将聚合的知识转移到模型本身中,加快推理速度不影响整体效果。
Notation: