引言
摘要
场景文本识别(STR)由于其广泛的应用,一直是计算机视觉领域的研究热点。现有的研究主要集中在学习一个通用的模型,用大量的合成文本图像来识别无约束的场景文本,并取得了实质性的进展。然而,这些方法在许多实际场景中并不十分适用:1)需要较高的识别精度,而2)缺少标记样本。为了解决这一挑战性问题,本文提出了一种在合成源域(具有多个合成标记样本)和一个特定目标域(只有一些或几个真实标记样本)之间建立序列自适应的方法。这是通过一种注意机制同时学习每个字符的特征表示,并通过对抗性学习建立相应的字符级潜在子空间。我们的方法可以最大限度地减少源域和目标域之间的字符级混淆,从而在目标域中即使只有少量的标记样本也能实现序列级的自适应。在各种数据集上的大量实验表明,我们的方法明显优于精细调整方案,并且获得了与最新STR方法相当的性能