0. 引言
1. 摘要
近年来,场景文本识别(STR)已得到了广泛的研究。许多最近提出的方法都是经过专门设计的,以适应场景文本的任意形状,布局和方向,但是忽略了各种字体(或书写)样式也给STR带来了严峻挑战。这些方法(使字符的字体特征和内容特征纠缠在一起)在具有新颖字体样式的文本的场景图像上的文本识别中表现不佳。为了解决这个问题,我们通过注意生成大量字体样式的字形来探索场景文本的字体无关特征。具体来说,我们引入可训练的字体嵌入来塑造生成的字形的字体样式,场景文本的图像特征仅代表其基本模式。生成过程以空间注意机制为指导,有效地处理不规则文本,生成比现有图像到图像翻译方法更高质量的字形。在几个STR基准测试上进行的实验表明,与现有技术相比,我们的方法具有优越性。