论文地址: https://arxiv.org/pdf/2009.10874.pdf
摘要
近年来,基于自注意的场景文本识别方法受到Transformer的启发,取得了优异的性能。但是,我们发现模型的尺寸随着词汇量的增加而迅速增大。其中,softmax分类层和输出嵌入层的参数数量与词汇量大小成正比。它阻碍了轻量级文本识别模型的开发,特别是针对中文和多种语言的文本识别模型。因此,我们提出了一种轻量级的场景文本识别模型——汉明OCR。在该模型中,提出了一种新的汉明分类器来代替softmax回归,并采用locality sensitive hashing (LSH)算法对每个字符进行编码,生成的LSH代码直接用于替换嵌入输出。我们还提出了一种简化的变压器解码器,以减少参数的数量,消除前馈网络和使用跨层参数共享技术。
与传统方法相比,分类层和嵌入层的参数数量都独立于词汇量的大小,在不损失准确性的前提下,大大降低了存储需求。在4个公共基准和SynthText1合成的超过20,000个字符的中文文本数据集上的实验结果表明,汉明OCR取得了较好的效果。