大话文本识别经典模型：CRNN_综合

在前一篇文章中（详见本博客文章：大话文本检测经典模型 CTPN），介绍了文字识别在现实生活中的广泛应用，以及文字识别的简单流程：

其中“文本检测”、“文本识别”是其中两个关键环节，“文本检测”已经在前一篇文章中介绍了详细的介绍，本文主要介绍“文本识别”的经典模型CRNN及其原理。

在介绍CRNN之前，先来梳理一下要实现“文本识别”的模型，需要具备哪些要素：

（1）首先是要读取输入的图像，提取图像特征，因此，需要有个卷积层用于读取图像和提取特征。具体原理可详见本公众号的文章：白话卷积神经网络（CNN）；

（2）由于文本序列是不定长的，因此在模型中需要引入RNN（循环神经网络），一般是使用双向LSTM来处理不定长序列预测的问题。具体原理可详见本公众号的文章：白话循环神经网络（RNN）；

（3）为了提升模型的适用性，最好不要要求对输入字符进行分割，直接可进行端到端的训练，这样可减少大量的分割标注工作，这时就要引入CTC模型（Connectionist temporal classification，联接时间分类），来解决样本的分割对齐的问题。

（4）最后根据一定的规则，对模型输出结果进行纠正处理，输出正确结果。

以上就是“文本识别”模型的几个必须具备的要素。

接下来要介绍的CRNN模型，也是基本由这几部分组成的。

1、什么是CRNN

CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络），是华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition》提出的一个识别文本的方法，该模型主要用于解决基于图像的序列识别问题，特别是场景文字识别