当前位置: 代码迷 >> 综合 >> 文字识别 tesseract-ocr 安装和配置
  详细解决方案

文字识别 tesseract-ocr 安装和配置

热度:90   发布时间:2024-02-12 05:18:46.0

1,先找到需要使用版本的tesseract,并下载tesseract安装包到本地,执行.exe文件安装到本地。

下载地址:https://github.com/UB-Mannheim/tesseract/wiki

         或: https://tesseract-ocr.github.io/tessdoc/4.0-with-LSTM.html#400-alpha-for-windows   找到自己需要的安装包

 

2,安装完成后,需要在环境变量的系统变量添加 变量名为:TESSDATA_PREFIX ,值为tesseract的安装路径,如下

 

3,环境变量配置好后,就可以在cmd命令窗口用命令:tesseract 11.png 22.txt 识别图片的文字并保存为txt文本,如下:

 

 

4,在python使用时,需要用pip install pytesseract 安装pytesseract , 在使用时如发生错误,如下:

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your 

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

则需要在pytesseract.py 文件中将 tesseract_cmd = 'tesseract' 改成安装tesseract的路径,如:

tesseract_cmd = r'E:\Work\Tesseract-OCR\tesseract.exe'

 

一切就绪后,则可以在python编写代码如下:

运行正常,照片字体越大越清晰,识别率越高!