首先要安装pillow和pytesseract
pip install pillow
pip install pytesseract
安装Tesseract
tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
然后全选一路往下就行……
配置环境
配置tesseract的安装路径
执行命令
setx TESSDATA_PREFIX G:\tesseract\tessdata
测试代码
from PIL import Image
import subprocessdef cleanFile(filePath, newFilePath):image = Image.open(filePath)# 对图片进行阈值过滤,然后保存image = image.point(lambda x: 0 if x < 143 else 255)image.save(newFilePath)# 调用系统的tesseract命令对图片进行OCR识别subprocess.call(["tesseract", newFilePath, "output"])# 打开文件读取结果# 打开文件读取结果for line in open("output.txt", 'r', encoding='UTF-8'):print(line)cleanFile("download/b.jpg", "text_2_clean.png")
执行!!!!
完美再来试试!!!
ok~简单的一个识别图像的Demo完成了!!!!