当前位置: 代码迷 >> python >> Tesseract OCR在TIFF文件上失败
  详细解决方案

Tesseract OCR在TIFF文件上失败

热度:117   发布时间:2023-06-19 09:29:57.0

我有一个多页.tif文件,我试图使用Tesseract OCR从中提取文本,但我收到此错误

TypeError:不支持的图像对象

from PIL import Image
import pytesseract

img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0))  # OCR on 1st Page
text = ' '.join(text.split())
print(text)

错误

不知道为什么会发生这种情况

Image.seek没有返回值,所以你基本上运行:

pytesseract.image_to_string(None)

相反:

img.seek(0)
text = pytesseract.image_to_string(img)

我有一个相同的问题,我尝试了下面的代码,它对我有用: -

导入glob
import pytesseract import os

os.chdir( “设置你的Tesseract-OCR .exe文件路径”

b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'):  <-- you can give *.jpg extension in case of jpg image
    if  glob.glob('*.tif'):
        b = b +  (pytesseract.image_to_string(i))
print(b)

快乐学习!

  相关解决方案