问题描述
我有一个多页.tif
文件,我试图使用Tesseract OCR从中提取文本,但我收到此错误
TypeError:不支持的图像对象
码
from PIL import Image
import pytesseract
img = Image.open('Group 1/1_CHE_MDC_1.tif')
text = pytesseract.image_to_string(img.seek(0)) # OCR on 1st Page
text = ' '.join(text.split())
print(text)
错误
不知道为什么会发生这种情况
1楼
Image.seek
没有返回值,所以你基本上运行:
pytesseract.image_to_string(None)
相反:
img.seek(0)
text = pytesseract.image_to_string(img)
2楼
我有一个相同的问题,我尝试了下面的代码,它对我有用: -
导入glob
import pytesseract import os
os.chdir( “设置你的Tesseract-OCR .exe文件路径” )
b = ''
for i in glob.glob('Fullpath of your image directory/*.tif'): <-- you can give *.jpg extension in case of jpg image
if glob.glob('*.tif'):
b = b + (pytesseract.image_to_string(i))
print(b)
快乐学习!