pyrhon OCR文字识别

#将识别的文本整理成word、txt格式的文件:

import pytesseract
from PIL import Image
import docx
import os

# 打开图片
img = Image.open('example.png')

# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')

# 将文本按照段落进行分割
paragraphs = text.split('\n\n')

# 将文本整理成word格式的文件
doc = docx.Document()
for p in paragraphs:
    doc.add_paragraph(p)
doc.save('example.docx')

# 将文本整理成txt格式的文件
with open('example.txt', 'w') as f:
    for p in paragraphs:
        f.write(p + '\n\n')

# 打开生成的文件
os.system('start example.docx')
os.system('start example.txt')