python OCR识别( pytesseract 和 Pillow)

1. 安装必要的库首先，你需要安装 pytesseract 和 Pillow 库。此外，还需要安装 Tesseract OCR 引擎。安装 Tesseract OCR 引擎Windows：从 Tesseract GitHub 页面下载安装包。macOS：使用 Homebrew 安装：

爱吃香菜

1105人浏览 · 2024-12-07 13:53:25

爱吃香菜 · 2024-12-07 13:53:25 发布

📝 面试求职： 「面试试题小程序」 ，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

1. 安装必要的库

首先，你需要安装 pytesseract 和 Pillow 库。此外，还需要安装 Tesseract OCR 引擎。

安装 Tesseract OCR 引擎

Windows：从 Tesseract GitHub 页面下载安装包。

macOS：使用 Homebrew 安装：

brew install tesseract

Linux：使用包管理器安装：

sudo apt-get install tesseract-ocr

安装 pytesseract 和 Pillow

pip install pytesseract pillow

2. 设置 Tesseract 路径（仅限 Windows）

如果你在 Windows 上使用 Tesseract，需要设置 pytesseract 的路径。例如：

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

3. 读取图像并进行 OCR 识别

以下是一个完整的示例代码，演示如何使用 pytesseract 和 Pillow 进行 OCR 识别。

示例代码

import pytesseract
from PIL import Image
# 设置 Tesseract 路径（Windows 用户需要设置）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 打开图像
image_path = 'id_card.jpg'
image = Image.open(image_path)
# 使用 Tesseract 进行 OCR 识别
text = pytesseract.image_to_string(image,)  # 使用简体中文
# 打印识别结果
print(text)

4. 处理识别结果

识别结果通常是字符串形式，你可能需要对其进行进一步处理。例如，提取特定的信息（如姓名、身份证号等）。

示例代码：提取特定信息

import re
# 识别结果
text = pytesseract.image_to_string(image,)
# 打印原始识别结果
print("原始识别结果:")
print(text)
# 使用正则表达式提取特定信息
name_pattern = re.compile(r'姓名\s*([\u4e00-\u9fa5]+)')
id_pattern = re.compile(r'公民身份号码\s*(\d{18})')
name_match = name_pattern.search(text)
id_match = id_pattern.search(text)
if name_match:
    name = name_match.group(1)
    print(f"姓名: {name}")
else:
    print("未找到姓名")
if id_match:
    id_number = id_match.group(1)
    print(f"公民身份号码: {id_number}")
else:
    print("未找到公民身份号码")

5. 提高识别准确率

为了提高 OCR 识别的准确率，可以进行以下优化：

预处理图像：调整图像的亮度、对比度、分辨率等。

使用不同的语言模型：根据图像内容选择合适的语言模型。

分块识别：将图像分成多个区域，分别进行 OCR 识别。

示例代码：预处理图像

from PIL import ImageEnhance
# 打开图像
image = Image.open(image_path)
# 调整亮度
enhancer = ImageEnhance.Brightness(image)
image_enhanced = enhancer.enhance(1.5)  # 增加亮度
# 调整对比度
enhancer = ImageEnhance.Contrast(image_enhanced)
image_enhanced = enhancer.enhance(1.5)  # 增加对比度
# 使用 Tesseract 进行 OCR 识别
text = pytesseract.image_to_string(image_enhanced,)
# 打印识别结果
print(text)

OCR 识别的准确性如何提高?

提高 OCR（Optical Character Recognition，光学字符识别）的准确性是许多应用中的关键问题。以下是一些有效的方法和技巧，可以帮助你提高 OCR 识别的准确性：

1. 图像预处理

图像预处理是提高 OCR 准确性的第一步。以下是一些常见的预处理技术：

灰度化：将彩色图像转换为灰度图像，减少颜色信息的干扰。

二值化：将图像转换为黑白图像，使文字和背景之间的对比度更加明显。

去噪：使用滤波器（如高斯滤波、中值滤波）去除图像中的噪声。

增强对比度：增加图像的对比度，使文字更加清晰。

锐化：使用锐化滤波器增强图像的细节。

旋转和裁剪：确保图像中的文本是水平的，并且没有多余的边框。

示例代码：图像预处理

from PIL import Image, ImageEnhance, ImageFilter
import numpy as np
import cv2
# 打开图像
image = Image.open('id_card.jpg')
# 灰度化
image_gray = image.convert('L')
# 二值化
threshold = 128
image_binary = image_gray.point(lambda p: p > threshold and 255)
# 去噪
image_denoised = image_binary.filter(ImageFilter.MedianFilter())
# 增强对比度
enhancer = ImageEnhance.Contrast(image_denoised)
image_contrasted = enhancer.enhance(2.0)
# 锐化
image_sharpened = image_contrasted.filter(ImageFilter.SHARPEN)
# 保存预处理后的图像
image_sharpened.save('preprocessed_image.jpg')

2. 文本区域检测

在进行 OCR 之前，先检测出图像中的文本区域，可以提高识别的准确性和效率。

边缘检测：使用 Canny 边缘检测算法检测图像中的边缘。

轮廓检测：使用 OpenCV 的轮廓检测功能找到文本区域的轮廓。

文本检测算法：使用专门的文本检测算法，如 EAST（Efficient and Accurate Scene Text Detector）。

示例代码：文本区域检测

import cv2
# 读取图像
image = cv2.imread('id_card.jpg', cv2.IMREAD_GRAYSCALE)
# 二值化
_, binary = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)
# 边缘检测
edges = cv2.Canny(binary, 50, 150)
# 轮廓检测
contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# 绘制轮廓
for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)
# 保存检测结果
cv2.imwrite('detected_text_regions.jpg', image)

3. 使用高质量的 OCR 引擎

选择高质量的 OCR 引擎可以显著提高识别准确性。以下是一些流行的 OCR 引擎：

Tesseract：开源的 OCR 引擎，支持多种语言。
Google Cloud Vision API：提供强大的 OCR 功能，支持多种语言和文档类型。
ABBYY FineReader：商业 OCR 软件，提供高精度的 OCR 识别。

4. 语言模型和字典

使用语言模型和字典可以帮助 OCR 引擎更好地理解文本内容，减少识别错误。

语言模型：使用训练好的语言模型，如 LSTM（长短期记忆网络）模型，提高识别准确性。

字典：提供一个包含常见单词和短语的字典，帮助 OCR 引擎纠正识别错误。

示例代码：使用 Tesseract 的语言模型

import pytesseract
from PIL import Image
# 打开图像
image = Image.open('preprocessed_image.jpg')
# 使用 Tesseract 进行 OCR 识别
text = pytesseract.image_to_string(image, lang='chi_sim+eng')  # 使用简体中文和英文
# 打印识别结果
print(text)

5. 分块识别

将图像分成多个区域，分别进行 OCR 识别，可以提高识别的准确性和效率。

示例代码：分块识别

import pytesseract
from PIL import Image
# 打开图像
image = Image.open('preprocessed_image.jpg')
# 定义分块大小
block_size = 100
# 获取图像尺寸
width, height = image.size
# 分块识别
for y in range(0, height, block_size):
    for x in range(0, width, block_size):
        block = image.crop((x, y, x + block_size, y + block_size))
        block_text = pytesseract.image_to_string(block,)
        print(f"Block at ({x}, {y}): {block_text}")

6. 后处理

对 OCR 识别结果进行后处理，可以进一步提高准确性。

拼写检查：使用拼写检查工具纠正识别错误。

正则表达式：使用正则表达式提取特定信息，如日期、电话号码等。

上下文分析：根据上下文信息纠正识别错误。

示例代码：后处理

import re
# 识别结果
text = pytesseract.image_to_string(image,)
# 打印原始识别结果
print("原始识别结果:")
print(text)
# 使用正则表达式提取特定信息
name_pattern = re.compile(r'姓名\s*([\u4e00-\u9fa5]+)')
id_pattern = re.compile(r'公民身份号码\s*(\d{18})')
name_match = name_pattern.search(text)
id_match = id_pattern.search(text)
if name_match:
    name = name_match.group(1)
    print(f"姓名: {name}")
else:
    print("未找到姓名")
if id_match:
    id_number = id_match.group(1)
    print(f"公民身份号码: {id_number}")
else:
    print("未找到公民身份号码")

总结

提高 OCR 识别的准确性可以通过多种方法实现，包括图像预处理、文本区域检测、使用高质量的 OCR 引擎、语言模型和字典、分块识别以及后处理。希望这些方法和技巧能帮助你提高 OCR 识别的准确性。如果有任何问题或需要进一步的解释，请随时提问。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取 【保证100%免费】
在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐