别再手动录入票据了！用Python+EasyOCR写个自动识别脚本，5分钟搞定报销单-开发者社区

告别手工录入！用Python+EasyOCR打造智能报销单识别系统

每次月底报销时，面对堆积如山的发票和收据，你是否也感到头疼？手动录入不仅耗时费力，还容易出错。现在，只需几行Python代码，就能让计算机自动完成这些繁琐工作。本文将带你一步步构建一个智能报销单识别系统，从图像预处理到关键信息提取，彻底解放你的双手。

1. 准备工作与环境搭建

在开始之前，我们需要准备好开发环境。这个项目主要依赖EasyOCR库，它基于PyTorch深度学习框架，能够识别80多种语言的文字，特别适合处理中文和英文混合的报销单据。

首先安装必要的库：

pip install easyocr opencv-python pandas numpy

安装完成后，首次运行时会自动下载预训练模型。如果下载速度慢，可以手动下载模型文件（约600MB），放置到以下目录：

Windows:C:\Users\用户名\.EasyOCR\model
Linux/Mac:~/.EasyOCR/model

常见问题解决：

如果遇到GPU相关错误，可以设置gpu=False强制使用CPU
内存不足时，可以减小batch_size参数
中文识别效果不佳时，尝试调整contrast_ths和adjust_contrast参数

提示：商业场景中使用建议购买专业版OCR服务，本文方案适合个人和小型企业使用

2. 图像预处理技巧

实际拍摄的报销单往往存在各种问题：光线不均、角度倾斜、背景杂乱等。好的预处理能显著提升识别准确率。以下是几种实用技巧：

2.1 基础处理流程

import cv2 import numpy as np def preprocess_image(image_path): # 读取图像 img = cv2.imread(image_path) # 转为灰度图 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 自适应阈值二值化 thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2) # 降噪 kernel = np.ones((1, 1), np.uint8) opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel) return opening

2.2 处理特殊情况的进阶技巧

问题类型	解决方案	代码示例
光线不均	CLAHE均衡化	`cv2.createCLAHE()`
透视变形	四点变换	`cv2.getPerspectiveTransform()`
文字模糊	锐化处理	自定义卷积核
彩色背景	颜色分割	HSV色彩空间分析

实际案例：处理一张倾斜拍摄的餐饮发票

def correct_skew(image): # 边缘检测 edges = cv2.Canny(image, 50, 150, apertureSize=3) # 霍夫变换检测直线 lines = cv2.HoughLinesP(edges, 1, np.pi/180, 100, minLineLength=100, maxLineGap=10) # 计算平均角度 angles = [] for line in lines: x1, y1, x2, y2 = line[0] angles.append(np.arctan2(y2-y1, x2-x1)) median_angle = np.median(angles) * 180 / np.pi # 旋转校正 (h, w) = image.shape[:2] center = (w // 2, h // 2) M = cv2.getRotationMatrix2D(center, median_angle, 1.0) rotated = cv2.warpAffine(image, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE) return rotated

3. 关键信息提取与处理

识别出文字只是第一步，我们需要从中提取有用的结构化数据。常见报销单包含以下关键字段：

商户名称
消费日期
金额（大小写）
税号
发票代码/号码

3.1 使用正则表达式匹配关键信息

import re def extract_invoice_info(text): # 匹配日期 date_pattern = r'(\d{4}年\d{1,2}月\d{1,2}日|\d{4}-\d{2}-\d{2})' dates = re.findall(date_pattern, text) # 匹配金额 amount_pattern = r'¥\s*(\d+\.\d{2})|人民币\s*(\d+\.\d{2})' amounts = re.findall(amount_pattern, text) # 匹配税号 tax_pattern = r'[0-9A-Z]{15,20}' tax_numbers = re.findall(tax_pattern, text) return { 'date': dates[0] if dates else None, 'amount': amounts[0][0] or amounts[0][1] if amounts else None, 'tax_number': tax_numbers[0] if tax_numbers else None }

3.2 处理多页PDF和批量图片

对于批量处理，我们可以使用以下流程：

将PDF转换为图片（使用pdf2image库）
对每张图片应用预处理
识别文字内容
提取关键信息
保存到结构化格式（CSV/Excel）

from pdf2image import convert_from_path import pandas as pd def process_pdf_receipts(pdf_path, output_csv): images = convert_from_path(pdf_path) all_results = [] reader = easyocr.Reader(['ch_sim', 'en']) for i, img in enumerate(images): img_path = f"temp_{i}.jpg" img.save(img_path, 'JPEG') # 预处理 processed = preprocess_image(img_path) cv2.imwrite(img_path, processed) # 识别 results = reader.readtext(img_path, detail=0) full_text = '\n'.join(results) # 提取 info = extract_invoice_info(full_text) info['page'] = i+1 all_results.append(info) # 保存结果 df = pd.DataFrame(all_results) df.to_csv(output_csv, index=False) return df

4. 系统优化与错误处理

在实际应用中，我们会遇到各种边界情况。以下是几个优化方向：

4.1 提高识别准确率的技巧

语言组合：同时使用中英文模型['ch_sim', 'en']

参数调优：

reader.readtext(image, contrast_ths=0.3, adjust_contrast=0.7, text_threshold=0.6, width_ths=0.8)

后处理：结合NLP技术纠正识别错误

4.2 常见错误处理方案

错误类型	解决方案	实现方法
漏识别	多角度识别	设置`rotation_info=[90,180,270]`
误识别	白名单过滤	使用`allowlist`参数
格式混乱	规则引擎	自定义校验规则
性能低下	批量处理	增大`batch_size`

4.3 与企业财务系统集成

将识别结果直接导入财务系统可以进一步简化流程：

def export_to_erp(data, api_endpoint): """将识别结果通过API传输到企业ERP系统""" import requests payload = { "vendor": data.get('merchant'), "date": data.get('date'), "amount": data.get('amount'), "tax_code": data.get('tax_number'), "category": "办公支出" } response = requests.post(api_endpoint, json=payload, headers={'Content-Type': 'application/json'}) if response.status_code == 200: print("成功导入ERP系统") else: print(f"导入失败: {response.text}")

5. 完整案例演示

让我们通过一个真实案例串联所有知识点。假设我们有一张餐饮发票照片，需要提取以下信息：

商户名称："XX餐厅"
日期："2023-05-15"
金额："¥128.00"
税号："92340100MA2N4J3X8E"

实现步骤：

# 初始化 import easyocr reader = easyocr.Reader(['ch_sim', 'en'], gpu=False) # 1. 图像预处理 img = preprocess_image("invoice.jpg") cv2.imwrite("processed.jpg", img) # 2. 文字识别 results = reader.readtext("processed.jpg", detail=1, paragraph=True, contrast_ths=0.3) # 3. 信息提取 full_text = "\n".join([res[1] for res in results]) invoice_data = extract_invoice_info(full_text) # 4. 结果导出 import pandas as pd df = pd.DataFrame([invoice_data]) df.to_excel("报销单.xlsx", index=False) print(f"识别结果已保存，总金额：{invoice_data['amount']}")

性能优化建议：