news 2026/6/25 20:48:08

效率爆炸!我用 Python + DeepSeek 写了个“能听懂人话”的 OCR 神器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
效率爆炸!我用 Python + DeepSeek 写了个“能听懂人话”的 OCR 神器

还在手动敲表格?还在为截图里的数据抓狂?
今天给大家分享一个我刚刚撸出来的 Python 神器——智能 OCR 表格提取助手。它不仅能一键把图片变 Excel,更厉害的是,它接入了DeepSeek V3,能自动帮你补全数据!


🔥 核心痛点,一键解决

作为一名经常和数据打交道的打工人,我最烦的就是:

  1. 截图转表格:对方发来一张截图,让我做成 Excel,几百行数据敲到手断。

  2. 表头乱飞:普通 OCR 识别出来全是散的,表头和数据混在一起,排序一按全乱了。

  3. 数据缺失:表格里只有“某某基金”,领导非要我填上“基金代码”,我又得一个个去百度。

于是,这个工具诞生了!


✨ 四大杀手级功能

1. 🖼️ 图片秒变可编辑表格

依托RapidOCR引擎,识别速度飞快。识别后的文字直接变成一个类似 Excel 的界面,双击就能改,右键就能删

2. 🔒 独创“表头/标题锁定”技术

这是市面上很多免费 OCR 工具都没有的细节!

  • 一键锁定表头:右键“将首行设为表头”,排序时它纹丝不动。
  • 智能识别标题:支持“标题+表头”双重锁定,完美还原复杂报表结构。

3. 🤖 DeepSeek AI 智能补全(王炸功能)

这是最硬核的地方!如果你的表格里有“基金名称”或者“公司名”,但缺少代码:

  • 选中那一列。
  • 右键点击DeepSeek: 智能补全基金代码
  • 见证奇迹:AI 会自动联网查询,并直接在表格里帮你插入一列新的代码

4. 📤 格式完美导出

所见即所得,你调整好的表格,直接导出为 Excel,连标题和列宽都给你安排得明明白白。


💻 核心代码大赏

不仅要好用,还要硬核。看看这几行代码,你就知道它为什么这么强。

📌 1. DeepSeek 深度集成 (AI Worker)

我们利用QThread实现了异步 AI 调用,界面不卡顿,体验丝般顺滑。

classDeepSeekWorker(QThread):finished=pyqtSignal(dict)defrun(self):# 直接调用 DeepSeek 官方 APIclient=OpenAI(api_key=self.api_key,base_url="https://api.deepseek.com")# 精心设计的 Prompt,强制输出 JSON 格式,方便程序解析prompt=f""" 你是一个专业的金融数据助手。请根据以下基金名称列表,查找并返回对应的中国基金代码。 要求:返回结果必须是严格的 JSON 格式 (Key: 名称, Value: 代码)。 列表:{json.dumps(self.fund_names,ensure_ascii=False)}"""response=client.chat.completions.create(model="deepseek-chat",messages=[{"role":"user","content":prompt}],stream=False)# 解析结果并回传给主界面self.finished.emit(json.loads(response.choices[0].message.content))

📌 2. 智能行列重组算法

普通的 OCR 只会给你一堆坐标,我们写了个算法,把它们“拼”回表格。

defsmart_merge_lines(self,result):# 先按 Y 轴聚类,判断是否在同一行# 再按 X 轴排序,还原列顺序boxes.sort(key=lambdab:b["cy"])# ... (省略中间复杂的几何计算) ...ifabs(box["cy"]-last_box["cy"])<avg_h*0.6:current_row.append(box)# 归为同一行# ...returnfinal_rows

🏆 为什么选择它?

  • 隐私安全:OCR 识别完全在本地运行,你的财务报表图片不会上传到任何云端(除非你主动点击 DeepSeek 查询)。
  • 极致轻量:基于 PyQt5 开发,启动秒开,不像 Electron 应用那样吃内存。
  • 无限扩展:今天它可以补全基金代码,明天改改 Prompt,它就能补全“英文翻译”、“股票市盈率”或者“公司地址”!

💡 总结:这不仅仅是一个 OCR 工具,它是你数据处理流程中的AI 增效器

增强 DeepSeek 的提示词策略,增加了 强力模糊匹配 :

  • 明确告诉 AI 注意 QDIL -> QDII 这种常见 OCR 错误。
  • 让 AI 忽略 A 、 C 、 混合 等后缀,专注于核心名称的匹配。
  • 要求 AI 在不确定时, 优先返回最相似的代码 ,而不是直接放弃。

👉 想要源码?
(关注公众号“向左向右立正”)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 3:58:44

【2025最新】基于SpringBoot+Vue的志同道合交友网站管理系统源码+MyBatis+MySQL

摘要 在当今数字化时代&#xff0c;社交网络已成为人们日常生活中不可或缺的一部分。随着互联网技术的飞速发展&#xff0c;人们对社交平台的需求日益多样化&#xff0c;尤其是对志同道合的交友平台的需求显著增长。传统的社交平台往往缺乏精准匹配功能&#xff0c;无法满足用户…

作者头像 李华
网站建设 2026/6/19 9:58:45

人形机器人行业周报|EX机器人量产、Ameca表情系统、首形科技融资

人形机器人行业周报&#xff5c;2025.01.30本周看点&#xff1a;国产仿人机器人量产提速、表情交互技术成新焦点、资本持续加码赛道&#x1f4f0; 本周要闻 1. EX机器人宣布年产500台仿人机器人 分类&#xff1a;行业新闻 大连EX机器人正式宣布量产计划&#xff0c;年产能达到5…

作者头像 李华
网站建设 2026/6/19 13:35:56

3步释放50GB空间:这款系统清理工具让C盘重获新生

3步释放50GB空间&#xff1a;这款系统清理工具让C盘重获新生 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你的电脑是否经常弹出"存储空间不足"的警告…

作者头像 李华
网站建设 2026/6/20 15:21:36

老旧Windows电脑优化与系统焕新指南:从零成本到性能唤醒

老旧Windows电脑优化与系统焕新指南&#xff1a;从零成本到性能唤醒 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 随着电脑使用时间的增长&#xff0c;许多用户都会遇到…

作者头像 李华