前言
这一期原本是计划在 DeepSeek-OCR 前段刚火爆全网时,给大家分享下使用心得,无奈这段时间事情太多,耽误了更新进度,现在出这期详细体验还不算太晚吧。
之前我在这个账号里分享了很多期有关 OCR 识别的内容,是因为我觉得这一项功能确实实用性很强,也有很多人跟我咨询相关的问题。DeepSeek-OCR 则号称实现了突破性视觉压缩技术,到底什么是“视觉压缩技术”,以及它实用性又如何,我们这一期将一并详解。
本期目录
1. DeepSeek-OCR模型介绍 2. DeepSeek-OCR模型使用 3. 关于OCR模型的使用体验 4. 总结01DeepSeek-OCR模型介绍
2025年10月20号 DeepSeek 团队在 HuggingFace 开源了 DeepSeek-OCR模型 ,该模型主要用于探索一种名为“上下文光学压缩” (contexts optical compression) 的创新理念。
很多人将其视为OCR 2.0时代的代表,原因在于DeepSeek-OCR 不仅继承了传统OCR的文本识别能力,更在“文档理解”层面进行了全方位升级。对于 DeepSeek-OCR 的功能,我想分为基础功能和2.0功能两部分介绍:
基础功能介绍
DeepSeek-OCR 可以说,不仅仅是一个标准的 OCR 工具,它是一个理解文档结构和语义的智能系统。除了能够精确地从图像(如扫描件、截图、PDF页面)中提取文本,还能够理解文档的布局,并输出结构化的文本格式(这个后面将会展示),例如Markdown格式(可以清晰地保留标题、列表和表格结构,避免了传统 OCR 导致的排版混乱)。
另外,DeepSeek-OCR 在多模态解析能力方面表现出色,对于文档中的表格和图表、数学公式、科学符号、手写文本都有不错的识别能力。
视觉压缩技术
DeepSeek-OCR 的核心创新在于其视觉压缩技术,这也是它这次能够引起这么多关注的重要原因。它利用视觉模态作为比纯文本模态更高效的压缩通道,以解决长文档或高分辨率图像带来的 Token 数量爆炸问题。
简单的来说,就是它能使用更少的 Token 保证识别的精度,大大提高了识别的效率。这样对于识别内容量巨大的文本,比如整本500页的pdf书籍,都能快速达成理想目标,实现效率上的飞跃。
02使用DeepSeek-OCR模型识别pdf电子书
前面几期我们使用 OCR 技术识别过电子发票、图纸目录、手机截图等等,这期为了展示 DeepSeek-OCR 的使用效果,我们直接上强度,使用 OCR 模型识别电子扫描版的pdf规范。
工程行业的都知道规范内容有多麻烦,里面条文繁多,有大量标题、文字、公式、表格、插图。既然 DeepSeek-OCR 号称可以识别格式化的文本,我姑且试试它的效果。
使用OCR识别pdf规范
DeepSeek的模型都可以使用API调用和本地化部署两种方式,这期我只是展示模型效果,就不费劲巴拉的搞本地部署那套了,直接使用Python调用DeepSeek的API接口使用,这里我使用的是“硅基流动”提供的API接口,目前 deepseek-ai/DeepSeek-OCR 模型还是免费的哦。
功能模块
老样子,先介绍下程序的功能模块布局:
❶DeepSeek 模型调用函数:
API的调用需要先在硅基流动平台注册,并获得API 密钥,具体使用方法建议去API手册里看下,以下调用方式也可供参考:
defcall_siliconflow_ocr(image_base64: str) -> str: ifnot image_base64 ornot SILICONFLOW_API_KEY: return"" headers = { "Authorization": f"Bearer {SILICONFLOW_API_KEY}", "Content-Type": "application/json" } data = { "model": "deepseek-ai/DeepSeek-OCR", # 硅基流动上的模型名称 "messages": [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{image_base64}" # Base64图片地址 } }, { "type": "text", "text": "<|grounding|>Convert the document to markdown format, keep the original layout (tables/formulas) as much as possible." } ] } ], "temperature": 0.0, # OCR任务固定0(保证结果稳定) "max_tokens": 5000, # 最大输出token数,否则模型会限制性报错 "stream": False # 关键补充:非流式返回(必选,否则返回格式异常) }❷pdf处理函数:
主要包含把pdf转换成png图片格式(老配方),然后将图片转为Base64编码(硅基流动API要求的图片输入格式)。
❸识别结果后处理****函数:
主要是清理 OCR 返回文本内的冗余标记(这些标记还是很实用的,除非排版需要不建议删除),再将结果写成markdown文件。
这里我选择Markdown格式,是因为md格式文件可以清晰地保留文本的标题、列表和表格结构,对公式的存储和展示更是一绝,实际保存效果要大大好于直接保存成word。你可以在电脑里安装一个Markdown编辑器,比如 Typora 可对文件进行查看、编辑,后面根据需要也可以将md文件导出为word或者可编辑的pdf文件。
逻辑流程构建
❶ 读取pdf文件,环境初始化
❷ PDF 转图片
❸ 逐页调用 OCR 接口进行识别
❹ Markdown 格式清理及保存
以下是程序运行的效果:
03关于OCR模型的使用体验
以下展示对规范中一些表格和公式的识别效果:
可见采用 DeepSeek-OCR 识别的效率和准确率都强到可怕。我们前面使用OCR识别的效果,对于图纸之类的大文件,识别速度不仅慢,而且往往需要进行大量的前处理工作。而AI的多模态解析大大提高了 OCR 识别的效率和上限。
DeepSeek-OCR的“视觉压缩技术”,本质上降低了传输的数据量,提高了OCR识别的效率,这在庞大数据量的信息面前,效果还是很显著的。我们这次案例执行的速度没有那么神,主要还是因为我对AI返回的文本进行了“二次处理”,筛掉了一些标识符和无用内容。而对于常规的OCR识别和后续的“文本关键信息筛选和处理”,完全不需要做过多的格式化处理,就可以把速度快的优势发挥出来。
当然仍有不足的是,一是对于行列存在多合并的复杂表格,部分识别后出现文本错位,这个我们可以通过修改“提示词”,以及对模型参数进行调试;另外就是,我们这次没有对pdf中的图片进行截取,其实在识别得到的初始 markdown 文件中,是有图片的位置以及原图中对应的像素坐标信息的,因此只需要对原图片对应的位置进行截图,然后在生成md文件时,将图片插入到对应位置可以实现对图片的复刻,但这仍需要一些调试的过程,这次我就不再展示,在以后的案例中我们会继续讨论操作细节。
04总结
今天,我们试用了 DeepSeek-OCR 模型,并达到了比较理想的效果,希望对大家能有所帮助。通过 OCR 技术的使用,可以快速得到格式化的PDF和图片文本信息,也可以方便我们对信息进行二次处理,完成更多更复杂的操作,使得很多以前我们看起来难以达成的目标更容易实现。当然,也值得我们进一步去思考,借助AI和OCR识别技术,我们还能实现哪些更“逆天”的功能。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。