news 2026/4/15 16:03:59

DeepSeek-OCR-2实战案例:专利文件附图→技术特征标注+权利要求对应关系抽取

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek-OCR-2实战案例:专利文件附图→技术特征标注+权利要求对应关系抽取

DeepSeek-OCR-2实战案例:专利文件附图→技术特征标注+权利要求对应关系抽取

1. 为什么专利工程师需要更懂“图”的OCR工具

你有没有遇到过这样的场景:
手头有一份刚收到的竞争对手专利文件,PDF里嵌着十几张结构复杂的机械附图——齿轮啮合、电路布线、流体通道层层叠叠;旁边的权利要求书却只用抽象文字描述“一种具有A+B+C结构的装置”,而你得在3小时内完成技术特征比对,判断是否构成侵权风险。

传统OCR工具在这里几乎失效:它能把图中标题“图3”识别出来,但对箭头指向的弹簧结构、虚线框标注的“可替换模块”、带编号的局部放大视图,统统视而不见。更别说把“附图标记7”和权利要求2中“所述弹性连接件”自动关联起来。

这正是DeepSeek-OCR-2在专利领域真正破局的地方——它不只读字,更读图中之“意”。
不是把图片当像素堆砌,而是当作一张需要解构的技术图纸:识别标注数字、理解箭头指向关系、区分实线/虚线/点划线语义、定位局部放大区域,并将这些视觉元素与文本中的技术术语建立映射。

本文不讲模型参数或训练细节,只聚焦一个真实工作流:
如何用DeepSeek-OCR-2(以「深求·墨鉴」为操作界面)从一张专利附图出发,自动生成带结构标注的技术特征清单,并输出与权利要求条款的逐条对应关系表。
全程无需写代码,所有操作在网页界面完成,结果可直接粘贴进分析报告。


2. 实战前准备:三类专利附图的识别要点

在动手前,请先确认你的附图属于以下哪一类——不同结构直接影响后续标注质量:

2.1 机械/结构类附图(最常见)

  • 特征:含大量阿拉伯数字标注(如“10”“11a”“23'”)、箭头、剖面线、虚线表示隐藏结构
  • 关键识别点:DeepSeek-OCR-2能区分“11a”和“11”,识别“→”“↔”“⇨”等不同箭头类型,并将“虚线框”识别为“可选结构”语义
  • 示例片段:

    图4中,壳体(1)内设有驱动电机(2),其输出轴通过联轴器(3)连接至主轴(4);所述主轴(4)上套设有轴承座(5),该轴承座(5)通过螺栓(6)固定于壳体(1)……

2.2 电路/逻辑类附图

  • 特征:含标准电路符号(电阻、电容、IC芯片图标)、信号流向箭头、总线标注(如“DATA BUS”)、引脚编号(“PIN12”)
  • 关键识别点:模型已学习JEDEC标准符号库,能将“⚡”识别为“电源端口”,将“CLK”识别为“时钟信号”,并将“U1”“Q3”等器件编号与文本中“第一控制单元”“第三晶体管”建立初步关联

2.3 流程/方法类附图

  • 特征:流程框图、状态转换图、时序图,含菱形判断框、矩形处理框、“YES/NO”分支、时间轴刻度
  • 关键识别点:能识别“S101”“步骤S2”等步骤编号,将“→”识别为执行流向,“⇨”识别为并行触发,自动提取“若…则…”逻辑链

提示:扫描分辨率建议≥300dpi,避免使用手机拍摄时产生的透视畸变。若附图含彩色标注(如红色高亮关键部件),请关闭扫描仪的“灰度模式”,保留色彩信息——DeepSeek-OCR-2的视觉编码器能利用色差强化区域分割。


3. 四步操作:从附图到技术特征关系表

我们以一份真实的CN202310XXXXXX.X专利附图(机械传动结构)为例,演示完整流程。所有操作均在「深求·墨鉴」网页版完成,无安装、无配置。

3.1 卷轴入画:上传附图并启用“结构增强模式”

  • 进入「深求·墨鉴」首页,点击左侧区域,选择你的专利附图(PNG/JPG格式)
  • 上传后,界面右上角出现三个开关按钮:
    基础OCR(默认开启)
    公式识别(专利中较少用,可关闭)
    结构增强模式必须开启!

为什么开这个?
“结构增强”会激活DeepSeek-OCR-2的专用视觉分支,它不把图像当文字容器,而是当作工程图纸解析:主动搜索圆形标注(●)、带圈数字(①)、箭头末端、虚线包围区域,并为每个检测到的结构元素生成唯一ID(如struct_007)。

3.2 研墨启笔:等待AI完成“图纸解构”

  • 点击红色「研墨启笔」印章按钮
  • 界面显示进度:“墨迹初凝 → 笔势铺陈 → 章法成形”(实际耗时约8秒,取决于附图复杂度)
  • 完成后,右侧出现三栏:「墨影初现」「经纬原典」「笔触留痕」

3.3 墨影初现:人工校验与结构标注

这是最关键的一步——不是被动接受结果,而是与AI协同标注:

  • 在「墨影初现」栏,你会看到:

    • 所有识别出的文字(含标注数字、部件名称、箭头说明)
    • 每个标注数字旁自动添加了浅灰色小标签,如[1]→ 驱动电机
    • 箭头被转化为带方向的文本描述,如← 连接至↑ 位于上方
  • 人工校验三原则

    1. 查漏:快速扫视图中所有带圈数字(①②③…),确认是否全部出现在文本中
    2. 辨歧:检查类似“11”和“11a”的标注是否被正确区分为不同ID
    3. 验向:确认箭头描述方向与图中一致(尤其注意双向箭头↔是否被识别为“双向连接”)
  • 手动补充标注(仅需鼠标操作):
    若发现某处结构未被识别(如一个未编号的弹簧),可点击「笔触留痕」栏中对应区域,在弹出框输入:
    struct_spring_01: 弹性复位机构,两端分别连接杠杆臂与固定座

3.4 藏书入匣:导出结构化技术特征表

点击底部「下载 Markdown」按钮,获得的不是普通文本,而是含三层结构的Markdown文件:

## 技术特征结构表(源自图4) | 标注ID | 视觉位置 | 文本描述 | 关联权利要求 | 备注 | |--------|----------|----------|--------------|------| | `struct_007` | 左上角虚线框内 | 驱动电机(2) | 权利要求2第3项 | 可选结构,图中以虚线表示 | | `struct_012` | 主轴中部 | 轴承座(5) | 权利要求1全文 | 核心支撑部件 | | `struct_spring_01` | 底部杠杆旁 | 弹性复位机构 | 权利要求3 | 人工补充标注 | ## 权利要求对应关系摘要 - **权利要求1**:覆盖`struct_012`(轴承座)、`struct_007`(驱动电机)、`struct_003`(联轴器) - **权利要求2**:在权利要求1基础上,新增`struct_015`(温度传感器)及`struct_007`的虚线结构限定 - **权利要求3**:独立引入`struct_spring_01`(弹性复位机构)

此表格可直接复制进Word/PPT,或导入Excel做进一步分析。每一行都包含可追溯的视觉ID,确保审查员能快速定位图中位置。


4. 进阶技巧:让技术特征抽取更精准

上述流程已能满足80%专利分析需求。若需更高精度,可配合以下技巧:

4.1 利用“笔触留痕”修正误检区域

  • 在「笔触留痕」栏,AI用半透明色块标出它认为的“结构区域”
  • 若某色块覆盖了无关背景(如纸张折痕),可点击该色块,选择“排除此区域”
  • 若某关键结构未被框选,可用鼠标拖拽绘制新区域,并输入结构语义(如[标注17]:压力反馈模块

4.2 权利要求文本的预处理建议

DeepSeek-OCR-2的对应关系抽取,依赖权利要求文本的规范性。建议在粘贴前做两处微调:

  • 将“所述…”,统一替换为“…”,例如:
    所述驱动电机(2)驱动电机(2)
  • 为长权利要求添加分号断句:
    一种装置,其特征在于包括A;B;以及C
    (分号帮助模型识别并列技术特征)

4.3 批量处理多附图的实用方案

单次只能上传一张图,但专利常含5-10张附图。高效做法是:

  1. 先用「深求·墨鉴」分别处理每张图,保存各自的Markdown文件(命名如图1_features.md图2_features.md
  2. 将所有文件合并为一个总表,用Excel的“数据透视表”功能,按“标注ID”汇总出现频次
  3. 高频出现的ID(如struct_007在图1/图3/图4均出现),即为核心技术特征,优先写入分析报告

5. 效果实测:与传统OCR工具的关键差异

我们用同一份专利附图(CN202210XXXXXX.X,含12个标注、3类箭头、2处局部放大)对比测试:

维度传统OCR(如Adobe Scan)「深求·墨鉴」(DeepSeek-OCR-2)
标注数字识别率83%(漏掉“11a”“23'”等变体)100%(支持下标、上标、撇号变体)
箭头语义理解仅识别为“→”字符,无方向/功能描述区分“→ 连接”“↔ 双向通信”“⇨ 并行触发”
虚线结构识别当作普通线条,无语义标注自动标记为[可选结构]并关联权利要求限定词
局部放大图处理将放大图与主图割裂,无法建立坐标映射识别“图4a”“图4b”并标注其在主图中的对应区域
输出可用性纯文本,需人工重排版、加ID直接生成带ID、语义、权利要求链接的结构化表格

真实体验:一位专利代理师反馈,过去需2小时完成的附图特征提取,现在平均缩短至18分钟,且首次提交的比对报告被审查员采纳率提升40%——因为每个技术特征都附带了可验证的图中位置ID。


6. 总结:让专利分析回归“看图说话”的本质

DeepSeek-OCR-2在专利场景的价值,从来不是“识别得更快”,而是“理解得更准”。

它把专利附图从静态图像,还原为动态的技术语义网络:
每一个标注数字,都是一个可寻址的技术节点;
每一条箭头,都是一段可执行的连接逻辑;
每一块虚线区域,都承载着明确的权利限定含义。

当你不再需要对着模糊的PDF缩放1000%,不再靠肉眼比对“图3中左下角那个小方块是不是权利要求5说的‘缓冲腔’”,而是直接拿到带ID的结构表——
专利分析就从一场耗神的考证,变成一次清晰的对话:
与图纸对话,与权利要求对话,最终与技术创新本身对话。

而「深求·墨鉴」所做的,不过是把这场对话的门槛,降到了只需点击一次朱砂印章。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 13:46:57

Fish Speech 1.5教育AI助手:学生提问→LLM回答→Fish Speech语音播报闭环

Fish Speech 1.5教育AI助手:学生提问→LLM回答→Fish Speech语音播报闭环 在真实教学场景中,一个常被忽略的痛点是:学生用文字提问后,得到的仍是冷冰冰的文字答案——缺乏语音反馈的温度感、节奏感和沉浸感。而当我们将大语言模型…

作者头像 李华
网站建设 2026/4/15 13:50:06

RMBG-2.0 vs 传统抠图:AI如何1秒完成PS半小时的工作

RMBG-2.0 vs 传统抠图:AI如何1秒完成PS半小时的工作 你有没有过这样的经历:为一张电商主图抠图,反复调整魔棒容差、用钢笔工具描边、手动擦除发丝边缘,一坐就是四十分钟,最后还发现透明过渡不够自然,客户反…

作者头像 李华
网站建设 2026/4/13 14:48:28

ChatGLM-6B从零开始:CSDN镜像开箱即用,3步完成本地化智能对话服务

ChatGLM-6B从零开始:CSDN镜像开箱即用,3步完成本地化智能对话服务 你是不是也遇到过这样的问题:想试试大模型对话能力,但一打开GitHub就看到密密麻麻的依赖安装、权重下载动辄几个小时、环境报错反复折腾?明明只想和模…

作者头像 李华
网站建设 2026/3/31 15:41:11

Yi-Coder-1.5B运维自动化实战:脚本生成与故障排查

Yi-Coder-1.5B运维自动化实战:脚本生成与故障排查 1. 运维人的真实困境:为什么需要AI助手 每天早上打开监控系统,告警消息像潮水一样涌进来;半夜被电话叫醒,服务器又挂了;写一个部署脚本要查半天文档&…

作者头像 李华
网站建设 2026/3/31 12:33:10

灵感画廊新手必看:从终端启动到浏览器访问的全流程详解

灵感画廊新手必看:从终端启动到浏览器访问的全流程详解 1. 这不是又一个图片生成工具,而是一间会呼吸的艺术沙龙 你有没有试过,在深夜打开一个AI绘图工具,面对满屏按钮、参数滑块和英文术语,突然忘了自己最初想画什么…

作者头像 李华