news 2026/3/27 5:02:29

MinerU能提取图片吗?多模态输出功能实测教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MinerU能提取图片吗?多模态输出功能实测教程

MinerU能提取图片吗?多模态输出功能实测教程

你是不是也遇到过这种情况:手头有一份排版复杂的PDF文档,里面夹着不少图表、公式和示意图,想把内容整理成Markdown格式发到博客或项目文档里,结果手动复制粘贴折腾半天,图对不上文,表格乱码,公式更是直接“失踪”?

现在有个更聪明的办法——用MinerU 2.5-1.2B这个专为复杂PDF设计的深度学习工具,一键提取文字、表格、公式,还能完整保留并导出文档中的所有图片。本文就来实测一下:它到底能不能准确提取图片?多模态输出效果如何?跟着我一步步操作,带你从零开始验证它的真实能力。


1. 环境准备与快速部署

1.1 镜像简介

我们使用的镜像是基于 CSDN 星图平台预置的MinerU 2.5-1.2B 深度学习 PDF 提取镜像,已经完整集成以下核心组件:

  • 主模型:MinerU2.5-2509-1.2B(OpenDataLab 推出)
  • 辅助模型:PDF-Extract-Kit-1.0(用于OCR增强识别)
  • LaTeX_OCR:精准还原数学公式
  • 依赖环境:Python 3.10 + magic-pdf[full] + CUDA 支持

这意味着你不需要再花几个小时配置环境、下载权重、解决依赖冲突,进入镜像后即可直接运行提取任务,真正实现“开箱即用”。

1.2 启动与目录切换

登录镜像后,默认路径为/root/workspace。我们需要先进入 MinerU 的主工作目录:

cd .. cd MinerU2.5

这个目录下已经准备好了一个测试文件test.pdf,我们可以直接拿它来做实验。


2. 图片提取功能实测

2.1 执行提取命令

运行如下命令开始提取:

mineru -p test.pdf -o ./output --task doc

参数说明:

  • -p test.pdf:指定输入的PDF文件
  • -o ./output:指定输出目录
  • --task doc:选择文档级提取任务,启用完整多模态解析流程

执行完成后,系统会在当前目录生成一个output文件夹,里面包含了所有提取结果。

2.2 输出内容结构分析

打开output目录,你会看到类似这样的文件结构:

output/ ├── test.md # 主 Markdown 文件 ├── images/ # 存放所有提取出的图片 │ ├── figure_001.png │ ├── figure_002.jpg │ └── table_001.png ├── formulas/ # 公式图像(可选) │ └── formula_001.svg └── metadata.json # 结构化元数据(页码、区块类型等)

重点来了:images/文件夹中确实包含了原PDF里的所有插图和表格截图,而且命名清晰,顺序合理,可以直接在 Markdown 中引用。

比如,在test.md中可以看到这样的写法:

![图1:系统架构图](images/figure_001.png) 如图所示,整个流程分为三个阶段...

这说明不仅图片被成功提取出来了,连带的引用关系也被自动维护好了。


3. 多模态输出能力详解

3.1 什么是“多模态输出”?

所谓多模态,指的是模型不仅能处理文本,还能同时理解图像、表格、公式等多种信息形式,并将它们统一组织成结构化的输出。MinerU 正是为此而生。

它的工作流程可以分为三步:

  1. 视觉布局分析:识别PDF每一页的区块划分(标题、段落、图片、表格等)
  2. 内容提取与重建:分别调用OCR、LaTeX识别、图像切分等模块获取具体内容
  3. 语义对齐与整合:确保图文对应、公式位置正确、表格结构完整

最终输出一份既可读又可用的 Markdown 文档。

3.2 图片提取原理揭秘

很多人以为“提取图片”就是简单地把PDF里的图像资源抠出来。但实际上,很多PDF中的图片是嵌入式的,甚至有些是由矢量图形或多个图层拼接而成。

MinerU 的做法更智能:

  • 利用PDF-Extract-Kit对页面进行像素级分割
  • 检测出所有非文本区域(尤其是带有边框、标题或图注的部分)
  • 将这些区域裁剪为独立图像文件,并保存至images/目录
  • 在 Markdown 中插入对应的![]()语法,保持上下文连贯

举个例子:如果原文中有这样一段:

“如图1所示,用户请求经过网关路由到后端服务。”

MinerU 会自动找到下方最接近的图像,命名为figure_001.png,并在.md文件中正确插入引用。


4. 实际效果评估

4.1 测试样本选择

为了全面检验图片提取能力,我额外准备了几类典型PDF文档进行测试:

文档类型特点是否包含图片
学术论文多栏排版、大量公式、图表密集
技术白皮书清晰章节结构、架构图丰富
财报PPT转PDF幻灯片风格、背景复杂、文字重叠部分误判
扫描版书籍图像模糊、无文本层❌ 不支持

结果显示:对于电子版原生PDF(即由Word/LaTeX生成),MinerU 的图片提取准确率接近100%;而对于扫描件或低质量PDF,则建议先做预处理(如使用OCR工具增强)。

4.2 图片质量与命名规范

提取出的图片质量令人满意,基本保持了原始分辨率。以一张A4页面上的折线图为例:

  • 原图尺寸:约 600×400 像素
  • 提取后保存为 PNG 格式,清晰可放大查看细节
  • 文件名采用figure_xxx.pngtable_xxx.png分类命名,便于后期管理

此外,所有图片都按出现顺序编号,不会错乱,极大方便了后续编辑和发布。

4.3 表格也能当“图片”提取?

你可能注意到,images/目录下还有table_001.png这样的文件。这是怎么回事?

这是因为某些复杂表格(如合并单元格、跨页表格)难以完美转换为 Markdown 表格语法,MinerU 会采取“降级策略”:将其作为图像保存,同时在.md文件中插入图片引用。

虽然损失了可编辑性,但保证了视觉完整性。如果你希望尽可能多地保留结构化数据,可以在配置文件中调整表格识别模式。


5. 自定义配置与优化技巧

5.1 修改设备模式:GPU vs CPU

默认情况下,系统使用 GPU 加速推理,位于/root/magic-pdf.json的配置如下:

{ "models-dir": "/root/MinerU2.5/models", "device-mode": "cuda", "table-config": { "model": "structeqtable", "enable": true } }

如果你的显存不足(低于8GB),或者处理超大PDF时出现 OOM(Out of Memory)错误,可以将"device-mode"改为"cpu"

"device-mode": "cpu"

虽然速度会慢一些,但稳定性更高,适合本地小规模测试。

5.2 输出路径建议

推荐始终使用相对路径输出,例如:

mineru -p test.pdf -o ./output --task doc

这样生成的结果就在当前目录下,方便快速查看。避免使用绝对路径或深层嵌套目录,以免权限问题导致写入失败。

5.3 如何处理公式乱码?

极少数情况下,可能会遇到公式显示为[Formula]或乱码的情况。主要原因有两个:

  1. PDF源文件本身图像模糊
  2. 公式区域被错误识别为普通文本

解决方案:

  • 确保输入PDF清晰,尽量避免压缩过度
  • 检查formulas/目录是否有.svg.png文件生成
  • 若问题持续存在,可尝试更新 LaTeX_OCR 模型权重

6. 总结

6.1 核心结论回顾

通过本次实测,我们可以明确回答文章开头的问题:

MinerU 能提取图片吗?

完全可以!

不仅如此,它还能做到:

  • 准确识别PDF中的图表、示意图、流程图等图像元素
  • 将其单独保存为高质量 PNG/JPG 文件
  • 在 Markdown 中自动建立图文引用关系
  • 同时提取表格、公式、多栏文本等复杂内容

整个过程无需人工干预,一次命令即可完成全链路解析。

6.2 适用场景推荐

MinerU 特别适合以下几类用户:

  • 技术写作者:需要频繁将PDF资料转为博客、笔记、文档
  • 研究人员:整理学术论文、提取图表数据
  • 产品经理:快速消化竞品白皮书、提取关键信息
  • 开发者:构建自动化文档处理流水线

6.3 下一步行动建议

如果你想亲自体验这套强大工具:

  1. 访问 CSDN星图镜像广场
  2. 搜索 “MinerU 2.5-1.2B”
  3. 一键启动容器环境
  4. 按照本文步骤运行测试

你会发现,过去需要半天才能搞定的PDF整理工作,现在几分钟就能完成。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 4:36:38

告别Visio束缚:跨平台图表编辑新纪元

告别Visio束缚:跨平台图表编辑新纪元 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 还在为那个Windows专属的Visio软件而束手无策吗?当同事发来.vsdx文…

作者头像 李华
网站建设 2026/3/26 23:55:48

Chatbox完全攻略:AI桌面助手从入门到精通使用手册

Chatbox完全攻略:AI桌面助手从入门到精通使用手册 【免费下载链接】chatbox Chatbox是一款开源的AI桌面客户端,它提供简单易用的界面,助用户高效与AI交互。可以有效提升工作效率,同时确保数据安全。源项目地址:https:/…

作者头像 李华
网站建设 2026/3/26 21:18:49

中文AI编程提示词终极指南:3步掌握30+工具实战技巧

中文AI编程提示词终极指南:3步掌握30工具实战技巧 【免费下载链接】system-prompts-and-models-of-ai-tools-chinese AI编程工具中文提示词合集,包含Cursor、Devin、VSCode Agent等多种AI编程工具的提示词,为中文开发者提供AI辅助编程参考资源…

作者头像 李华
网站建设 2026/3/15 2:51:17

幼教智能化升级案例:集成Qwen图像模型的互动白板系统

幼教智能化升级案例:集成Qwen图像模型的互动白板系统 在现代幼儿教育中,视觉化、互动性强的教学工具正逐步取代传统静态教具。一款集成了通义千问(Qwen)图像生成能力的互动白板系统,正在为课堂注入全新的活力。通过简…

作者头像 李华
网站建设 2026/3/15 20:08:05

fft npainting lama文件名乱码?编码格式统一处理方法

fft npainting lama文件名乱码?编码格式统一处理方法 1. 问题背景与核心痛点 你有没有遇到过这种情况:用fft npainting lama做图像修复时,上传的图片名字明明是“产品图.png”,结果系统处理完保存出来的文件却变成了“outputs_2…

作者头像 李华
网站建设 2026/3/15 12:25:34

Qwen3-0.6B真实输出展示:写故事像真人一样

Qwen3-0.6B真实输出展示:写故事像真人一样 你有没有试过让AI写一个有情感、有转折、有人物成长的小故事?很多模型生成的内容读起来像是“模板拼接”——情节生硬、对话机械、结尾突兀。但当我第一次用Qwen3-0.6B让它写一篇短篇小说时,我差点…

作者头像 李华