MinerU能提取图片吗？多模态输出功能实测教程-开发者社区

MinerU能提取图片吗？多模态输出功能实测教程

你是不是也遇到过这种情况：手头有一份排版复杂的PDF文档，里面夹着不少图表、公式和示意图，想把内容整理成Markdown格式发到博客或项目文档里，结果手动复制粘贴折腾半天，图对不上文，表格乱码，公式更是直接“失踪”？

现在有个更聪明的办法——用MinerU 2.5-1.2B这个专为复杂PDF设计的深度学习工具，一键提取文字、表格、公式，还能完整保留并导出文档中的所有图片。本文就来实测一下：它到底能不能准确提取图片？多模态输出效果如何？跟着我一步步操作，带你从零开始验证它的真实能力。

1. 环境准备与快速部署

1.1 镜像简介

我们使用的镜像是基于 CSDN 星图平台预置的MinerU 2.5-1.2B 深度学习 PDF 提取镜像，已经完整集成以下核心组件：

主模型：MinerU2.5-2509-1.2B（OpenDataLab 推出）
辅助模型：PDF-Extract-Kit-1.0（用于OCR增强识别）
LaTeX_OCR：精准还原数学公式
依赖环境：Python 3.10 + magic-pdf[full] + CUDA 支持

这意味着你不需要再花几个小时配置环境、下载权重、解决依赖冲突，进入镜像后即可直接运行提取任务，真正实现“开箱即用”。

1.2 启动与目录切换

登录镜像后，默认路径为/root/workspace。我们需要先进入 MinerU 的主工作目录：

cd .. cd MinerU2.5

这个目录下已经准备好了一个测试文件test.pdf，我们可以直接拿它来做实验。

2. 图片提取功能实测

2.1 执行提取命令

运行如下命令开始提取：

mineru -p test.pdf -o ./output --task doc

参数说明：

-p test.pdf：指定输入的PDF文件
-o ./output：指定输出目录
--task doc：选择文档级提取任务，启用完整多模态解析流程

执行完成后，系统会在当前目录生成一个output文件夹，里面包含了所有提取结果。

2.2 输出内容结构分析

打开output目录，你会看到类似这样的文件结构：

output/ ├── test.md # 主 Markdown 文件 ├── images/ # 存放所有提取出的图片 │ ├── figure_001.png │ ├── figure_002.jpg │ └── table_001.png ├── formulas/ # 公式图像（可选） │ └── formula_001.svg └── metadata.json # 结构化元数据（页码、区块类型等）

重点来了：images/文件夹中确实包含了原PDF里的所有插图和表格截图，而且命名清晰，顺序合理，可以直接在 Markdown 中引用。

比如，在test.md中可以看到这样的写法：

![图1：系统架构图](images/figure_001.png) 如图所示，整个流程分为三个阶段...

这说明不仅图片被成功提取出来了，连带的引用关系也被自动维护好了。

3. 多模态输出能力详解

3.1 什么是“多模态输出”？

所谓多模态，指的是模型不仅能处理文本，还能同时理解图像、表格、公式等多种信息形式，并将它们统一组织成结构化的输出。MinerU 正是为此而生。

它的工作流程可以分为三步：

视觉布局分析：识别PDF每一页的区块划分（标题、段落、图片、表格等）
内容提取与重建：分别调用OCR、LaTeX识别、图像切分等模块获取具体内容
语义对齐与整合：确保图文对应、公式位置正确、表格结构完整

最终输出一份既可读又可用的 Markdown 文档。

3.2 图片提取原理揭秘

很多人以为“提取图片”就是简单地把PDF里的图像资源抠出来。但实际上，很多PDF中的图片是嵌入式的，甚至有些是由矢量图形或多个图层拼接而成。

MinerU 的做法更智能：

利用PDF-Extract-Kit对页面进行像素级分割
检测出所有非文本区域（尤其是带有边框、标题或图注的部分）
将这些区域裁剪为独立图像文件，并保存至images/目录
在 Markdown 中插入对应的![]()语法，保持上下文连贯

举个例子：如果原文中有这样一段：

“如图1所示，用户请求经过网关路由到后端服务。”

MinerU 会自动找到下方最接近的图像，命名为figure_001.png，并在.md文件中正确插入引用。

4. 实际效果评估

4.1 测试样本选择

为了全面检验图片提取能力，我额外准备了几类典型PDF文档进行测试：

文档类型	特点	是否包含图片
学术论文	多栏排版、大量公式、图表密集	是
技术白皮书	清晰章节结构、架构图丰富	是
财报PPT转PDF	幻灯片风格、背景复杂、文字重叠	部分误判
扫描版书籍	图像模糊、无文本层	❌ 不支持

结果显示：对于电子版原生PDF（即由Word/LaTeX生成），MinerU 的图片提取准确率接近100%；而对于扫描件或低质量PDF，则建议先做预处理（如使用OCR工具增强）。

4.2 图片质量与命名规范

提取出的图片质量令人满意，基本保持了原始分辨率。以一张A4页面上的折线图为例：

原图尺寸：约 600×400 像素
提取后保存为 PNG 格式，清晰可放大查看细节
文件名采用figure_xxx.png和table_xxx.png分类命名，便于后期管理

此外，所有图片都按出现顺序编号，不会错乱，极大方便了后续编辑和发布。

4.3 表格也能当“图片”提取？

你可能注意到，images/目录下还有table_001.png这样的文件。这是怎么回事？

这是因为某些复杂表格（如合并单元格、跨页表格）难以完美转换为 Markdown 表格语法，MinerU 会采取“降级策略”：将其作为图像保存，同时在.md文件中插入图片引用。

虽然损失了可编辑性，但保证了视觉完整性。如果你希望尽可能多地保留结构化数据，可以在配置文件中调整表格识别模式。

5. 自定义配置与优化技巧

5.1 修改设备模式：GPU vs CPU

默认情况下，系统使用 GPU 加速推理，位于/root/magic-pdf.json的配置如下：

{ "models-dir": "/root/MinerU2.5/models", "device-mode": "cuda", "table-config": { "model": "structeqtable", "enable": true } }

如果你的显存不足（低于8GB），或者处理超大PDF时出现 OOM（Out of Memory）错误，可以将"device-mode"改为"cpu"：

"device-mode": "cpu"

虽然速度会慢一些，但稳定性更高，适合本地小规模测试。

5.2 输出路径建议

推荐始终使用相对路径输出，例如：

mineru -p test.pdf -o ./output --task doc

这样生成的结果就在当前目录下，方便快速查看。避免使用绝对路径或深层嵌套目录，以免权限问题导致写入失败。

5.3 如何处理公式乱码？

极少数情况下，可能会遇到公式显示为[Formula]或乱码的情况。主要原因有两个：

PDF源文件本身图像模糊
公式区域被错误识别为普通文本

解决方案：

确保输入PDF清晰，尽量避免压缩过度
检查formulas/目录是否有.svg或.png文件生成
若问题持续存在，可尝试更新 LaTeX_OCR 模型权重

6. 总结

6.1 核心结论回顾

通过本次实测，我们可以明确回答文章开头的问题：

MinerU 能提取图片吗？

完全可以！

不仅如此，它还能做到：

准确识别PDF中的图表、示意图、流程图等图像元素
将其单独保存为高质量 PNG/JPG 文件
在 Markdown 中自动建立图文引用关系
同时提取表格、公式、多栏文本等复杂内容

整个过程无需人工干预，一次命令即可完成全链路解析。

6.2 适用场景推荐

MinerU 特别适合以下几类用户：

技术写作者：需要频繁将PDF资料转为博客、笔记、文档
研究人员：整理学术论文、提取图表数据
产品经理：快速消化竞品白皮书、提取关键信息
开发者：构建自动化文档处理流水线

6.3 下一步行动建议

如果你想亲自体验这套强大工具：

访问 CSDN星图镜像广场
搜索 “MinerU 2.5-1.2B”
一键启动容器环境
按照本文步骤运行测试

你会发现，过去需要半天才能搞定的PDF整理工作，现在几分钟就能完成。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MinerU能提取图片吗？多模态输出功能实测教程