MinerU能提取图片吗？图文分离实战步骤详解-开发者社区

MinerU能提取图片吗？图文分离实战步骤详解

1. 引言：MinerU在PDF图文提取中的核心价值

你有没有遇到过这样的情况：手头有一份几十页的学术论文或技术报告PDF，里面布满了图表、公式和多栏排版，想要把其中的图片单独拿出来用，却发现复制粘贴根本不管用，手动截图又费时费力？

这时候，一个能“看懂”PDF内容的AI工具就显得尤为重要。而今天我们要聊的MinerU 2.5-1.2B，正是为此类复杂文档解析而生的深度学习模型。它不仅能精准识别文字结构，更关键的是——它确实可以提取图片！

本文将围绕CSDN星图提供的“MinerU 2.5-1.2B 深度学习 PDF 提取镜像”，带你一步步实操验证：从环境准备到运行命令，再到结果分析，完整展示如何利用这个开箱即用的镜像实现图文自动分离，并回答那个最关心的问题：MinerU到底能不能提取图片？效果怎么样？

我们不讲抽象理论，只聚焦你能看到、能操作、能复现的真实流程。

2. 镜像简介：为什么选择这款预置环境？

2.1 开箱即用，省去90%部署烦恼

传统上，部署像MinerU这样的多模态模型需要手动安装Python依赖、下载模型权重、配置GPU驱动、调试OCR组件……整个过程可能耗时数小时甚至一两天。

但这款镜像完全不同。它已经深度预装了：

MinerU 2.5 (2509-1.2B)主模型
GLM-4V-9B视觉理解模型（用于增强图文理解）
所有必需依赖库（包括magic-pdf[full]、CUDA支持、图像处理库等）

这意味着你拿到的就是一个“活”的系统，无需任何额外配置，直接进入就能开始提取任务。

2.2 支持复杂文档结构的精准还原

普通PDF转文本工具往往在面对以下内容时束手无策：

多栏排版（如期刊论文）
表格跨页断裂
数学公式乱码
图片与文字混排错位

而MinerU的设计目标就是解决这些痛点。它通过结合视觉布局检测与语义理解，能够：

自动识别段落层级
精确切割表格区域
将LaTeX公式还原为可编辑格式
独立提取每一张嵌入式图片

这才是真正意义上的“智能提取”，而不是简单的“文字搬运”。

3. 实战操作：三步完成图文分离

现在我们进入正题。假设你已经在CSDN星图平台启动了该镜像实例，默认登录后路径为/root/workspace。接下来，我们将以内置示例文件test.pdf为例，完整走一遍提取流程。

3.1 第一步：切换工作目录

虽然默认路径是 workspace，但模型相关文件都放在上级目录中。我们需要先进入正确的执行路径：

cd .. cd MinerU2.5

这一步的作用是进入包含mineru命令行工具和测试文件的核心目录。

提示：你可以使用ls命令查看当前目录下的文件，确认是否存在test.pdf和mineru可执行脚本。

3.2 第二步：执行提取命令

运行以下命令开始提取：

mineru -p test.pdf -o ./output --task doc

让我们拆解一下这条命令的含义：

参数	说明
`-p test.pdf`	指定输入的PDF文件路径
`-o ./output`	指定输出目录，结果会保存在这里
`--task doc`	选择任务类型为“完整文档提取”

这个--task doc是关键选项。它告诉MinerU不仅要提取文字，还要同步处理表格、公式和图片，并保持原始文档结构。

3.3 第三步：查看提取结果

等待几秒至几分钟（取决于PDF页数和复杂度）后，系统会在当前目录下生成output文件夹。进入该目录查看内容：

cd output ls

你会看到类似如下的文件结构：

test.md figures/ figure_1.png figure_2.jpg figure_3.png equations/ eq_1.svg eq_2.png tables/ table_1.html table_2.json

看到了吗？图片已经被单独抽离出来，存放在figures/目录下！

不仅如此，每张图还被按顺序命名（figure_x.png），方便后续引用。如果你打开主Markdown文件test.md，会发现文中所有图片位置都被替换成了标准的Markdown语法：

![图1: 实验流程示意图](figures/figure_1.png)

这意味着你不仅可以获得原始图片资源，还能直接将.md文件导入Obsidian、Typora 或 Notion 等支持Markdown的编辑器中继续使用。

4. 图片提取能力深度解析

4.1 能提取哪些类型的图片？

MinerU对以下几种常见图片类型均有良好支持：

嵌入式位图：如JPG、PNG格式的实验结果图、示意图
矢量图形：PDF中原生的线条图、流程图（部分可转为SVG）
扫描图像：即使是扫描版PDF中的照片也能识别并导出
图表混合体：带有标注文字的复合型图表

注意：对于完全由文字模拟的“ASCII艺术图”或极低分辨率的模糊图像，识别效果可能会打折扣。

4.2 提取质量如何？是否失真？

我们拿figure_1.png来做个简单评估：

清晰度：保留了原PDF中的分辨率，未做压缩降质
裁剪精度：边缘紧贴图像边界，几乎没有多余空白
格式兼容性：自动判断最佳输出格式（PNG/JPG/SVG）

更重要的是，MinerU还会尝试为每张图添加标题识别。比如如果原PDF中有“图1：系统架构图”这样的标注，它会尽量关联到对应图片，并在Markdown中体现。

4.3 与其他工具对比的优势

功能	Adobe Acrobat	Python PyMuPDF	MinerU
文字提取
表格还原	❌（常错乱）	（需编码处理）	（结构化输出）
公式识别	（转图片）	❌	（LaTeX还原）
图片提取	（但需手动）	（编程实现）	（全自动+命名）
多栏排版处理	❌

可以看出，MinerU在自动化程度和综合处理能力上具有明显优势，尤其适合批量处理科研文献、技术手册等高信息密度文档。

5. 进阶配置：根据需求调整提取行为

虽然默认设置已经能满足大多数场景，但你也可以通过修改配置文件来优化性能表现。

5.1 修改设备模式：GPU vs CPU

默认情况下，系统使用GPU加速（device-mode: "cuda"）。这对于大文件处理非常有利。但如果显存不足（建议至少8GB），可以改为CPU模式。

编辑/root/magic-pdf.json文件：

{ "models-dir": "/root/MinerU2.5/models", "device-mode": "cpu", "table-config": { "model": "structeqtable", "enable": true } }

将"cuda"改为"cpu"后保存，再次运行提取命令即可避免显存溢出问题。

5.2 自定义输出路径

除了./output，你也可以指定绝对路径：

mineru -p test.pdf -o /root/my_results --task doc

只要目标路径存在且有写权限，MinerU都能正常输出。

5.3 仅提取图片（轻量级任务）

如果你只关心图片，不想生成完整的Markdown文档，可以通过自定义脚本或后期处理过滤结果。目前--task doc仍是最推荐的方式，因为它保证了图文对应关系的完整性。

未来版本有望支持--task images-only类似的专用模式。

6. 总结：MinerU真的能提取图片吗？

6.1 答案很明确：能，而且做得很好

经过上述实战验证，我们可以给出肯定结论：

MinerU不仅能提取PDF中的图片，还能做到：

自动识别并切割每一个图像区域
保持原始分辨率和格式质量
按顺序命名并分类存储
在Markdown中正确引用图片路径
同时处理表格、公式、多栏文本等复杂元素

这已经远远超出“截图另存为”的范畴，是一种基于AI理解的智能图文分离技术。

6.2 适用人群与典型场景

这款镜像特别适合以下用户：

研究人员：快速提取论文中的实验图表
内容创作者：从参考资料中获取高质量配图
学生党：整理电子教材中的重点插图
工程师：解析技术手册中的系统架构图
知识管理者：构建个人图文素材库

无论是单次提取还是批量处理，MinerU配合这个预置镜像都能极大提升效率。

6.3 下一步建议

如果你想进一步探索：

尝试上传自己的PDF文件进行测试
对比不同PDF来源的提取效果（矢量PDF vs 扫描PDF）
将输出的Markdown导入笔记软件，体验无缝衔接的工作流

你会发现，过去需要半小时才能完成的手动整理工作，现在只需一条命令、几分钟等待，就能全部搞定。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MinerU能提取图片吗？图文分离实战步骤详解