手把手教你用MinerU API实现PDF自动解析与存储-开发者社区

手把手教你用MinerU API实现PDF自动解析与存储

1. 引言：为什么需要自动化文档解析？

在企业知识管理、智能客服和科研文献处理等场景中，非结构化文档的高效处理已成为关键挑战。传统的手动录入或基础OCR工具难以应对复杂版面（如表格、公式、多栏排版）的精准提取需求。

MinerU 智能文档理解服务基于 OpenDataLab/MinerU2.5-2509-1.2B 模型构建，专为高密度文本图像设计，在保持轻量化（仅1.2B参数）的同时实现了卓越的版面分析与OCR能力。其支持通过API调用进行远程解析，并可将结果以Markdown、JSON等结构化格式返回，非常适合集成到自动化工作流中。

本文将详细介绍如何利用MinerU API + MaxKB 知识库系统，搭建一个完整的“PDF上传 → 自动解析 → 结构化存储”全流程自动化方案，帮助开发者快速实现企业级文档智能处理能力。

2. 方案架构与核心流程

2.1 整体流程设计

该自动化系统的核心逻辑如下：

[用户输入PDF URL] ↓ → 调用MinerU创建解析任务（返回task_id） ↓ → 轮询查询任务状态直到完成 ↓ → 获取ZIP格式的结果文件下载链接 ↓ → 下载至本地服务器指定目录 ↓ → 上传至MaxKB知识库并完成智能分段

整个过程无需人工干预，适用于批量处理大量PDF文档的场景。

2.2 技术选型优势对比

组件	功能定位	核心优势
MinerU API	文档解析引擎	支持OCR、表格识别、公式检测，输出结构化数据
MaxKB	知识库管理系统	提供向量检索、问答接口、文档分段与权限控制
Requests + Python函数链	流程编排层	实现无代码/低代码自动化流水线

💡 关键价值：通过API对接，避免本地部署大模型带来的资源开销，同时保证了解析质量与响应速度。

3. 核心功能模块开发

3.1 创建MinerU解析任务

此函数用于向MinerU服务提交待解析的PDF文件地址，并获取异步任务ID。

import requests def create_task(file_url): """ 调用MinerU API创建文档解析任务 :param file_url: 在线PDF文件URL :return: task_id 任务唯一标识 """ url = 'https://mineru.net/api/v4/extract/task' token = 'your_bearer_token_here' # 需替换为实际Token headers = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {token}' } data = { 'url': file_url, 'is_ocr': True, # 启用OCR识别扫描件 'enable_formula': True, # 开启数学公式识别 'enable_table': True, # 开启表格结构提取 'language': "ch", # 中文文档优化 'model_version': "v2" # 使用v2高性能版本 } try: res = requests.post(url, headers=headers, json=data, timeout=10) res.raise_for_status() response_data = res.json() task_id = response_data["data"]["task_id"] print(f"任务创建成功，task_id: {task_id}") return task_id except Exception as e: raise Exception(f"创建任务失败: {str(e)}")

注意：token需从MinerU平台申请获得，确保账户有足够调用额度。

3.2 查询任务执行状态并获取结果链接

由于文档解析是异步操作，需轮询检查任务是否完成。

import time import requests def querybyid(task_id, max_retries=120, retry_interval=5): """ 轮询查询MinerU任务状态，直至解析完成 :param task_id: 任务ID :param max_retries: 最大重试次数 :param retry_interval: 重试间隔（秒） :return: full_zip_url 解析结果压缩包下载地址 """ url = f'https://mineru.net/api/v4/extract/task/{task_id}' token = 'your_bearer_token_here' headers = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {token}' } retries = 0 while retries < max_retries: try: res = requests.get(url, headers=headers, timeout=5) res.raise_for_status() data = res.json() if data.get("data") and data["data"].get("full_zip_url"): full_zip_url = data["data"]["full_zip_url"] print(f"任务完成，结果链接: {full_zip_url}") return full_zip_url else: status = data.get("data", {}).get("status", "unknown") print(f"任务未完成 [{status}]，等待{retry_interval}秒后重试... ({retries+1}/{max_retries})") time.sleep(retry_interval) retries += 1 except requests.exceptions.RequestException as e: print(f"请求异常: {e}，{retry_interval}秒后重试...") time.sleep(retry_interval) retries += 1 raise Exception(f"任务超时：在{max_retries * retry_interval}秒内未能完成解析")

建议配置：对于普通PDF，通常30秒内可完成；复杂文档建议设置最大等待时间为600秒。

3.3 下载解析结果ZIP文件

解析完成后，系统会生成包含Markdown、JSON、图片等资源的ZIP包，需下载至本地。

import os import requests from urllib.parse import urlparse def download_file(download_url, save_dir='/opt/maxkb/download'): """ 下载MinerU返回的ZIP结果文件 :param download_url: 文件下载链接 :param save_dir: 本地保存路径 :return: 本地保存路径 or None（失败） """ os.makedirs(save_dir, exist_ok=True) parsed_url = urlparse(download_url) filename = os.path.basename(parsed_url.path) if not filename.endswith('.zip'): filename += '.zip' save_path = os.path.join(save_dir, filename) try: response = requests.get(download_url, stream=True, timeout=30) response.raise_for_status() total_size = int(response.headers.get('content-length', 0)) block_size = 8192 downloaded = 0 print(f"开始下载: {filename} ({total_size // 1024} KB)") with open(save_path, 'wb') as f: for chunk in response.iter_content(chunk_size=block_size): if chunk: f.write(chunk) downloaded += len(chunk) if total_size > 0: percent = (downloaded / total_size) * 100 print(f"下载进度: {percent:.1f}% ", end='\r') print(f"\n下载完成: {save_path}") return save_path except Exception as e: print(f"下载失败: {e}") return None

权限提示：确保运行环境用户（如sandbox）对/opt/maxkb/download目录具有读写权限。

3.4 将解析结果上传至MaxKB知识库

最后一步是将ZIP文件上传至MaxKB，触发自动分段与索引构建。

import json import logging import requests # 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s') def initialize(file_path): """ 初始化MaxKB连接配置 :param file_path: ZIP文件本地路径 :return: 配置字典 """ return { 'authorization_apikey': 'user-your-api-key-here', # 替换为真实API Key 'split_url': 'http://your-maxkb-host:8080/api/dataset/document/split', 'upload_url': 'http://your-maxkb-host:8080/api/dataset/{dataset_id}/document/_bach', 'file_path': file_path, 'file_name': 'uploaded_via_mineru' } def upload_file(config): """ 调用MaxKB分段接口上传文件 :param config: 配置信息 :return: map_content 映射标题与内容 """ headers = { 'accept': 'application/json', 'AUTHORIZATION': config['authorization_apikey'] } try: with open(config['file_path'], 'rb') as f: files = {'file': f} response = requests.post(config['split_url'], headers=headers, files=files, timeout=30) response.raise_for_status() result = response.json() map_content = {} for item in result.get("data", []): for content_item in item.get("content", []): title = content_item.get("title", "") content = content_item.get("content", "") if title or content: map_content[title] = content return map_content except Exception as e: logging.error(f"文件分段失败: {e}") return {} def send_post_request(config, map_content): """ 将分段后的内容提交至知识库 :param config: 配置信息 :param map_content: 内容映射表 :return: 是否成功 """ headers = { "Content-Type": "application/json", "Authorization": config['authorization_apikey'] } paragraphs = [{"title": k, "content": v} for k, v in map_content.items()] document_wrapper = { "name": config["file_name"], "paragraphs": paragraphs } payload = [document_wrapper] try: response = requests.post(config["upload_url"], headers=headers, data=json.dumps(payload), timeout=30) response.raise_for_status() logging.info("文件上传成功") return True except Exception as e: logging.error(f"上传失败: {e}") return False def main(file_path): """ 主执行函数 """ config = initialize(file_path) map_content = upload_file(config) if not map_content: logging.error("文件内容为空或上传失败") return False success = send_post_request(config, map_content) return "文件已成功上传至知识库" if success else "上传失败"