news 2026/5/31 3:46:16

Python 使用 pypdf 按指定页码范围批量拆分 PDF(分章节)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python 使用 pypdf 按指定页码范围批量拆分 PDF(分章节)

在处理电子书、扫描书籍或技术文档时,经常会遇到一个需求:

📌按照指定页码范围,把一个 PDF 拆分成多个 PDF 文件(例如按章节拆分)

本文将介绍一种简单、稳定、无需外部依赖的方法,使用 Python 的pypdf库来实现 PDF 的批定页码分割


一、环境准备

1️⃣ Python 版本

  • Python3.8+(推荐 3.9 / 3.10 / 3.11)

可用以下命令确认:

python--version

2️⃣ 安装 pypdf

使用 pip 安装最新版pypdf

pipinstallpypdf

如果你在 Linux / macOS 上,且存在 Python2/3 共存问题,可使用:

pip3installpypdf

安装完成后测试是否成功:

frompypdfimportPdfReader,PdfWriterprint("pypdf installed OK")

二、实现思路说明

🔍 关键点解析

  • PdfReader:读取原始 PDF
  • PdfWriter:创建新的 PDF 文件
  • PDF 页码从 0 开始,而我们日常看到的是从 1 开始
  • 用户只需定义一个页码范围列表即可完成拆分

📌适用场景

  • 按目录拆书
  • 按章节导出
  • 按页码人工校正后的分割

三、完整 Python 实现代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)# 创建输出目录ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# PDF 内部页码从 0 开始,因此要 -1forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=(f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf")withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")

四、自定义章节页码范围

你只需要定义一个页码区间列表,格式如下:

# ✏️ 自定义分章节页码(格式:[(开始页, 结束页), ...])page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]

📌注意事项

  • 页码是PDF 阅读器中看到的页码
  • 不需要关心 0 / 1 的问题,代码已处理
  • 超出 PDF 总页数会自动提示 Warning,不会报错

五、执行拆分

split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)

执行后目录结构如下:

output_manual_split/ ├── chapter_1_pages_1-34.pdf ├── chapter_2_pages_35-50.pdf ├── chapter_3_pages_51-73.pdf ├── ... └── chapter_11_pages_231-251.pdf

完整代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# 页码从 0 开始,用户输入通常是从 1 开始forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf"withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")# ✏️ 自定义你的分章节页码(格式:[(开始页, 结束页), ...])page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]# 用法示例split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 21:23:41

‌自动化测试覆盖率提升指南:从60%到95%的实战路径

‌一、核心结论&#xff1a;95%覆盖率不是终点&#xff0c;而是质量工程的起点‌将自动化测试覆盖率从60%提升至95%&#xff0c;本质是‌从“能跑”走向“可信”的质变过程‌。这不是单纯增加测试用例的数量&#xff0c;而是重构测试架构、优化工程流程、重塑质量文化。 ‌关键…

作者头像 李华
网站建设 2026/5/30 22:34:30

GLM-TTS流式推理模式上线,实现实时语音生成新体验

GLM-TTS流式推理模式上线&#xff0c;实现实时语音生成新体验 在智能客服对话刚响起的第三秒&#xff0c;用户已经听到了第一句回应&#xff1b;在虚拟主播直播中&#xff0c;系统正“边说边播”&#xff0c;仿佛真人般自然流畅。这不是未来场景&#xff0c;而是当下基于 GLM-T…

作者头像 李华
网站建设 2026/5/30 22:34:39

自定义发音规则:修改G2P_replace_dict实现精准读音

自定义发音规则&#xff1a;精准控制中文语音合成的读音 在金融新闻播报、有声书朗读或虚拟主播对话中&#xff0c;你是否曾遇到过“下载”被读成“上载”、“银行行长”念成“行走成长”这样的尴尬&#xff1f;这类问题背后&#xff0c;是中文多音字和专有名词对语音合成系统…

作者头像 李华
网站建设 2026/5/30 22:34:08

GLM-TTS批量推理功能全解析:自动化音频生产的最佳实践

GLM-TTS批量推理功能全解析&#xff1a;自动化音频生产的最佳实践 在内容创作进入“AI工业化”时代的今天&#xff0c;语音合成已不再是简单的“文字转声音”工具&#xff0c;而是支撑有声读物、在线教育、智能客服等业务的核心生产力。面对动辄数百篇课文、上千条产品解说的生…

作者头像 李华