再也不担心论文！一键生成汇报PPT和科研绘图-开发者社区

Datawhale开源

发布：北京大学 DCAI 团队

写作往往不仅仅是写文字与数据，还要为文章配上结构图、流程图、示意图，然后再整理成演示用的 PPT。这个过程繁琐、耗时，而且非常考验设计感——即使你思路清晰，也可能因为排版不当、配色杂乱、图表不美观，而拖慢写作以及展示节奏。如何将复杂的思路快速转化为清晰的架构图？如何将PDF文档、长文本等资料瞬间变为可编辑的汇报PPT？

为了让科研配图及汇报演示变得更加轻松、自动化，北大 DCAI 课题组基于自动化数据治理Agent框架DataFlow-Agent推出了全新的科研绘图与PPT制作辅助平台Paper2Any，实现了完整的自动化 workflow —— 用户只需上传文章内容（支持多模态输入，包括PDF文件、文本及图像），系统就能自动“读资料 → 理解逻辑 → 生成图像 → 切割／提取图文元素 → 输出SVG / PDF+可编辑 PPT格式”。从逻辑到图像，从草稿到最终可编辑文件，生成全流程自动化。快速体验地址：

http://dcai-paper2any.nas.cpolar.cn/

目前已推出多模态工作流Paper2Any的前端平台，用户可通过web网页直接使用。系统当前以科研绘图和可编辑PPT的制作与优化两大类功能为主，所有功能的输出均包括可编辑的PPTX格式绘图，方便用户后续修改、增删和排版。

这意味着：从此你不必再为画流程图、排图表、排版及美化 PPT 而烦恼 —— 系统帮你一键搞定。

开源地址：https://github.com/OpenDCAI/Paper2Any

Paper2Any：从论文理解到科研展示

Paper2Any工具能够自动读取文章，然后通过内置智能体对文本进行语义分析，自动识别文章的核心贡献与研究思路。接着，这些“研究 idea / 方法结构 /实验流程”将被转化为一组适合视觉化展示的图像描述，系统据此自动生成草稿图。

更进一步，系统会对这张草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标／子图等，并记录每个元素的位置和类型。这样生成的 “图 + 元素 metadata” 并不是一张 png 图像，而是一组独立可操作的图文、图标或表格块。用户可以在 PPT 中自由移动、编辑、替换、重新布局 —— 获得可编辑且结构清晰的科研图 + 演示文档。

目前Paper2Any已支持Paper2Figure（可编辑科研绘图）、Paper2PPT（演示文稿生成）、PDF2PPT（不可编辑转为可编辑）以及PPTPolish（演示文稿美化），后续将陆续支持Paper2Rebuttal（论文返修生成）、Paper2Idea（创新点生成）、Paper2Poster（可编辑学术海报）等更多的多模态功能，帮助用户缩短准备Presentation的时间。对于与可编辑 PPT 相关的三项功能，Paper2Any 可有效解决 Nano Banana Paper2Slides 不可编辑和依赖复杂 Prompt 的核心痛点。

1、Paper2Figure：智能科研绘图

用户不再需要从零开始学习复杂的绘图软件，只需提供基础素材，DataFlow-Agent即可自动生成高质量的科研配图。

该模块具备强大的多模态输入处理能力，即便是随手绘制的草图或示意图截图也能作为输入源，支持输入PDF文件、文本、图片等多种格式。在此基础上，用户还可以根据实际需求，自由选择生成图片的绘图难度等级与风格倾向，实现高度定制化的创作体验。其生成的内容包括 SVG 图片以及可编辑的 PPTX 格式绘图，用户可以对生成的线条、文字、色块等进行调整。

系统预设了多种科研常用图表类型：

模型架构图：输出图片可清晰展示模型或系统模块的连接关系。
技术路线图：绘制图片展示研究方法的流程与逻辑步骤。
实验数据图：将实验结果转化为可视化的对比柱状图或折线图。

Paper2Figure科研绘图功能具备以下特色：

自定义功能：用户可以根据需要指定绘图的难度、语言和视觉风格，确保图表的专业性和个性化。
重绘功能：支持根据用户指令进行图表的修改和重新生成，无论是调整图表内容、样式，还是增加新的元素，都能迅速响应需求。

2、Paper2PPT：文章结构化解析与PPT智能生成

Paper2PPT模块致力于解决从原始文章到汇报演示文稿的转换问题，通过算法自动对文档结构进行深度语义分析，精准提取背景、方法论、关键图表及结果等核心内容。

在此基础上，系统将自动生成合适的版面布局，并依托 PaddleOCR 技术对文字层进行重建，确保生成的内容并非简单的截图，而是完全可编辑的文本。用户不仅可以自定义幻灯片页数、风格及中英文语言，还能实现图表的自动化提取与排版。最终，系统支持一键输出精心编写的 PPT（暂时仅支持输出PDF格式，可使用PDF2PPT功能将其转换为可编辑PPTX），免去了繁琐的 Prompt 调试与手动截图排版过程。

系统可灵活处理三种类型的输入：

上传 PDF 格式的文章->自动生成对应的汇报PPT。
直接粘贴长文本内容->生成相应的PPT大纲并制作PPT。
输入研究主题->自动进行深度搜索并生成PPT。

这项功能有以下亮点，可提升PPT制作的效率和质量：

原文图表一键嵌入：用户可将原文中的图表直接嵌入PPT，保持信息的完整性与可视化效果。
逐页生成PPT，灵活修改大纲：支持逐页生成PPT，并允许用户自由修改每一页的大纲内容，适应不同需求。
支持超长PPT生成：首次支持40至100页的超长PPT生成，满足长文综述输入或深度主题研究的演示需求。
风格参考图功能：用户可以上传任意风格的参考图，系统将根据参考图生成风格一致的PPT。
优化中文PPT效果：针对中文PPT的生成，解决了大模型中文字体怪异、表达生硬的问题，减少了“AI痕迹”，符合正式场合的演示需求。

3、PDF2PPT：静态文档的可编辑还原

PDF2PPT模块专门针对那些排版复杂、图文交错的静态 PDF 文档，包括由 Paper2PPT 生成的讲义或 Nano Banana 导出的文件。它的核心价值在于打破演示文档修改的壁垒，将原本只读的页面转化为可编辑的状态。

技术上，系统利用 MinerU 与 SAM 模型对版面进行高精度的结构解析，能够像“拆积木”一样精准识别并分离原本锁死的图片与文本区域。这一过程将不可编辑的 PDF 还原为可编辑的 PPTX 文件，不仅解决了版面错乱的问题，更让用户能够对每一个细粒度的图文元素进行二次修改。

该模块支持 AI 背景增强功能：采用 Gemini Nano 模型实现图像内补（Inpainting），精准修复文字覆盖区域的背景以达到“去字留影“的效果，可以在转换过程中最大限度还原原始 PDF 的背景底图。

4、PPTPolish：基于Prompt的交互式PPT美化

PPTPolish 模块聚焦于对现有 PPT 文档的深度精修。系统会先对用户上传的 PPT 进行逐页解析，并为每一页自动生成对应的美化提示词；用户可在此基础上自由调整提示词内容，再按页执行定制化美化。通过这种“逐页可控 + 可迭代优化”的方式，美化过程更透明、更可编辑，适合需要反复打磨、追求细节质感的正式汇报与高质量演示场景。与此同时，模块同样支持风格参考图功能，用户上传任意风格图片，即可让 PPT 的视觉呈现保持一致。

实操案例：一键生成科研绘图和PPT

1、科研绘图

1）模型架构图

上传论文 PDF 文件/图片/文本，根据选择的绘图难度（简单/中等/困难），此功能可以自动提取模型架构信息，生成对应复杂度的可编辑 PPTX 格式模型架构图。

论文 PDF → 符合论文主题的架构图

科研配图 / 示意图截图 → 可编辑 PPTX

论文摘要文本 → 可编辑架构图

2）技术路线图

上传论文 PDF 或粘贴论文方法部分文本，选择语言（中文/英文），此功能可以自动梳理技术路线与模块依赖关系，生成清晰的技术路线图 PPTX 与可编辑 SVG。

论文 PDF → 符合论文主题的技术路线图

论文摘要文本 → 符合论文主题的技术路线图

3）实验数据图生成

上传论文 PDF /实验结果截图或表格，自动抽取关键数据并生成可编辑的实验数据图 PPTX，同时提供常规和精美两种风格，便于论文和汇报复用。

论文 PDF → 自动提取实验数据绘制 PPT

不同类型与不同风格的生成图示例

论文实验表格文本 → 自动整理实验数据绘制 PPT

2、PPT制作与美化

1）汇报PPT生成——Paper2PPT

文章 PDF → 不同风格 PPT

Paper2PPT 图表嵌入和重塑功能：

长文档模式生成超长PPT效果：

基于风格参考图的PPT生成：

Text2PPT：长文本 → 文本内容总结与展示 PPT

输入长文本/大纲，系统可自动生成结构化的 PPT。

Topic2PPT：主题描述 → 内容扩展 PPT

Topic2PPT与其他模型的效果对比：

与 Gemini 3 Pro、NotebookLM相比，Paper2Any生成的PPT有以下优势：

深度可视化：不止于文字归纳，更能自动绘制架构图与对比表。
原生级排版：减少 AI 生成痕迹，交付更真实的效果，并更好处理中文的表达与呈现。
高密度信息：优化的版面设计，容纳更多核心干货。

2）可编辑Sildes转换——PDF2PPT

上传PDF，系统可将其自动转换为对应的可编辑的PPTX文件，可实现与WPS转换类似的效果。

3）PPT美化——PPTPolish

PPT 增色美化

基于原有 PPT 内容，系统可智能调整其风格、配色与视觉层次。

PPT 润色拓展

系统可对纯文字或简易空白 PPT 进行智能润色，自动生成精美排版与视觉元素。

基于参考图的风格美化

使用方式

1、本地部署

各功能可通过本地部署Paper2Any开源项目进行使用，按照readme文档中的说明操作即可启动web前端。

Github官方仓库：https://github.com/OpenDCAI/Paper2Any
快速开始指引：https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-%E5%AE%89%E8%A3%85

2、前端使用

如果没有合适的设备部署项目，或想快速体验功能，Paper2Any也提供了网页端公测在线体验地址，让大家能够零门槛上手。新用户可免费注册体验，登录后可在网页右上角自由选择功能，并支持历史记录查看。下面的使用介绍以Paper2Figure功能为例，Paper2PPT及PptPolish的使用可参考功能设计部分的演示视频。

欢迎大家尝试这条 workflow。如果你对生成的图表／PPT 有建议、意见，也期待给我们反馈，帮助我们继续完善。

未来，我们希望这条 workflow 能成为科研工作者的新惯例：写论文 + 一键配图 + 一键生成 PPT + 一键展示。

让科研配图再也不是门槛，而是一种“自动获得的附加值”。

DCAI 团队的开源项目

欢迎大家关注使用DCAI的开源项目并与我们进行技术交流，如果觉得好用也请帮GitHub仓库点一个star～

1. 文章多模态工作流 Paper2Any：

https://github.com/OpenDCAI/Paper2Any

2. 自动化数据治理Agent框架 DataFlow-Agent：

https://github.com/OpenDCAI/DataFlow-Agent

3. LLM数据准备系统 DataFlow（2.3k star）：

https://github.com/OpenDCAI/DataFlow

4. DataFlow技术报告（#1 of the Hugging Face daily paper）：

https://arxiv.org/abs/2512.16676

5. LLM数据训练系统DataFlex(基于LLaMA-Factory)：

https://github.com/OpenDCAI/DataFlex

一起“点赞”三连↓