一句话总结:微软 GraphRAG 虽然强大,但它是“盲人”——MegaRAG 首次将视觉信息(图片/图表/布局)引入知识图谱构建,通过“Page-level 并行提取 + 子图 Refinement”策略,实现了对 PPT、研报、教科书等富视觉长文档的深度理解与推理。
图:MegaRAG 整体架构:从多模态 KG 构建到双路检索生成
1. 为什么我们需要 MegaRAG?
在 RAG 领域,2024 年是 GraphRAG 爆发的一年。通过将非结构化文本转化为知识图谱,GraphRAG 解决了传统 RAG 难以处理“全局性问题(Global QA)”和“跨段落推理”的痛点。
然而,现有的 GraphRAG(包括 LightRAG)存在一个致命缺陷:它们是单模态的(Text-Only)。 当面对 PDF、PPT、技术手册等富视觉文档时:
- 视觉丢失:图表(Chart)、流程图(Diagram)、布局(Layout)信息被 OCR 暴力转为文本或直接丢弃。
- 割裂感:“图”和“文”是分离的,KG 中没有“图片节点”,导致无法回答“根据图 3 的趋势分析…”这类问题。
- 长窗口瓶颈:虽然 Gemini/GPT-4o 支持长窗口,但直接把整本书丢进去不仅贵,而且在处理细粒度视觉细节时容易“幻觉”或“丢失注意力”。
MegaRAG(国立台湾大学,2025.11)提出了MMKG(Multimodal Knowledge Graph)方案,核心思路是:把图片、图表也当做 KG 中的“实体(Entity)”,并在构建和检索阶段深度融合视觉特征。
2. 核心架构:如何构建多模态大脑?
MegaRAG 的 Pipeline 分为三个阶段:MMKG 构建、统一索引、检索与生成。最精彩的部分在于它如何低成本地构建高质量多模态图谱。
2.1 MMKG 构建:并行提取 + 迭代精修
为了解决长文档的成本和上下文限制,MegaRAG 采用了“分治 + 修正”的策略。
第一步:Page-level 并行提取
将文档按页切分,并行喂给 MLLM(如 GPT-4o-mini)。
- 输入:当前页的 Text + 提取出的 Figure/Table + 完整 Page Image(保留布局)。
- 输出:局部实体与关系 。
- 关键创新:图表即实体。例如,一张“2025 营收趋势图”会被识别为一个 Entity,并与文本中的“营收增长”Entity 建立关系。
第二步:基于子图检索的Refinement ——核心 Trick
初步提取的 KG 往往是碎片化的,跨页关系容易丢失。MegaRAG 设计了一个巧妙的Refinement环节:
- Global Merge:将所有页的局部图合并为初始图 。
- Subgraph Retrieval:对于第 页,不直接喂全量图(太大了),而是根据当前页的实体,去 中检索一个Top-K 子图。
- Context-Aware Refinement:将“当前页内容” + “检索到的全局子图”再次喂给 MLLM。
- MLLM 会发现:“哎,这一页提到的‘Project X’在第 10 页也出现过,而且子图里显示它属于‘AI 部门’,那我在这里把关系补上。”
- 效果:补全了隐式的 Cross-page 和 Cross-modal 关系(如下图所示)。
(待替换图) 图:Refinement 前后对比。Refinement 后,视觉实体(图表)与文本实体之间的潜在关系被补全。
2.2 统一向量空间 (Unified Embedding)
图建好了,怎么检索?文本和图片属于不同模态,传统的 Text Embedding 模型(如 OpenAI ada-003)搞不定图片节点。 MegaRAG 使用了GME (General Multimodal Embedder)(基于 Qwen2-VL-2B 微调):
- 统一编码:Text Entity、Visual Entity (Image)、Relation Description 均通过 GME 映射到同一个 Dense Vector Space。
- 优势:支持任意组合的检索(Text-to-Image, Image-to-Text, Text-to-Graph)。
2.3 双路检索与生成 (Dual-Pathway Generation)
为了防止模型偏科(只看字不看图,或反之),MegaRAG 采用了解耦生成策略:
- 检索:
- Graph Pathway:检索 Top-K 相关的实体、关系及其邻居(提供结构化、全局知识)。
- Page Pathway:检索 Top-M 相关的原始页面图片(提供原始视觉细节、布局信息)。
- 生成:
Stage 1 (Intermediate): 这里的 Prompt 让模型只看KG生成一个“逻辑推导版答案”。
同时让模型只看Page Images生成一个“视觉感知版答案”。
Stage 2 (Final):将上述两个中间答案合并,生成最终回复。
3. 关键算法与数学表述
3.1 页面级图生成
定义文档第 页的输入为 ,其中 T, F, B, I 分别代表文本、Figure、Table 和完整 Page Image。 图生成函数 为:
这里 MLLM 被 Prompt 引导去识别 Text-to-Text, Text-to-Image 甚至 Image-to-Image 的关系。
3.2 Refinement 过程
这是 MegaRAG 的精髓。为了解决 的不完整性,定义 Refinement 函数 :
其中 是从全局图 中检索出的、与当前页 最相关的子图。
❝
Insight:这实际上是一种Retrieval-Augmented Construction (RAC)。在构建 KG 的过程中,就利用 RAG 的思想去检索已有的知识,从而辅助当前的构建。
4. 工程落地指南
对于算法工程师,复现或落地 MegaRAG 需要关注以下细节:
4.1 模型选型
- LLM/MLLM:原论文构建和 Refinement 均使用
GPT-4o-mini。这是一个Cost-Effective的选择。对于本地部署,可以用Qwen2.5-VL或InternVL2替代。 - Embedding:必须使用支持多模态的 Embedding 模型。论文推荐GME-Qwen2-VL-2B。如果没有多模态 Embedder,你的 Visual Entity 将无法被文本 Query 检索到。
4.2 坑与注意事项
- PDF 解析是基础:论文使用了
MinerU工具包来精准提取 Layout、Figure 和 Table。如果解析很烂(比如把图表截断了),后面的 MMKG 质量会直线下降。 - Visual Entity 的描述:在建图时,不要只存图片的 Embedding。最好让 MLLM 生成一段该图片的Caption或Summary作为 Entity 的属性,这样能显著提升 Text-based Retrieval 的召回率。
- Refinement 的开销:虽然比直接读全文便宜,但 Refinement 意味着要对每一页多做一次 LLM 调用。工程上可以做 Trade-off:只对“信息密度高”或“包含复杂图表”的页面做 Refinement。
4.3 性能指标
在Global QA(如“总结整本书的碳排放策略”)场景下,MegaRAG 完胜。
- Comprehensiveness (全面性):比 GraphRAG 高出20%+的胜率。
- Multimodal Bench (图表问答):在 SlideVQA 等数据集上,Accuracy 达到64.85%,远超 GraphRAG 的 5.22%。这直接证明了引入 Visual Entity 的必要性。
5. 总结
MegaRAG 的核心贡献在于它打破了 RAG 中“文本”与“视觉”的界限。它告诉我们:
❝
不要简单地把 PDF 转成 Markdown 存进向量库。保留视觉结构,将其显式建模为 KG 中的节点,并利用 LLM 的反思能力去修补关系,才是处理复杂文档的终局。
对于正在构建企业级 RAG(尤其是处理研报、说明书、合同)的团队,MegaRAG 提供了一个非常具有实操性的升级路线:MinerU 解析 -> 多模态建图 -> 混合检索。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。