RAG架构从入门到精通，一篇搞定AI“胡说八道”，收藏这一篇就够了！-开发者社区

你的聊天机器人自信地告诉顾客，你们的退货政策是90天，但实际上是30天。之后，它还描述了一些你们产品根本不具备的功能。

这就是优秀的演示系统与实际生产系统之间的差距。语言模型即使出错，听起来也很可靠，但在生产环境中，这会迅速造成高昂的成本。

这就是为什么严肃的AI团队会使用RAG的原因。并非因为它时髦，而是因为它能让模型基于真实信息。

大多数人忽略的一点是，RAG 并非只有一种架构。它有多种架构，每种架构都解决不同的问题。选错架构，就会浪费几个月的时间。

本指南详细介绍了在生产环境中实际可行的 RAG 架构。

让我们先来了解一下破布。

什么是 RAG？它为什么如此重要？

在深入探讨架构之前，让我们先明确一下我们要讨论的是什么。

RAG 通过让语言模型在生成响应之前参考外部知识库来优化其输出。RAG并非仅仅依赖模型在训练期间学习到的内容，而是从您的文档、数据库或知识图谱中提取相关的最新信息。

以下是实际操作流程。

当用户提出问题时，您的 RAG 系统首先根据该查询从外部来源检索相关信息。

然后它将原始问题与检索到的上下文结合起来，并将所有内容发送到语言模型。

该模型生成的响应基于实际可验证的信息，而不仅仅是其训练数据。

RAG 解决的实际问题

标准 RAG：从这里开始

标准 RAG 是整个生态系统的“Hello World”。它将检索视为简单的一次性查找。它的存在是为了在无需微调的情况下将模型建立在特定数据之上，但它假设你的检索引擎是完美的。

它最适合低风险环境，在这种环境中，速度比绝对的事实密度更重要。

工作原理：

分块：将文档拆分成易于理解的小文本段。

嵌入：每个片段都被转换成一个向量并存储在数据库（如 Pinecone 或 Weaviate）中。

检索：用户查询被向量化，并使用余弦相似度提取“前 K 个”最相似的片段。

生成：这些片段作为“上下文”输入到 LLM 中，以生成基于实际情况的响应。

实际案例：一家小型创业公司的内部员工手册机器人。用户询问“我们的宠物政策是什么？”，机器人会从人力资源手册中检索相关段落进行回答。

优点：

亚秒级延迟。

计算成本极低。

易于调试和监控。

缺点：

极易受到“噪声”（检索到无关数据块）的影响。

无法处理复杂的多部分问题。

如果检索到的数据有误，则缺乏自我纠正功能。

对话式 RAG：添加记忆

对话式 RAG 解决了“上下文盲点”问题。在标准设置中，如果用户追问“多少钱？”，系统并不知道“它”指的是什么。这种架构增加了一个有状态的记忆层，能够重新理解聊天过程中的每一个对话。

工作原理：

上下文加载：系统存储对话的最后 5-10 轮内容。

查询重写： LLM 获取历史记录 + 新查询，生成“独立查询”（例如，“企业计划的价格是多少？”）。

检索：此扩展查询用于向量搜索。

生成方式：答案是根据新的上下文生成的。

实际示例：一个SaaS公司的客户支持机器人。用户说：“我的API密钥出了问题”，然后接着问：“可以重置一下吗？”系统知道“它”指的是API密钥。

优点：

提供自然、人性化的聊天体验。

避免用户重复输入信息。

缺点：

记忆漂移： 10 分钟前的无关上下文可能会干扰当前的搜索结果。

由于“查询重写”步骤，令牌成本较高。

纠正性RAG（CRAG）：自检器

CRAG 是一种专为高风险环境设计的架构。它引入了一个“决策门”，用于在文档到达生成器之前评估检索到的文档质量。如果内部搜索效果不佳，则会回退到实时网络。

在部署 CRAG 式评估器的团队报告的内部基准测试中，幻觉与简单的基线相比有所下降。

工作原理：

检索：从您的内部矢量存储库中获取文档。

评估：一个轻量级的“评分器”模型为每个文档块分配一个分数（正确、模糊、错误）。

触发门：

正确：前往发电机处。

错误：丢弃数据并触发外部 API（例如 Google 搜索或 Tavily）。

4.综合：利用已验证的内部数据或最新的外部数据生成答案。

实际例子：一个财务顾问机器人。当被问及某个不在 2024 年数据库中的特定股票价格时，CRAG 意识到数据缺失，并从财经新闻 API 获取实时价格。

优点：

显著减少幻觉。

弥合内部数据与真实世界事实之间的差距。

缺点：

延迟显著增加（增加 2-4 秒）。

管理外部API成本和速率限制。

自适应 RAG：根据复杂程度匹配工作量

自适应 RAG 算法堪称“效率之王”。它认识到并非每个查询都需要强大的处理能力。它使用路由机制来判断用户意图的复杂程度，并选择成本最低、速度最快的路径来获取答案。

工作原理：

复杂度分析：一个小型分类器模型负责路由查询。

路径 A（无需检索）：用于问候或 LLM 已掌握的一般知识。

路径 B（标准 RAG）：用于简单的事实查找。

路径 C（多步骤代理）：适用于需要搜索多个来源的复杂分析问题。

实际例子：一个大学助教。如果学生说“你好”，它会直接回应。如果学生问“图书馆什么时候开放？”，它会进行简单的搜索。如果学生问“比较一下过去五年计算机科学专业的学费”，它会触发复杂的分析。

优点：

通过避免不必要的检索，大幅节省成本。

简单查询的最佳延迟。

缺点：

错误分类风险：如果它认为一个难题很简单，它将不会进行搜索。

需要高度可靠的路由模型。

自我批评：能够自我批评的人工智能

Self-RAG 是一种复杂的架构，其模型经过训练，能够批判性地审视自身的推理过程。它不仅检索信息，还会生成“反思标记”，作为对其自身输出的实时审计。

工作原理：

检索：由模型本身触发的标准搜索。

使用标记生成：该模型会生成文本以及特殊标记，例如[IsRel]（这是否相关？）、[IsSup]（此声明是否得到支持？）和[IsUse]（这是否有帮助？）。

自我纠错：如果模型输出一个[NoSup]标记，它会暂停，重新检索并重写句子。

实际示例：一款法律研究工具。该模型针对某个法庭案例提出论点，发现检索到的文件实际上并不支持该论点，于是自动搜索其他先例。

优点：

事实依据最充分。

推理过程具有内置透明度。

缺点：

需要专门的、精细调整的模型（例如，Self-RAG Llama）。

极高的计算开销。

Fusion RAG：多角度，更佳效果

Fusion RAG 解决了“歧义问题”。大多数用户的搜索能力都很差。Fusion RAG 会从多个角度分析单个查询，以确保高召回率。

工作原理：

查询扩展：生成用户问题的 3-5 个变体。

并行检索：搜索向量数据库中的所有变体。

互惠排序融合（RRF）：使用数学公式对结果进行重新排序：

最终排名：在多个搜索结果中排名靠前的文档将被提升到顶部。

实际示例：一位医学研究人员正在搜索“失眠症的治疗方法”。Fusion RAG 还会搜索“睡眠障碍药物”、“非药物失眠疗法”和“CBT-I 方案”，以确保不会遗漏任何相关研究。

优点：

召回率极高（能找到单个查询会遗漏的文档）。

对用户措辞不当具有较强的鲁棒性。

缺点：

搜索成本乘以（3倍-5倍）。

由于需要重新排名计算，延迟较高。

HyDE：生成答案，然后查找相似文档

HyDE 是一种反直觉但又非常巧妙的模式。它认识到“问题”和“答案”在语义上是不同的，并通过首先生成一个“虚假”答案来建立二者之间的桥梁。

工作原理：

假设： LLM为问题写出一个虚假的（假设的）答案。

嵌入：将虚假答案向量化。

检索：利用该向量查找看起来像虚假答案的真实文档。

生成：使用真实文档编写最终回复。

实际示例：用户提出一个模糊的问题，例如“加州那条关于数字隐私的法律”。HyDE 编写了一份关于 CCPA 的虚假摘要，并以此找到CCPA 的实际法律文本，然后提供答案。

优点：

显著提升概念性或模糊性查询的检索效果。

无需复杂的“代理”逻辑。

缺点：

偏见风险：如果“虚假答案”从根本上来说是错误的，那么搜索结果就会被误导。

对于简单的事实查询（例如，“2+2等于多少？”），效率不高。

代理型 RAG：协调专家

它不是盲目地获取文档，而是引入了一个自主代理，该代理会先进行规划、推理，然后决定如何以及在哪里检索信息，最后生成答案。

它将信息检索视为研究，而不是查找。

工作原理：

分析：
代理首先解释用户查询，并确定它是简单的、多步骤的、模糊的还是需要实时数据的。

计划：
它将查询分解成子任务并制定策略。
例如：应该先进行向量搜索？网络搜索？调用 API？还是提出后续问题？

执行：
代理通过调用诸如向量数据库、网络搜索、内部 API 或计算器之类的工具来执行这些步骤。

迭代：
根据中间结果，代理可以改进查询、获取更多数据或验证来源。

生成：
一旦收集到足够的证据，LLM 就会生成一个有理有据、考虑上下文的最终响应。

真实案例：

一位用户问道：
“根据印度法规，金融科技应用程序使用LLM进行贷款审批是否安全？”

代理 RAG 可能：

这是一个涉及监管、政策和风险的问题。

通过网络工具搜索印度储备银行（RBI）指南

检索内部合规文件

核对近期监管动态

综合整理出一份结构清晰、包含引证和注意事项的答案。

传统的红绿灯算法可能只会检索语义相似的文档，并给出一次答案。

优点：

处理复杂、多部分和歧义查询

通过验证和迭代减少幻觉

可以访问实时和外部数据源

更能适应不断变化的环境和需求

缺点：

由于多步骤执行，延迟较高

比简单的 RAG 运行成本更高

需要精心设计工具和代理的协调工作

对于简单的事实性问题来说，这有点小题大做。

GraphRAG：关系推理器

虽然之前的所有架构都是基于语义相似性来检索文档，但 GraphRAG 检索的是实体以及它们之间的显式关系。

它不问“哪些文本看起来很相似”，而是问“哪些内容是相关的，又是如何相关的？”

工作原理：

图构建：
知识被建模为一个图，其中节点是实体（人、组织、概念、事件），边是关系（影响、依赖于、由……资助、由……监管）。

查询解析：
分析用户查询以识别关键实体和关系类型，而不仅仅是关键字。

图遍历：
系统遍历图，找到连接多个实体的有意义的路径。

可选混合检索：
向量搜索通常与图一起使用，以在非结构化文本中定位实体。

生成：
LLM 将发现的关系路径转换为结构化的、可解释的答案。

真实案例：

问：
“美联储的利率决策如何影响科技创业公司的估值？”

GraphRAG 遍历：

美联储 → 利率决策 → 加息

利率上升→影响→风险投资资金的可用性

风险投资减少→影响→早期投资估值

科技创业公司 → 由风险投资公司资助

答案源于关系链，而不是文档相似性。

不同之处：

Vector RAG：
“哪些文档与我的查询相似？”

GraphRAG：
“哪些实体重要，它们之间如何相互影响？”

这使得 GraphRAG 在因果推理、多跳推理和确定性推理方面更加强大。

将 GraphRAG 与结构化分类相结合的系统在确定性搜索任务中达到了接近99% 的准确率。

优点：

擅长因果推理

由于明确的关系，输出结果具有高度可解释性。

在结构化和规则密集型领域表现优异

减少由语义相似性引起的误报

缺点：

构建和维护知识图谱的前期成本很高

图的构建可能需要大量的计算资源。

随着领域变化，进化变得更加困难

对于开放式或对话式问题来说，这有点过度设计了。

如何做出选择（决策框架）

步骤 1：从标准 RAG 开始

说真的。除非你有确凿的证据证明它行不通，否则就从这里开始。标准的RAG方法能迫使你掌握基本功：

高质量文档分段

好的嵌入模型

恰当的评估

监测

如果标准 RAG 机制本身就不好用，增加复杂性也无济于事。你只会得到一个复杂但依然糟糕的系统。

步骤二：仅在需要时添加内存

用户提出后续问题？添加对话式 RAG。否则，跳过。

步骤 3：使架构与实际问题相匹配

关注实际查询，而不是理想化的查询：

查询语句相似且简单明了？那就继续使用标准 RAG 模式。

复杂度差异巨大？那就添加自适应路由。

准确性关乎生死？即使成本较高，也应采用纠正性红黄绿评分系统。医疗保健红黄绿评分系统可将诊断错误率降低 15%。

开放式研究？自我评价还是主动评价？

术语含糊不清？融合 RAG。

需要丰富的关系型数据？如果预算允许，可以使用 GraphRAG 构建图。

第四步：考虑你的限制条件

预算紧张？那就采用标准 RAG 格式，优化检索。避免使用自找 RAG 和代理 RAG。

速度至关重要？选择标准模式还是自适应模式？DoorDash 的语音通话响应延迟为 2.5 秒，但聊天只需低于 1 秒。

准确性至关重要？即使成本较高，也应选择 Corrective 或 GraphRAG。

第五步：融合架构

生产系统结合了多种方法：

标准检索 + 纠错检索：快速标准检索，低置信度时回退到纠错检索。95% 快速检索，5% 已验证。

自适应 + GraphRAG：简单查询使用向量，复杂查询使用图。

融合 + 对话：带有记忆功能的查询变体。

将密集嵌入与稀疏方法（如 BM25）相结合的混合搜索几乎已成为语义含义和精确匹配的标准方法。

简单类比

把LLM想象成一个聪明绝顶但记忆力很差的员工。

标准 RAG 流程就像给他们一个文件柜。他们抽出一个文件夹，阅读后回答问题。

对话式 RAG 指的是同一名员工在会议期间做笔记，这样他们就不会重复问同样的问题。

纠正性 RAG增加了一名高级审核员，在答案发出之前检查“我们真的有证据吗？”。

自适应 RAG是一种管理者用来决定工作量级别的工具。对于简单的问题快速回复，对于复杂的问题进行全面调查。

自我反思是指员工边思考边大声说出来，遇到不确定的事情时会停下来查阅资料。

Fusion RAG以不同的方式向五位同事提出同一个问题，并相信他们达成的共识。

HyDE是指员工先拟定一个理想的答案，然后再搜索与该解释相符的文档。

Agentic RAG是一个由专家组成的团队。法律、财务和运营部门各自负责一部分工作，然后由专人将所有内容整合起来。

GraphRAG使用关系白板而非文档来展示关系。它记录了谁影响谁，以及如何影响彼此。

扼杀项目的危险信号

过度设计：用 Agentic RAG 来处理常见问题解答就像用法拉利来买菜一样，纯属浪费。
忽略检索质量：高召回率的检索器仍然是所有 RAG 系统的核心。无论架构如何，糟糕的检索结果都会导致糟糕的生成结果。
不进行评估：没有衡量就无法改进。从第一天起就跟踪精度、正确性、延迟、成本和满意度。
论文搜寻：仅 2024 年一年，arXiv 上就出现了 1200 多篇 RAG 论文。你不可能全部实现。专注于针对你具体问题的成熟方法。
忽略用户：用户真正需要什么？和他们沟通。许多团队为用户根本不存在的问题构建了复杂的解决方案，却忽略了真正的问题。

小结

RAG并非魔法，它无法修复糟糕的设计或垃圾数据。但如果运用得当，它可以将语言模型从自信的谎言转变为可靠的信息系统。

到 2025 年，RAG 将成为企业的战略要务，为企业安全采用生成式人工智能提供所需的信心层。最好的系统并非最复杂的系统，而是能够在你的限制条件下可靠地为用户提供服务的系统。

那么，如何系统的去学习大模型LLM？

作为一名深耕行业的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

RAG架构从入门到精通，一篇搞定AI“胡说八道”，收藏这一篇就够了！

那么，如何系统的去学习大模型LLM？

👉大模型学习指南+路线汇总👈

👉①.基础篇👈

👉②.进阶篇👈

👉③.实战篇👈

👉④.福利篇👈

【AI编程黑科技】R2R：多模态+深度研究+知识图谱，这个RAG系统直接卷到飞起！

GLM-TTS能否导入外部词典？专业术语发音校正方法

PHP实现高并发物联网数据上报（基于Swoole与MQTT的亿级消息处理方案）

【语音增强】基于相敏感掩膜的基底补偿算法NMF语音增强附Matlab代码

PHP开发区块链账户系统的核心技术（99%开发者忽略的3大安全隐患）

开发者必备工具链：整合GLM-TTS到现有Web应用中