news 2026/7/23 3:50:38

大模型中Rag的介绍

张小明

前端开发工程师

1.2k 24

文章封面图 — 大模型中Rag的介绍

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是大模型（LLM）领域中一种结合外部知识检索与语言生成的关键技术，旨在解决大语言模型的三大核心缺陷：

知识滞后性（训练数据截止后无法更新）
事实幻觉（编造看似合理但错误的信息）
领域知识缺失（缺乏企业私有或专业领域数据）

一、RAG 的核心思想

“让大模型学会查资料”—— 在生成答案前，先从外部知识库中检索相关证据，再基于真实信息生成回答。

其工作流程可概括为三步：

用户提问 → 检索相关文档 → 生成基于证据的答案

这模仿了人类解决问题的方式：遇到不懂的问题，先查资料，再作答。

二、RAG 的标准架构（三阶段）

1.提取（Extraction / Indexing）

将企业私有数据（PDF、网页、数据库、代码库等）切分为文本块（Chunks）；
使用嵌入模型（Embedding Model）（如 BAAI/bge、text-embedding-ada-002）将每个文本块转换为向量（Embedding）；
存入向量数据库（如 FAISS、Chroma、Pinecone、Milvus）建立索引。

✅ 目标：构建一个可高效语义搜索的知识库。

2.检索（Retrieval）

用户提问时，用同一嵌入模型将问题转为向量；
在向量数据库中执行近似最近邻搜索（ANN），找出 Top-K 最相关的文本块；
可选优化：
- 查询重写（Query Rewriting）：将模糊问题改写为更精准的检索式；
- 混合检索：结合关键词（BM25） + 向量检索；
- 重排序（Re-ranking）：用交叉编码器（如 BGE-reranker）对初检结果精排。

✅ 目标：召回高相关、高质量的上下文证据。

3.生成（Generation）

将原始问题 + 检索到的上下文拼接成 Prompt，输入大语言模型（如 Llama3、GPT-4、Qwen）；
LLM 基于提供的证据生成准确、可靠、可溯源的回答；

典型 Prompt 模板：

请根据以下上下文回答用户问题。如果上下文不相关，请回答“我不知道”。 上下文： {retrieved_text} 问题： {user_query} 回答：

✅ 目标：生成事实一致、减少幻觉的答案。

三、RAG vs 纯大模型（Without RAG）

能力	纯 LLM	RAG
回答 2024 年公司财报	❌（训练数据截止于 2023）	✅（从最新财报 PDF 检索）
解释内部产品文档	❌（未见过私有数据）	✅（从 Confluence 检索）
引用具体条款	❌（可能编造法条编号）	✅（直接引用检索到的原文）
知识更新成本	需重新训练（昂贵）	只需更新向量库（低成本）

四、RAG 的典型应用场景

企业知识问答系统
- 员工问：“报销流程是什么？” → 自动从 HR 手册检索并回答。
智能客服
- 结合产品文档、FAQ 库，提供准确技术支持。
法律/医疗辅助
- 检索法规条文或病历记录，生成合规建议。
代码助手
- 从内部代码库检索相似实现，辅助编程。
多模态 RAG
- 检索图像、表格、视频片段，生成跨模态回答（如 GPT-4V + RAG）。

五、RAG 的进阶演进（Advanced RAG）

技术	说明
HyDE（Hypothetical Document Embeddings）	先让 LLM 生成一个假设答案，再用该答案去检索，提升召回率
子查询（Sub-query）	将复杂问题拆解为多个子问题分别检索
递归检索（Recursive Retrieval）	先检索文档元信息（如标题），再深入检索具体内容
Graph RAG	构建知识图谱，利用实体关系增强检索（微软提出）
Self-RAG	模型自主判断是否需要检索、是否使用检索结果（带反思机制）

六、常用开源工具链

组件	工具
框架	LangChain、LlamaIndex、Haystack
嵌入模型	BGE（智源）、gte-Qwen、text-embedding-3-small（OpenAI）
向量数据库	Chroma（轻量）、Pinecone（云服务）、Milvus（高性能）
重排序模型	BGE-reranker、Cohere Rerank
评估工具	Ragas（评估忠实度、相关性、答案质量）

七、RAG 的局限与挑战

检索质量依赖：若检索不到关键信息，LLM 仍会幻觉；
上下文长度限制：长文档需智能分块，避免信息割裂；
延迟问题：检索 + 生成比纯 LLM 更慢；
多跳推理难：复杂问题需多次检索-推理循环（Agent 可缓解）。

总结：RAG 的价值

RAG 不是替代大模型，而是为其“外挂大脑”。
它以低成本、高可控性的方式，将大模型的“通用智慧”与“专属知识”结合，是当前最实用、最落地的大模型应用范式之一。

正如业界共识：

“不要微调模型来记住知识，而要用 RAG 让模型学会查找知识。”

对于企业而言，RAG 是构建安全、可信、可维护的 AI 应用的首选路径。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/7/21 5:20:09

学霸同款2026 TOP8 AI论文网站：专科生毕业论文神器测评

学霸同款2026 TOP8 AI论文网站：专科生毕业论文神器测评推荐1：「千笔AI」—— 一站式学术支持“专家”，学术写作全场景王者（推荐指数：★★★★★） 在众多AI论文工具中，「千笔AI」无疑是一款极具…

作者头像

李华

网站建设 2026/7/20 18:16:22

MediaPipe Hands部署技巧：跨平台兼容性解决方案

MediaPipe Hands部署技巧：跨平台兼容性解决方案 1. 引言：AI 手势识别与追踪的工程挑战随着人机交互技术的演进，手势识别正逐步成为智能设备、虚拟现实、远程控制等场景中的核心感知能力。Google 开源的 MediaPipe Hands 模型凭借其轻量级架…

作者头像

李华

网站建设 2026/7/21 22:07:19

手势识别入门必看：MediaPipe Hands环境

手势识别入门必看：MediaPipe Hands环境 1. 引言：AI 手势识别与追踪随着人机交互技术的不断演进，手势识别正逐步成为智能设备、虚拟现实、增强现实乃至智能家居中的核心感知能力。传统的触控和语音交互虽已成熟，但在某些场景下&…

作者头像

李华

网站建设 2026/7/15 3:09:33

Nodejs和vue框架的医疗设备维护平台_医院设备维修系统-- 项目源码

文章目录Node.js与Vue医疗设备维护平台项目摘要--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！Node.js与Vue医疗设备维护平台项目摘要该医疗设备维护平台基于Node.js后端与Vue.js前端构建，专为医院设…

作者头像

李华

网站建设 2026/7/20 21:20:51

【无人机三维路径规划】基于鳄鱼伏击算法CAOA多无人机协同集群避障路径规划（目标函数：最低成本：路径、高度、威胁、转角）附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页：Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像

李华

网站建设 2026/7/20 15:50:38

2026年1月亲测：那些超实用PPT模板分享

2026年1月亲测：那些超实用PPT模板分享行业痛点分析当前PPT模板领域面临着诸多技术挑战。首先，模板的多样性和适用性不足，许多模板难以满足不同行业和场景的需求。其次，模板的质量参差不齐，一些模板在设计上缺乏专业性和…

作者头像

李华