news 2026/4/22 5:44:58

大模型中Rag的介绍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型中Rag的介绍

检索增强生成(Retrieval-Augmented Generation,简称 RAG)是大模型(LLM)领域中一种结合外部知识检索与语言生成的关键技术,旨在解决大语言模型的三大核心缺陷:

  • 知识滞后性(训练数据截止后无法更新)
  • 事实幻觉(编造看似合理但错误的信息)
  • 领域知识缺失(缺乏企业私有或专业领域数据)

一、RAG 的核心思想

“让大模型学会查资料”—— 在生成答案前,先从外部知识库中检索相关证据,再基于真实信息生成回答。

其工作流程可概括为三步:

用户提问 → 检索相关文档 → 生成基于证据的答案

这模仿了人类解决问题的方式:遇到不懂的问题,先查资料,再作答。


二、RAG 的标准架构(三阶段)

1.提取(Extraction / Indexing)

  • 将企业私有数据(PDF、网页、数据库、代码库等)切分为文本块(Chunks)
  • 使用嵌入模型(Embedding Model)(如 BAAI/bge、text-embedding-ada-002)将每个文本块转换为向量(Embedding)
  • 存入向量数据库(如 FAISS、Chroma、Pinecone、Milvus)建立索引。

✅ 目标:构建一个可高效语义搜索的知识库。


2.检索(Retrieval)

  • 用户提问时,用同一嵌入模型将问题转为向量;
  • 在向量数据库中执行近似最近邻搜索(ANN),找出 Top-K 最相关的文本块;
  • 可选优化:
    • 查询重写(Query Rewriting):将模糊问题改写为更精准的检索式;
    • 混合检索:结合关键词(BM25) + 向量检索;
    • 重排序(Re-ranking):用交叉编码器(如 BGE-reranker)对初检结果精排。

✅ 目标:召回高相关、高质量的上下文证据。


3.生成(Generation)

  • 原始问题 + 检索到的上下文拼接成 Prompt,输入大语言模型(如 Llama3、GPT-4、Qwen);
  • LLM 基于提供的证据生成准确、可靠、可溯源的回答;
  • 典型 Prompt 模板:
    请根据以下上下文回答用户问题。如果上下文不相关,请回答“我不知道”。 上下文: {retrieved_text} 问题: {user_query} 回答:

✅ 目标:生成事实一致、减少幻觉的答案。


三、RAG vs 纯大模型(Without RAG)

能力纯 LLMRAG
回答 2024 年公司财报❌(训练数据截止于 2023)✅(从最新财报 PDF 检索)
解释内部产品文档❌(未见过私有数据)✅(从 Confluence 检索)
引用具体条款❌(可能编造法条编号)✅(直接引用检索到的原文)
知识更新成本需重新训练(昂贵)只需更新向量库(低成本)

四、RAG 的典型应用场景

  1. 企业知识问答系统
    • 员工问:“报销流程是什么?” → 自动从 HR 手册检索并回答。
  2. 智能客服
    • 结合产品文档、FAQ 库,提供准确技术支持。
  3. 法律/医疗辅助
    • 检索法规条文或病历记录,生成合规建议。
  4. 代码助手
    • 从内部代码库检索相似实现,辅助编程。
  5. 多模态 RAG
    • 检索图像、表格、视频片段,生成跨模态回答(如 GPT-4V + RAG)。

五、RAG 的进阶演进(Advanced RAG)

技术说明
HyDE(Hypothetical Document Embeddings)先让 LLM 生成一个假设答案,再用该答案去检索,提升召回率
子查询(Sub-query)将复杂问题拆解为多个子问题分别检索
递归检索(Recursive Retrieval)先检索文档元信息(如标题),再深入检索具体内容
Graph RAG构建知识图谱,利用实体关系增强检索(微软提出)
Self-RAG模型自主判断是否需要检索、是否使用检索结果(带反思机制)

六、常用开源工具链

组件工具
框架LangChain、LlamaIndex、Haystack
嵌入模型BGE(智源)、gte-Qwen、text-embedding-3-small(OpenAI)
向量数据库Chroma(轻量)、Pinecone(云服务)、Milvus(高性能)
重排序模型BGE-reranker、Cohere Rerank
评估工具Ragas(评估忠实度、相关性、答案质量)

七、RAG 的局限与挑战

  • 检索质量依赖:若检索不到关键信息,LLM 仍会幻觉;
  • 上下文长度限制:长文档需智能分块,避免信息割裂;
  • 延迟问题:检索 + 生成比纯 LLM 更慢;
  • 多跳推理难:复杂问题需多次检索-推理循环(Agent 可缓解)。

总结:RAG 的价值

RAG 不是替代大模型,而是为其“外挂大脑”
它以低成本、高可控性的方式,将大模型的“通用智慧”与“专属知识”结合,是当前最实用、最落地的大模型应用范式之一

正如业界共识:

“不要微调模型来记住知识,而要用 RAG 让模型学会查找知识。”

对于企业而言,RAG 是构建安全、可信、可维护的 AI 应用的首选路径。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 5:44:56

学霸同款2026 TOP8 AI论文网站:专科生毕业论文神器测评

学霸同款2026 TOP8 AI论文网站:专科生毕业论文神器测评 推荐1:「千笔AI」—— 一站式学术支持“专家”,学术写作全场景王者(推荐指数:★★★★★) 在众多AI论文工具中,「千笔AI」无疑是一款极具…

作者头像 李华
网站建设 2026/4/22 5:44:52

MediaPipe Hands部署技巧:跨平台兼容性解决方案

MediaPipe Hands部署技巧:跨平台兼容性解决方案 1. 引言:AI 手势识别与追踪的工程挑战 随着人机交互技术的演进,手势识别正逐步成为智能设备、虚拟现实、远程控制等场景中的核心感知能力。Google 开源的 MediaPipe Hands 模型凭借其轻量级架…

作者头像 李华
网站建设 2026/4/19 11:32:31

手势识别入门必看:MediaPipe Hands环境

手势识别入门必看:MediaPipe Hands环境 1. 引言:AI 手势识别与追踪 随着人机交互技术的不断演进,手势识别正逐步成为智能设备、虚拟现实、增强现实乃至智能家居中的核心感知能力。传统的触控和语音交互虽已成熟,但在某些场景下&…

作者头像 李华
网站建设 2026/4/14 17:10:44

Nodejs和vue框架的医疗设备维护平台_医院设备维修系统-- 项目源码

文章目录Node.js与Vue医疗设备维护平台项目摘要--nodejs技术栈--结论源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!Node.js与Vue医疗设备维护平台项目摘要 该医疗设备维护平台基于Node.js后端与Vue.js前端构建,专为医院设…

作者头像 李华
网站建设 2026/4/15 16:07:09

【无人机三维路径规划】基于鳄鱼伏击算法CAOA多无人机协同集群避障路径规划(目标函数:最低成本:路径、高度、威胁、转角)附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像 李华
网站建设 2026/4/17 14:13:33

2026年1月亲测:那些超实用PPT模板分享

2026年1月亲测:那些超实用PPT模板分享行业痛点分析当前PPT模板领域面临着诸多技术挑战。首先,模板的多样性和适用性不足,许多模板难以满足不同行业和场景的需求。其次,模板的质量参差不齐,一些模板在设计上缺乏专业性和…

作者头像 李华