大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。
RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
尽管这几年大模型发展迅速,但至少还存在以下问题:
● 准确性: LLM是自回归模型,基于前一个词来推测下一个词,这种概率不可避免会产生错误的信息。
● 知识更新速度: LLM训练数据总是有限的,这可能导致模型的知识更新滞后,因此产生过时回答。
● 答案透明度: LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。
● 领域专业知识能力欠缺: LLM在预训练阶段是由各种领域的数据训练得到,这些数据一般分布都比较均匀,没有哪个领域的数据占据了绝对优势,因此在处理特定领域的专业知识时,效果往往不会太好。
二 RAG与微调效果对比
| 性能对比 | RAG | 微调 |
|---|---|---|
| 知识更新速度 | 直接更新知识库内容即可,无需重新训练,更新成本低 | 需要重新训练来保持知识和数据的更新,更新成本高 |
| 专业性 | 取决于知识库中的数据,无明显专业性倾向 | 针对某一领域数据微调后,可以具备一定的专业性 |
| 可解释性 | 可以追溯到具体的数据来源,有较好的可解释性 | 可解释性相对较低,回答质量取决于预训练的数据质量 |
| 计算资源 | 需要额外的资源来支持检索机制和数据库的维护,如向量化模型和向量知识库。 | 对计算资源的要求较高,取决于微调的数据量 |
| 推理延迟 | 增加了输入向量化和检索步骤的耗时 | 普通 LLM 推理耗时 |
| 降低幻觉 | 通过检索到的真实信息生成回答,降低了产生幻觉的概率 | 模型学习特定领域的数据有助于减少幻觉,但面对未见过的输入时仍可能出现幻觉 |
三、RAG 的工作流程
不同学者对RAG的定义略有不同,但公认一般至少包含如下两个阶段。
检索阶段
根据用户的输入,使用向量模型将查询内容转换为向量,计算查询向量与知识库中文档块向量之间的相似性,并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。
生成阶段
将给定的问题与检索到的补充信息合并,构造出一个新的Prompt,让大模型根据提供的信息来回答问题的任务。
四、RAG的局限性
检索过程
RAG的检索质量受到多个指标的影响。首要是低精确率(precision),即检索到的文档块中有些与查询并不直接相关,可能导致生成的回答包含不准确的信息。其次是召回率(recall)低的问题,即未能检索到所有相关的文档块,限制了生成模型获取足够的背景信息来构造完整的答案。此外,数据的过时性也是一个重要挑战,如何知识库更新频率非常高,那么知识库中可能会存在大量过时的信息,这些过时数据可能会误导模型,产生不准确的响应。
生成过程
RAG在生成过程同样面临多个问题。当检索到的信息不足时(即前面提到的召回不足),模型有可能虚构信息,根据已有的上下文生成不正确内容。另一个常见问题是不相关回答,即模型生成的答案未能准确回应用户的查询,这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。
构造prompt过程
假设已经检索到相关的知识内容,并且不存在低精确率和低召回情况,如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明,根据知识内容的相关性进行间隔排序可能效果最好,即:chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为:chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容,模型可能还能全部理解,当知识内容更多的时候,就无法保证召回的知识内容都能学习到。此外,当多个检索到的知识内容包含相似信息时,容易出现冗余和重复的问题,导致生成内容的重复和冗长,可能还会降低模型的回答效果。
知识库检索和维护
RAG在应用中涉及到多次检索和生成过程,通常对服务器计算资源和网络响应有较高要求,如果RAG涉及到多个智能体协同,可能还会进一步增加服务器的压力。此外,为了确保检索的准确性,知识库需要定期更新和清理。如果知识库不够完善或更新不及时,RAG生成的结果可能会基于过时或无关的信息。因此,在设计实际可用的RAG时,需要考虑如何简化知识库更新的操作。
五 RAG性能提升思路
提高检索质量
在建库阶段,可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度,并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时,可以通过增加Rerank模型来对召回的知识内容进行筛选和排序,增强用户查询和知识内容的关联性。
提升生成质量
让模型对知识内容进行判断和筛选,过滤掉无关的知识内容,并且对相关性较高的知识内容进行排序,从而提升回答质量。
其他
减少实时的计算耗时可以采用模型蒸馏,训练更轻量级的模型来加快推理速度,减少计算资源消耗。同时可以采用离线检索或缓存机制,对于高频问题的答案进行预计算和缓存。对于知识库的日常维护,则可以引入自动化的数据更新流程,定期清理过时信息、更新领域知识库,使RAG能够处理最新的领域信息和数据。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2026 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇
一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书
2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:
- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!
1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:
2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:
3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:
![]()
三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
L5阶段:专题集丨特训篇 【录播课】
![]()
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
2026 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!