news 2026/3/4 12:46:51

程序员必看!RAG系统调优实战,没有银弹只有数据说话

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
程序员必看!RAG系统调优实战,没有银弹只有数据说话

先给大家一图流总结全文:

RAG这个东西,圈内公认是「一周出Demo,半年就弃用」。

前段时间有个朋友找到我,他们搭建了个RAG系统,给合作伙伴解答平台使用方面的咨询。

结果上线后,内部用户的吐槽反馈不断,准确率很低。

在RAG落地的过程中,这太常见了——Demo阶段看着挺好,真正投入使用后问题百出:要么捏造一个看着正确的答案,要么干脆拒答。

但我想先说明一个观点:

RAG的可优化方向非常多——知识处理、检索增强、回答生成、混合检索、重排……

但不存在「银弹」,需要深入分析数据之后,才能找到最适合你团队的优化路径。

接下来的几篇文章,我会把这次调优的完整过程拆解分享。

这是第一篇,我们先把准确率从13%提升到40%。


  1. 初版RAG框架:仅实现了最小闭环

先看看原有的RAG架构。

说实话,这是一个非常标准的demo级框架:

用户提问 → 向量化 → 向量库检索 → 匹配知识片段 → LLM生成回答

具体实现上:

  • 知识来源:平台的官方文档(特性说明、API参考)和FAQ
  • 存储方式:按markdown语法分片后向量化
  • 检索方式:问题向量化后匹配
  • 回答生成:基于匹配知识生成回复

架构本身没问题,标准的RAG流程。 但为什么效果这么差呢?


  1. 构建测评流程:没有测评就没有方向

在开始优化之前,我做的第一件事不是改架构,而是建立测评体系,毕竟 RAG可优化的方向太多了。

没有测评数据支撑分析,就没有优化方向。

我们先调研了用户的准确度评估标准,然后设计了这样一个流程:

第一步:构建测评集

测评集的质量直接决定了优化的方向,我们花了不少精力在这个环节:

  1. 从历史工单中筛选:从工单系统抓取了100条AI可回答的问题记录
  • 这里需要说明:不是所有问题AI都能回答,像人工代操、服务器异常、需要深入分析日志等,用户自闭环不了的问题,都不在AI的能力范围内;
  • 我们要保证的是:这些问题基于现有文档知识,AI理论上能答出来;
  1. 样本不足的补充:发现100条样本太少,代表性不够,于是进行了测评集反推
  • 用AI对各类文档反向推导可能的问题
  • 让AI基于问题和文档生成标准答案
  • 这样补充到了500条的测评集

第二步:设计评分机制

用n8n构建测评流,引入LLM,从两个维度对回答质量进行评分:

  • 召回率:是否匹配到正确的文档
  • 准确率:回答与正确答案的关键信息一致性

然后基于团队的RAG系统,对这500条问答数据进行测评。

测评完成后,人工对回答错误的问题进行标注,这里人工的干预必不可少,需要根据日志,然后人工模拟回答过程,确定为什么回答错误。

我们对错误的原因进行分类,然后发现了问题分布:

错误类型占比典型表现
知识召回失败35%检索不到相关文档
知识分片异常25%分片不完整,缺关键信息
问题匹配偏差30%检索到了文档,但分片不相关
知识相互干扰10%不同版本知识混淆

这个数据非常有价值——知识召回失败和问题匹配偏差占了65%,这就是我们的优化重点。


  1. 第一次优化:知识切片改造

问题在哪

原有的知识切片方式很简单:直接按markdown标题切文档。

问题很明显:

  • 内容碎片化,解决方案找不到
  • 语义不完整,向量匹配差

举个具体例子:

工程师问「表单保存前校验怎么配置」,而现有文档大多是解决方案类,这类文档通常是「问题现象+原因分析+解决方案」的三段式结构。

按照markdown标题粗暴切分后:

  • 问题现象分片:包含「表单提交时报错」「保存前校验失败」等描述
  • 原因分析分片:分析为什么会出现这个问题
  • 解决方案分片:详细的配置步骤

用户提问时,在「问题现象」分片里匹配到了,但死活匹配不到「解决方案」分片。

结果就是:AI知道用户遇到了什么问题,但给不出解决方案。

方案一:全文提炼作为分片+检索后补全

既然直接分片有问题,那能不能让AI把文档的关键词和关键描述提炼出来,作为摘要存储到向量库?

具体实现:

  1. 知识写入环节
  • AI提炼文档的关键词和关键描述,生成摘要
  • 将摘要向量化存储到向量库
  • 同时记录文档ID,关联到完整文档
  1. 问题回答环节
  • 用户提问后,在向量库中匹配摘要分片
  • 匹配到后,通过文档ID接口召回完整文档
  • 将完整文档提供给LLM,结合用户问题进行回答总结

除知识写入逻辑外,这里有个RAG的回答流程变更:

原有的RAG流程

用户提问 → 向量检索 → 匹配知识分片 → 基于分片回答

优化后的RAG流程

用户提问 → 向量检索 → 匹配摘要分片 → 召回完整文档 → 基于完整文档回答

这个方案开发完成后,再次测评,准确率直接从13%提升到了31%。

优化总结

提炼关键词+关键描述的方式,让摘要涵盖了文档的核心信息,解决了「分片后内容不完整」的问题。同时,通过「检索后补全」的架构,确保AI能基于完整文档生成回答,避免了信息丢失。

但我们测评后,发现这个方案还可以进一步优化。

原因在于:摘要内容多是陈述句(「本文介绍了表单保存前校验的配置方法」),而工程师问的是疑问句(「怎么配置表单保存前校验」),向量匹配相似度依然不高。

方案二:在摘要基础上添加Query

有了「摘要+全文」的架构后,我们继续优化:在摘要中补充可解答问题!

核心思路:让AI在总结文档时,同时生成「这个文档能解决什么问题」的问句。

解读现有文档分类后,优化后的核心Prompt逻辑:

# 根据文档类型生成不同的问题- 特性文档:按"什么是[关键词]"生成问题- FAQ文档:直接提取FAQ中的问题- API文档:按"什么是[API名称]"生成问题- 其他文档:从用户视角提出可解决的问题

关键设计点

  1. 标题包含关键词:向量检索时标题权重大,把关键词和问题放标题里
  2. 按文档类型生成问题:不同类型文档的问题生成规律不同
  3. 问题固定格式:特性文档用「什么是XX」,其他文档用「怎么XX」

效果:准确率从31%再次提升到40%!

虽然40%的准确率看起来还不够高,但已经比最初的13%提升了3倍,小范围试用之后,内部用户的负面反馈明显减少。


  1. 本篇小结

回顾第一阶段的优化,我们核心做了一件事:让向量库存储的内容更接近用户的问题。

但我也想强调:

这个方案之所以有效,是因为我们的数据分析显示「知识召回失败+问题匹配偏差」占了65%的问题。如果你的RAG系统问题分布不同,优化路径也会完全不同。

不存在RAG优化的「银弹」。

深入分析你的数据,才能找到属于你的优化路径。


  1. 下篇预告

第一阶段的优化让准确率达到了40%,但还有不少提升空间。

在下一篇文章中,我会分享:

  • 如何避免不同技术栈的知识干扰
  • 如何对关键词检索逻辑进一步调优

将准确率从40%提升到55%,记得关注不迷路。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/24 8:07:26

蚕豆病人群营养补充有讲究,万和制药和安胶囊可安心选用

蚕豆病作为 G-6-PD 缺乏症,核心风险在于氧化物质诱发红细胞溶血,因此这类人群的营养补充,需严格规避高浓度氧化风险成分,同时兼顾营养与免疫维护。万和制药和安 复方氨基酸胶囊(8-11),经成分与…

作者头像 李华
网站建设 2026/2/26 7:17:42

2026年中大型企业数电乐企解决方案选型参考:主流方案对比及应用场景适配建议

随着数电发票改革的全面推进,企业财务管理面临向数字化、自动化转型的关键阶段。数电乐企解决方案旨在帮助企业实现发票数据的全流程自动化处理,并与税务系统高效衔接。本文从系统能力、场景适配、实施反馈等维度,对当前市场中的三款数电乐企…

作者头像 李华
网站建设 2026/3/4 0:01:42

安全经理的CISSP备考之路!精进专业技能,成为了我必须坚持的事

作为一家上市公司的网络安全经理,每天都要和行业内专业人士深度对接,也愈发感受到这个领域的发展速度——新工具、新技术持续迭代,行业对从业者的专业要求也在不断提升。想要不被行业淘汰,保持核心竞争力,持续学习、精…

作者头像 李华
网站建设 2026/3/4 2:52:01

【软件测试】11_性能测试实战 _编写性能测试报告

文章目录一、项目概况二、测试目的三、测试范围四、测试环境及工具4.1 性能测试环境的基本配置4.2 测试工具五、测试记录及结果分析5.1 单场景负载测试-获取首页数据5.1.1 场景描述5.1.2 测试结果数据5.1.3 问题分析5.1.4 解决方案六、测试结论七、总结7.1 编写测试报告的要点7…

作者头像 李华
网站建设 2026/3/3 5:28:13

物理世界模型驱动:Franka Research 3 机械臂的“零样本”进化之路

在当前的机器人研究领域,如何让机械臂像人类一样通过“观看”视频就学会复杂的动作,是一个极具挑战性的前沿课题。近期,由 Google DeepMind、斯坦福大学等机构联合提出的 PhysWorld 框架,通过将视频生成与物理世界建模相结合&…

作者头像 李华