程序员必看！RAG系统调优实战，没有银弹只有数据说话-开发者社区

先给大家一图流总结全文：

RAG这个东西，圈内公认是「一周出Demo，半年就弃用」。

前段时间有个朋友找到我，他们搭建了个RAG系统，给合作伙伴解答平台使用方面的咨询。

结果上线后，内部用户的吐槽反馈不断，准确率很低。

在RAG落地的过程中，这太常见了——Demo阶段看着挺好，真正投入使用后问题百出：要么捏造一个看着正确的答案，要么干脆拒答。

但我想先说明一个观点：

RAG的可优化方向非常多——知识处理、检索增强、回答生成、混合检索、重排……
但不存在「银弹」，需要深入分析数据之后，才能找到最适合你团队的优化路径。

接下来的几篇文章，我会把这次调优的完整过程拆解分享。

这是第一篇，我们先把准确率从13%提升到40%。

初版RAG框架：仅实现了最小闭环

先看看原有的RAG架构。

说实话，这是一个非常标准的demo级框架：

用户提问 → 向量化 → 向量库检索 → 匹配知识片段 → LLM生成回答

具体实现上：

知识来源：平台的官方文档（特性说明、API参考）和FAQ
存储方式：按markdown语法分片后向量化
检索方式：问题向量化后匹配
回答生成：基于匹配知识生成回复

架构本身没问题，标准的RAG流程。但为什么效果这么差呢？

构建测评流程：没有测评就没有方向

在开始优化之前，我做的第一件事不是改架构，而是建立测评体系，毕竟 RAG可优化的方向太多了。

没有测评数据支撑分析，就没有优化方向。

我们先调研了用户的准确度评估标准，然后设计了这样一个流程：

第一步：构建测评集

测评集的质量直接决定了优化的方向，我们花了不少精力在这个环节：

从历史工单中筛选：从工单系统抓取了100条AI可回答的问题记录

这里需要说明：不是所有问题AI都能回答，像人工代操、服务器异常、需要深入分析日志等，用户自闭环不了的问题，都不在AI的能力范围内；
我们要保证的是：这些问题基于现有文档知识，AI理论上能答出来；

样本不足的补充：发现100条样本太少，代表性不够，于是进行了测评集反推

用AI对各类文档反向推导可能的问题
让AI基于问题和文档生成标准答案
这样补充到了500条的测评集

第二步：设计评分机制

用n8n构建测评流，引入LLM，从两个维度对回答质量进行评分：

召回率：是否匹配到正确的文档
准确率：回答与正确答案的关键信息一致性

然后基于团队的RAG系统，对这500条问答数据进行测评。

测评完成后，人工对回答错误的问题进行标注，这里人工的干预必不可少，需要根据日志，然后人工模拟回答过程，确定为什么回答错误。

我们对错误的原因进行分类，然后发现了问题分布：

错误类型	占比	典型表现
知识召回失败	35%	检索不到相关文档
知识分片异常	25%	分片不完整，缺关键信息
问题匹配偏差	30%	检索到了文档，但分片不相关
知识相互干扰	10%	不同版本知识混淆

这个数据非常有价值——知识召回失败和问题匹配偏差占了65%，这就是我们的优化重点。

第一次优化：知识切片改造

问题在哪

原有的知识切片方式很简单：直接按markdown标题切文档。

问题很明显：

内容碎片化，解决方案找不到
语义不完整，向量匹配差

举个具体例子：

工程师问「表单保存前校验怎么配置」，而现有文档大多是解决方案类，这类文档通常是「问题现象+原因分析+解决方案」的三段式结构。

按照markdown标题粗暴切分后：

问题现象分片：包含「表单提交时报错」「保存前校验失败」等描述
原因分析分片：分析为什么会出现这个问题
解决方案分片：详细的配置步骤

用户提问时，在「问题现象」分片里匹配到了，但死活匹配不到「解决方案」分片。

结果就是：AI知道用户遇到了什么问题，但给不出解决方案。

方案一：全文提炼作为分片+检索后补全

既然直接分片有问题，那能不能让AI把文档的关键词和关键描述提炼出来，作为摘要存储到向量库？

具体实现：

知识写入环节：

AI提炼文档的关键词和关键描述，生成摘要
将摘要向量化存储到向量库
同时记录文档ID，关联到完整文档

问题回答环节：

用户提问后，在向量库中匹配摘要分片
匹配到后，通过文档ID接口召回完整文档
将完整文档提供给LLM，结合用户问题进行回答总结

除知识写入逻辑外，这里有个RAG的回答流程变更：

原有的RAG流程：

用户提问 → 向量检索 → 匹配知识分片 → 基于分片回答

优化后的RAG流程：

用户提问 → 向量检索 → 匹配摘要分片 → 召回完整文档 → 基于完整文档回答

这个方案开发完成后，再次测评，准确率直接从13%提升到了31%。

优化总结：

提炼关键词+关键描述的方式，让摘要涵盖了文档的核心信息，解决了「分片后内容不完整」的问题。同时，通过「检索后补全」的架构，确保AI能基于完整文档生成回答，避免了信息丢失。

但我们测评后，发现这个方案还可以进一步优化。

原因在于：摘要内容多是陈述句（「本文介绍了表单保存前校验的配置方法」），而工程师问的是疑问句（「怎么配置表单保存前校验」），向量匹配相似度依然不高。

方案二：在摘要基础上添加Query

有了「摘要+全文」的架构后，我们继续优化：在摘要中补充可解答问题！

核心思路：让AI在总结文档时，同时生成「这个文档能解决什么问题」的问句。

解读现有文档分类后，优化后的核心Prompt逻辑：

# 根据文档类型生成不同的问题- 特性文档：按"什么是[关键词]"生成问题- FAQ文档：直接提取FAQ中的问题- API文档：按"什么是[API名称]"生成问题- 其他文档：从用户视角提出可解决的问题

关键设计点：

标题包含关键词：向量检索时标题权重大，把关键词和问题放标题里
按文档类型生成问题：不同类型文档的问题生成规律不同
问题固定格式：特性文档用「什么是XX」，其他文档用「怎么XX」

效果：准确率从31%再次提升到40%！

虽然40%的准确率看起来还不够高，但已经比最初的13%提升了3倍，小范围试用之后，内部用户的负面反馈明显减少。

本篇小结

回顾第一阶段的优化，我们核心做了一件事：让向量库存储的内容更接近用户的问题。

但我也想强调：

这个方案之所以有效，是因为我们的数据分析显示「知识召回失败+问题匹配偏差」占了65%的问题。如果你的RAG系统问题分布不同，优化路径也会完全不同。

不存在RAG优化的「银弹」。

深入分析你的数据，才能找到属于你的优化路径。

下篇预告

第一阶段的优化让准确率达到了40%，但还有不少提升空间。

在下一篇文章中，我会分享：

如何避免不同技术栈的知识干扰
如何对关键词检索逻辑进一步调优

将准确率从40%提升到55%，记得关注不迷路。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～