RAG 知识库投毒攻击深度解析:从语料投毒到检索劫持的攻防实战
目录
- 前言
- 威胁模型与攻击面分析
- 攻击原理深度解析
- 核心攻防机制详解
- 技术优缺点与适用场景
- 实战落地
- 全文总结
- 本期专栏更新说明
- 参考资料
前言
- 核心威胁:RAG(Retrieval-Augmented Generation,检索增强生成)系统面临知识库投毒攻击的严峻挑战——攻击者仅需在百万级文档库中注入 5 个精心构造的恶意文档,即可达到 90% 以上的攻击成功率,实现检索劫持与生成操纵
- 适配人群:适合中高级 AI 安全工程师、RAG 系统架构师、MLOps/LLMOps 平台工程师以及对 AI 供应链安全感兴趣的红蓝队人员学习
- 收获能力:读完可掌握 RAG 知识库投毒攻击的完整攻击链路原理 + 嵌入反转与向量磁铁技术细节 + 纵深防御方案 + 可落地实践
- 安全态势:2025 年 OWASP 正式将"向量与嵌入弱点"(LLM08:2025)纳入 LLM 应用 Top 10 风险清单,USENIX Security 2025 发表的 PoisonedRAG 研究表明 RAG 系统的检索层存在系统性安全缺陷——而大多数企业至今仍未将知识库视为攻击面进行防护
RAG 已成为大模型应用的事实标准架构。从企业知识库问答、智能客服到 AI 辅助编程,RAG 无处不在。然而,安全团队的注意力长期集中在用户输入端——Prompt 注入检测、输入过滤、越狱防护——却忽视了另一个更隐蔽的信任边界:检索上下文。
用户查询被当作不可信输入层层设防,但从知识库检索到的文档却被隐式信任,直接注入 LLM 上下文窗口。这一"信任悖论"正是 RAG 系统最危险的攻击面。攻击者无需在推理时与系统交互,只需提前将恶意文档植入知识库,系统便会在未来的检索中自行将攻击载荷送入模型。本文将深入剖析这一攻击面,从威胁模型到攻击原理,从防御方案到实战落地,为读者呈现 RAG 知识库投毒攻击的完整攻防图景。
威胁模型与攻击面分析
RAG 系统的信任悖论
RAG 管线的核心流程可以概括为三步:摄入(Ingestion,文档嵌入并存入向量数据库)、检索(Retrieval,根据用户查询召回最相似文档)、生成(Generation,将检索结果与用户查询拼接送入 LLM)。
在这一流程中,存在两个数据进入 LLM 上下文的入口:
前门(Front Door)——同步攻击面:用户查询通道。攻击者通过构造恶意 Prompt 直接注入指令。这是安全团队最熟悉的攻击面,但攻击是瞬时的、单次性的——每次攻击只影响当前会话。
后门(Back Door)——异步/持久攻击面:知识库检索通道。攻击者将恶意内容提前植入向量数据库,系统在检索时自行将其作为"可信上下文"送入 LLM。攻击是异步的(注入与激活分离)、持久的(文档存留即持续影响)、可扩展的(一个投毒文档可影响无数用户的查询)。