Guardrails(大模型护栏 / 防护栏),简单说就是:给 LLM/AI Agent 加一层 “安全 + 格式 + 合规” 的防护网,防止输出乱、有毒、幻觉、泄露隐私。
下面用大白话讲清楚:
一、它是什么?
- 字面:护栏、防护栏
- AI 语境:部署在 LLM 前后的校验 + 过滤层
- 核心定位:安全门 + 格式锁 + 合规闸
类比
- 没有 Guardrails:LLM 像脱缰野马,乱说、瞎编、漏隐私
- 有 Guardrails:给马路加护栏 ——不拦正常行驶,只防跑偏、坠崖、撞墙
二、解决什么问题?
- 防敏感泄露:拦截手机号、身份证、地址等 PII
- 防有害内容:暴力、色情、歧视、脏话、教唆犯罪
- 防格式混乱:强制输出 JSON/XML/ 固定字段,不乱写
- 防幻觉瞎编:强制回答忠于上下文 / 事实,不能胡扯
- 防 Prompt 注入:拦截 “忽略之前指令”“扮演某某” 等越狱攻击
- 合规审计:所有出入内容留日志,满足监管要求
三、怎么工作?(两个阶段)
1)输入防护(before 模型)
- 关键词 / 正则过滤:拦截敏感词、注入指令
- 轻量安全模型:判断输入是否恶意
- 脱敏:自动把手机号、身份证打码
2)输出防护(after 模型)
2)LangChain Guardrails
3)简单自建
五、和 LangSmith 的区别(你之前问过)
六、一句话总结
Guardrails = LLM 的安全护栏 + 格式约束器 + 合规过滤器,不限制能力,只防止闯祸,企业级 AI 应用必备。
- 格式校验:必须是合法 JSON、字段齐全、类型正确
- 内容审核:是否有毒、是否幻觉、是否偏离主题
- 事实核查:和知识库 / RAG 文档比对,防止瞎编
- 二次修正:不合格就重写、截断或拒绝回答
四、主流实现
1)NeMo Guardrails(最有名)
- NVIDIA 开源,支持 Colang 语言写规则
- 可定义:能说什么、不能说什么、怎么说
- 支持热更新、多轮对话、复杂流程
- LangChain 内置,中间件形式
- 开箱即用:PII 检测、内容过滤、输出校验
- 可自定义规则或接入外部安全模型
- 正则 + 关键词 + 小模型(如 LlamaGuard)
- 适合快速验证、轻量场景
- LangSmith:看过程、debug、追踪、评测(监控 + 日志)
- Guardrails:控内容、保安全、强格式、防越狱(防护 + 校验)
- 最佳组合:LangSmith 看 trace → Guardrails 做防护 → LangSmith 记录防护结果