敏感词库自定义配置：LobeChat内容安全控制-开发者社区

敏感词库自定义配置：LobeChat内容安全控制

在企业开始将大语言模型（LLM）深度集成到客服、知识问答甚至内部协作系统中的今天，一个看似简单却极为关键的问题浮出水面：如何防止AI说出不该说的话？

想象这样一个场景：某金融机构的智能助手被用户提问“如何伪造财务报表”，如果模型未经任何过滤直接作答，哪怕只是理论性描述，也可能引发严重的合规风险。这并非危言耸听——2023年国内某银行试点项目就因类似问题被迫暂停上线。正是这类现实挑战推动了本地化内容安全机制的发展，而敏感词库自定义配置正成为构建可信AI交互系统的基石。

LobeChat 作为近年来广受开发者青睐的开源聊天框架，不仅提供了媲美商业产品的用户体验，更在安全性设计上展现出前瞻性。它允许团队在不依赖外部审核服务的前提下，通过轻量级关键词过滤实现对输入输出的双向管控。这种“本地优先”的思路，既规避了数据外传的隐私隐患，又保证了毫秒级响应，特别适合对合规性和性能都有严苛要求的私有部署环境。

这套机制的核心并不复杂：系统启动时加载一组预设关键词，当用户输入或模型回复中出现匹配项时，立即触发拦截、替换或告警等策略。但真正体现工程价值的，是其背后的实现细节与灵活扩展能力。

以最基础的文本扫描为例，许多初学者会采用简单的includes()或正则遍历方式，但在实际生产环境中，面对上千个敏感词和高并发请求，这种做法极易造成性能瓶颈。LobeChat 的实践表明，合理的算法选择至关重要。对于小规模词库（<5000词），使用预编译的多模式正则表达式即可满足需求；而当词库膨胀至万级，Aho-Corasick 自动机则能显著降低时间复杂度，实现接近 O(n) 的线性匹配效率。

// middleware/sensitiveWordFilter.js const fs = require('fs'); const path = require('path'); // 加载敏感词库（每行一个词） const SENSITIVE_WORDS = fs.readFileSync( path.join(__dirname, '../config/sensitive_words.txt'), 'utf-8' ) .split('\n') .map(word => word.trim()) .filter(Boolean); // 构建正则表达式（支持部分模糊匹配） const SENSITIVE_REGEX = new RegExp( SENSITIVE_WORDS.map(word => word.replace(/[\*\?\+\.\(\)\[\]\{\}\\]/g, '\\$&') // 转义特殊字符 ).join('|'), 'gi' ); /** * 敏感词过滤中间件 * @param {string} text - 待检测文本 * @returns {{ isBlocked: boolean, matchedWords: string[] }} */ function filterSensitiveContent(text) { const matchedWords = []; let match; // 执行全局匹配 while ((match = SENSITIVE_REGEX.exec(text)) !== null) { matchedWords.push(match[0]); } return { isBlocked: matchedWords.length > 0, matchedWords: [...new Set(matchedWords)], // 去重 censoredText: text.replace(SENSITIVE_REGEX, '***') // 替换为星号 }; } module.exports = { filterSensitiveContent, SENSITIVE_WORDS };

上面这段 Node.js 中间件代码模拟了 LobeChat 后端可能采用的过滤逻辑。值得注意的是，正则构造过程中对特殊字符进行了转义处理，避免因词库中包含.、*等元字符而导致语法错误。同时使用gi标志确保大小写不敏感且全局匹配，提升了实用性。返回结果不仅包含是否拦截的布尔值，还提供命中词汇列表和脱敏后文本，便于后续做日志记录或分级响应。

该中间件可在 API 入口处无缝接入：

// routes/chat.js const express = require('express'); const { filterSensitiveContent } = require('../middleware/sensitiveWordFilter'); const router = express.Router(); router.post('/v1/chat', (req, res) => { const { messages } = req.body; // 检查最后一条用户输入 const userInput = messages[messages.length - 1]?.content || ''; const checkResult = filterSensitiveContent(userInput); if (checkResult.isBlocked) { return res.status(400).json({ error: '内容包含敏感词汇', blockedWords: checkResult.matchedWords, suggestion: '请修改您的输入后重试' }); } // 继续调用 LLM 接口... // simulateLLMCalls(userInput).then(response => { // const outputCheck = filterSensitiveContent(response); // if (outputCheck.isBlocked) { // response = outputCheck.censoredText; // } // res.json({ response }); // }); });

在这里，我们先对用户输入进行校验，一旦发现如“炸药”、“翻墙”等高危词汇，立即返回 400 错误并中断流程，从根本上杜绝恶意 Prompt 注入的风险。而在真实部署中，建议进一步增加对模型输出的二次检查，形成闭环防御。例如某些诱导性指令可能导致模型输出违规内容，仅靠输入过滤无法完全覆盖。

LobeChat 的优势在于，它并未将这一功能硬编码进核心逻辑，而是通过插件系统开放接口，让开发者可以自由定制行为。以下是一个典型的插件实现：

// plugins/sensitive-filter.plugin.ts import { Plugin } from 'lobe-chat'; const SensitiveWordPlugin: Plugin = { name: 'sensitive-word-filter', displayName: '敏感词过滤插件', description: '自动检测并拦截包含敏感词汇的输入与输出', async onUserMessage(input: string): Promise<string | undefined> { const blocked = containsSensitiveWord(input); if (blocked) { throw new Error(`您输入的内容包含敏感词：“${blocked}”，已被系统拦截`); } return input; }, async onModelResponse(output: string): Promise<string> { const result = filterSensitiveContent(output); if (result.isBlocked) { console.warn(`模型输出包含敏感词：${result.matchedWords.join(', ')}`); return result.censoredText; // 自动脱敏后返回 } return output; }, }; function containsSensitiveWord(text: string): string | false { for (const word of SENSITIVE_WORDS) { if (text.includes(word)) return word; } return false; } export default SensitiveWordPlugin;

利用onUserMessage和onModelResponse两个钩子，插件能够分别干预用户输入和模型输出两个关键节点。前者通过抛出异常阻断请求流，后者则可静默替换敏感内容，提升交互体验。更重要的是，这种模块化设计使得团队可以轻松切换不同的审核策略——比如在测试环境中关闭过滤，在生产环境中启用严格模式，或者集成更高级的 NLP 审核模型。

从架构视角看，敏感词过滤层应位于 LobeChat 后端与模型网关之间，确保所有流量必经审查：

[用户浏览器] ↓ HTTPS [ LobeChat 前端 (Next.js) ] ↓ API 请求 [ LobeChat 后端 (Node.js Server) ] ├── [敏感词过滤中间件] ←─── 自定义词库配置 └── [模型网关] → 转发至本地/远程 LLM ↓ [大语言模型服务]

这样的分层设计带来了几个关键好处：一是逻辑集中，避免前端绕过；二是便于统一管理词库版本，可通过 GitOps 实现配置变更的审计追踪；三是支持热更新，修改.txt文件后无需重启服务即可生效。

当然，在落地过程中也需要权衡一些实际问题。比如医学场景下，“癌症”一词虽属敏感范畴，但在专业讨论中却是必要术语。若简单粗暴地全部屏蔽，反而会影响正常使用。因此，最佳实践是引入白名单机制或结合上下文语义判断。初期可采用“精确匹配 + 分类分级”策略，将敏感词划分为政治、色情、暴力、广告等多个类别，并为每类设置不同响应等级：

轻度敏感（如营销话术）：仅替换显示内容为“***”
中度敏感（如歧视性用语）：弹窗警告并要求确认
高危敏感（如违法信息）：直接拒绝并临时封禁会话

同时，务必开启详细的日志记录，包括时间戳、IP 地址、命中的关键词片段等，以便事后审计。这些数据不仅能用于安全复盘，还可帮助持续优化词库准确性，减少误杀。

横向对比来看，虽然市面上存在不少第三方内容审核 API，但它们往往伴随着高昂成本、网络延迟和数据泄露风险。相比之下，LobeChat 的本地方案在响应速度（通常 <10ms）、隐私保护和可控性方面具有压倒性优势：

对比维度	本地敏感词库方案（LobeChat）	第三方审核服务
响应延迟	极低（<10ms）	较高（50~500ms 网络往返）
数据隐私	完全本地处理，不上传任何内容	存在数据外泄风险
成本	零费用	按调用量计费
可控性	用户完全掌控词库与策略	受限于服务商策略
自定义灵活性	支持任意关键词、正则、分类分级	通常仅提供固定标签

尤其对于金融、医疗、政务等强监管行业，这种“数据不出内网”的能力几乎是刚需。而 LobeChat 凭借其 Docker 一键部署、TypeScript 工程化架构和活跃的社区生态，已成为构建企业级 AI 助手平台的理想起点。

回望整个技术路径，从最初的关键词匹配到未来的语义级防护，内容安全的演进方向清晰可见。尽管基于大模型的意图识别、情感分析等高级手段正在兴起，但本地敏感词库因其简单高效、零依赖的特点，仍将是绝大多数场景下的第一道防线。它的真正价值不在于多么智能，而在于足够可靠——在一个不确定的时代，让每一次对话都在可控范围内发生，或许才是对用户最大的负责。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

敏感词库自定义配置：LobeChat内容安全控制

敏感词库自定义配置：LobeChat内容安全控制

别再问 “要不要做等保” 了！一文讲清合规要求与企业风险

GraniStudio零代码平台如何使用快速创建算子功能？

学网络安全要学历吗？

DAY 40 Dataset类和Dataloader类

视觉盛宴：鸿蒙Canvas/Animation与Flutter CustomPaint的深度协同

钉钉机器人网关接入LobeChat对外服务能力