Langchain-Chatchat构建电力行业规程查询系统案例-开发者社区

基于 Langchain-Chatchat 构建电力行业智能规程查询系统

在电力系统运行维护中，技术人员每天都要面对大量技术标准、安全规程和操作手册。比如《电力安全工作规程》这类文件动辄上百页，查找“高压设备停电检修的安全措施”可能需要翻阅多个章节，耗时且容易遗漏关键条文。更棘手的是，新员工培训周期长，经验传承依赖“师傅带徒弟”，而老专家退休后知识断层风险日益凸显。

有没有一种方式，能让一线运维人员像问人一样直接提问：“主变重瓦斯保护动作后能不能强送？”然后立刻得到准确、可溯源的回答？这正是Langchain-Chatchat正在解决的问题——它不是简单地把文档丢给大模型，而是构建了一个真正懂“电”的本地化 AI 助手。

从通用问答到专业理解：为什么不能直接用 ChatGPT 查安规？

很多人会问：既然现在有这么强大的大模型，为什么不直接让 GPT 或通义千问读一下 PDF 就行了？

答案是：不可控、不安全、不准。

首先，上传企业内部的《继电保护整定规范》到公有云 API，本身就违反了电力系统的三级等保要求；其次，通用模型对“五防闭锁”“三措两案”这类术语缺乏上下文理解，容易产生幻觉；最后，即使回答看似合理，你也无法确认它出自哪一版哪一条，出了问题责任难追。

真正的行业智能化，必须做到三点：
- 数据不出内网；
- 回答有据可依；
- 知识能持续更新。

而这正是 Langchain-Chatchat 的设计初衷。

它是怎么工作的？一个贴近实战的技术闭环

我们不妨设想这样一个场景：某地调值班员在夜班接到报警信号，想快速确认处置流程。他在内网浏览器输入：“GIS组合电器SF6压力低告警应如何处理？”

几秒钟后，系统返回：

“当GIS设备SF6气体压力低于额定值时，应立即检查是否存在泄漏，并启动补气程序。若压力继续下降至闭锁值，则禁止分合闸操作。详见《变电设备运维规程》第7.2.3条。”
——来源页码：P48, P51

这个过程背后，其实走完了一整套“检索增强生成”（RAG）链路。

第一步：让机器“读懂”你的文档

电力行业的文档格式多样，PDF居多，很多还是扫描件。Langchain-Chatchat 支持多种加载器（Document Loader），可以无缝接入.pdf,.docx,.txt甚至.pptx文件。

对于普通文本型 PDF，使用PyPDFLoader即可提取内容并保留页码信息；如果是图像扫描件，则需集成 OCR 模块（如 PaddleOCR 或 EasyOCR）先行识别文字。

from langchain.document_loaders import PyPDFLoader loader = PyPDFLoader("data/电力安全工作规程.pdf") pages = loader.load() # 每一页作为一个 Document 对象

每个Document都包含page_content和元数据（metadata），比如源文件名、页码等，这对后续结果溯源至关重要。

第二步：切片不是越小越好，关键是“不断句”

接下来要做的，是把长篇文档切成若干片段（chunk）。这里有个常见误区：为了提高召回率，把 chunk_size 设得很小，比如 100 字符。但这样做可能导致一句话被硬生生劈成两半，比如前一段说“必须验电”，后一段说“接地”，中间隔了个标题，模型就理解不了完整逻辑。

Langchain-Chatchat 推荐使用RecursiveCharacterTextSplitter，它会优先按语义边界分割：

from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", "。", "！", "？", "；", " ", ""] ) docs = text_splitter.split_documents(pages)

这种策略确保了段落完整性，尤其适合条款式文档。你可以把它想象成“智能断句器”——先看有没有空行，再看是不是句号结尾，实在不行才按字符硬切。

第三步：中文也能精准匹配，靠的是专用嵌入模型

切好之后，就要将每一块文本转化为向量。这里的关键词是：中文优化。

如果你用英文常用的all-MiniLM-L6-v2，面对“调度管辖范围”“同期合环”这样的术语，效果会大打折扣。Langchain-Chatchat 默认推荐使用智谱 AI 开发的BGE 系列模型，尤其是bge-small-zh-v1.5或bge-large-zh，它们在 MTEB-CN 中文评测榜单上长期领先。

from langchain.embeddings import HuggingFaceEmbeddings embedding_model = HuggingFaceEmbeddings( model_name="local_models/bge-small-zh-v1.5", model_kwargs={'device': 'cuda'} )

这些模型经过大规模中文语料训练，能更好捕捉“停电→验电→挂接地线”这样的操作序列关系，在向量空间中形成合理的语义聚类。

第四步：高效检索 + 安全生成，双引擎驱动答案输出

向量化后的 chunks 存入向量数据库，常用的是 FAISS（适合单机）、Chroma 或 Milvus（支持分布式）。当用户提问时，系统会：

将问题用相同的 embedding 模型转为向量；
在库中进行近似最近邻搜索（ANN），找出最相关的 top-k 片段（通常 k=3）；
把这些片段拼接成 prompt 上下文，送入本地部署的大模型生成最终回答。

from langchain.vectorstores import FAISS from langchain.chains import RetrievalQA from langchain.llms import ChatGLM vectorstore = FAISS.from_documents(docs, embedding_model) llm = ChatGLM( endpoint_url="http://localhost:8000", max_token=8192, temperature=0.1 ) qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=vectorstore.as_retriever(search_kwargs={"k": 3}), return_source_documents=True ) result = qa_chain({"query": "高压设备停电检修时必须采取哪些安全措施？"}) print("答案:", result["result"]) print("来源页码:", [doc.metadata['page'] for doc in result["source_documents"]])

整个过程完全在局域网内完成，无需联网调用任何外部服务。更重要的是，输出附带原文出处，实现了“每句话都有出处”的可信问答。

实际落地怎么搞？架构与工程考量

在一个地市供电公司的实际部署中，这套系统通常以如下形式存在：

[用户终端] ↓ (HTTP/WebSocket) [Web 前端界面] ←→ [Langchain-Chatchat 主服务] ↓ [文档管理模块] ↔ [向量数据库 FAISS/Milvus] ↓ [嵌入模型服务] [大模型推理服务] (BGE/ZhipuAPI) (ChatGLM/Qwen本地部署)

前端采用 Streamlit 或 Gradio 构建简易 Web 页面，非技术人员也能轻松上传新版本规程、测试问答效果。后端服务运行在内网服务器上，GPU 资源用于加速 embedding 和 LLM 推理。

工程实践中需要注意什么？

1. 分块策略要因文而异

条款类文档（如安规）：建议 chunk_size 控制在 300~500 字符，避免跨条款混淆；
图文混合文档（如继保图纸说明）：配合 OCR 提取图注信息，提升上下文完整性；
表格类内容：单独提取表格结构，转换为 Markdown 格式再嵌入，防止信息丢失。

2. 模型选型要考虑资源约束

若显存有限（<16GB），可选用 int8 量化版 BGE 模型或 GGUF 格式的 LLM（如 Qwen-7B-GGUF），在 RTX 3090 上即可流畅运行；
生产环境建议使用 TGI（Text Generation Inference）容器化部署，支持批量推理和负载均衡；
对响应速度要求高的场景，可用 vLLM 加速推理吞吐。

3. 权限控制与审计不能少

集成 LDAP/AD 认证，实现用户身份绑定；
所有查询记录日志留存，便于事后追溯；
设置敏感词过滤机制，防止恶意试探泄露知识库结构。

4. 知识更新必须自动化

配置定时任务监控文档目录变更，自动触发增量索引重建；
对重大修订（如新版《安规》发布），设置双版本共存期，过渡期内旧规仍可查但标注“已废止”；
支持版本对比功能，帮助用户快速掌握修改点。

解决了哪些真问题？来自一线的反馈

这套系统上线后，最直观的变化是：新人上手快了，老师傅轻松了，应急响应稳了。

传统痛点	新模式解决方案
查规程要翻半天 PDF	自然语言提问，秒级定位关键条文
新员工记不住操作流程	对话式交互引导学习，降低培训成本
规程版本混乱，引用出错	系统强制使用最新有效版本，自动归档旧版

有一次模拟演练中，值班员询问：“线路单相接地故障后能否强送？”系统迅速返回：“根据《调度运行规程》第4.6.1条，严禁对已知存在永久性故障的线路进行强送电。”并标注出处页码。这让指挥长当场点赞：“这才是我们想要的‘数字规程员’。”

还有个细节很有意思：有些老师傅习惯用方言口吻提问，比如“那个GIS柜子漏气了咋办？”系统居然也能准确理解意图，说明其语义泛化能力已经接近人类水平。