Langchain-Chatchat如何设置问答结果的置信度显示？-开发者社区

Langchain-Chatchat 如何设置问答结果的置信度显示？

在企业级智能问答系统日益普及的今天，一个关键问题逐渐浮现：我们如何判断模型给出的答案是否可信？尤其是在使用大语言模型（LLM）处理私有知识库时，“幻觉”现象——即模型生成看似合理但事实错误的内容——已成为阻碍实际落地的主要障碍之一。

Langchain-Chatchat 作为基于 LangChain 框架构建的开源本地化知识库问答系统，提供了一种可行的解决方案。它不仅支持将 TXT、PDF、Word 等文档转化为可检索的知识源，还能通过向量数据库与本地 LLM 协同工作，在保障数据安全的前提下实现精准问答。而其中一项被广泛关注却常被忽视的功能，正是问答结果的置信度显示。

这并不是简单的“打个分”，而是融合了语义匹配、生成行为分析和多维度评估的技术实践。接下来，我们将从底层机制出发，深入探讨如何在 Langchain-Chatchat 中实现并优化这一功能。

向量检索：置信度的第一道防线

在 RAG（检索增强生成）架构中，回答的质量首先取决于能否找到正确的上下文。Langchain-Chatchat 使用嵌入模型（如 BGE、Sentence-BERT）将文本切片编码为高维向量，并存储于 FAISS、Chroma 等向量数据库中。当用户提问时，问题同样被向量化，并在向量空间中进行近似最近邻搜索。

这个过程的关键输出之一，就是每个召回文档附带的相似度得分——通常是余弦相似度或其变体。这个数值虽然简单，却是判断答案可靠性的第一层依据。

例如，当你问：“公司最新的差旅报销标准是什么？”如果最相关文档的相似度只有 0.3（假设范围为 0~1），那很可能意味着知识库中根本没有相关内容。此时即便模型给出了条理清晰的回答，也很可能是凭空编造。

from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh") vectorstore = FAISS.load_local("path/to/vectordb", embeddings, allow_dangerous_deserialization=True) query = "什么是Langchain-Chatchat？" docs_with_score = vectorstore.similarity_search_with_score(query, k=3) for doc, score in docs_with_score: print(f"内容: {doc.page_content}\n相似度得分: {score:.3f}\n")

这里similarity_search_with_score返回的score实际上是负余弦距离，因此越接近 0 表示越相似。我们可以将其归一化后作为初步置信指标：

retrieval_confidence = max(0, 1 + min(score for _, score in docs_with_score)) # 转换到 [0,1]

需要注意的是，不同嵌入模型的得分分布差异较大。比如 BGE 推荐以 0.6 作为有效匹配的阈值，而某些 Sentence-BERT 模型可能普遍偏低。因此，在实际部署中必须结合业务场景对阈值进行调优，甚至引入动态归一化策略。

此外，还可以考虑多个维度来丰富检索端的置信信号：
-Top-k 平均得分：避免单点依赖；
-得分差距（Gap）：最高分与次高分之差越大，说明匹配越明确；
-命中数量：多段一致内容可提升可信度；
-来源多样性：来自多个文档的相关片段更具说服力。

这些都可以作为后续融合模型的输入特征。

大语言模型生成：捕捉“内心”的不确定性

如果说向量检索告诉我们“有没有相关信息”，那么生成阶段则揭示了模型“对自己说的内容有多确定”。

遗憾的是，大多数闭源 API（如 GPT 系列）并不返回生成过程中的概率信息，使得我们无法直接评估其内在信心。但在 Langchain-Chatchat 支持的本地部署模型（如 ChatGLM、Qwen、Baichuan、InternLM）中，情况完全不同——开发者可以访问每一步 token 的 logits 输出，进而计算出一系列反映“不确定性”的指标。

最常见的方法是计算最大概率 token 的平均值，也称为“平均置信度”：

from transformers import AutoTokenizer, AutoModelForCausalLM import torch import numpy as np tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).eval() def calculate_confidence(logits): probs = [torch.softmax(logit, dim=-1) for logit in logits] max_probs = [torch.max(p).item() for p in probs] return np.mean(max_probs) def generate_with_confidence(prompt): inputs = tokenizer(prompt, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=128, output_scores=True, return_dict_in_generate=True ) logits = outputs.scores generated_ids = outputs.sequences[0][inputs.input_ids.size(1):] response = tokenizer.decode(generated_ids, skip_special_tokens=True) confidence = calculate_confidence(logits) return response, confidence prompt = "请根据以下内容回答：Langchain-Chatchat是一个基于LangChain的本地知识库问答系统。问：它的主要用途是什么？" response, conf = generate_with_confidence(prompt) print(f"回答: {response}") print(f"生成置信度: {conf:.3f}")

这里的confidence值介于 0 到 1 之间，越高表示模型在每一步选择 token 时越果断。低值则可能暗示模型在“犹豫”或“猜测”，常见于以下几种情况：
- 上下文模糊或矛盾；
- 问题本身存在歧义；
- 模型未充分训练此类任务。

另一种更敏感的指标是生成熵（Generation Entropy）：

def calculate_entropy(logits): entropies = [] for logit in logits: prob = torch.softmax(logit, dim=-1) entropy = -torch.sum(prob * torch.log(prob + 1e-9)) entropies.append(entropy.item()) return np.mean(entropies)

熵越高，表示概率分布越分散，模型越不确定。相比最大概率法，熵对细微变化更敏感，但也更容易受到噪声干扰。

当然，开启output_scores会带来一定的性能开销，尤其在长序列生成时显存占用明显上升。因此建议仅在需要置信度评估的场景启用该选项，或采用采样方式（如每隔几个 token 计算一次）来平衡效率与精度。

置信度融合：构建统一的可信评分体系

单独依赖检索得分或生成置信都有局限性。例如：
- 高相似度但上下文被误读，导致错误引用；
- 低相似度但模型凭借先验知识正确作答（跨领域推理）；
- 检索准确但生成混乱，输出无意义内容。

因此，真正的鲁棒性来自于两者的融合判断。

Langchain-Chatchat 允许通过自定义逻辑整合这两类信号，形成最终的综合置信度。一种常见的做法是加权平均：

def fuse_confidence(retrieval_score, generation_confidence, weights=(0.6, 0.4)): fused = weights[0] * min(retrieval_score, 1.0) + weights[1] * generation_confidence return round(fused, 3) def map_to_level(confidence): if confidence >= 0.75: return "高" elif confidence >= 0.5: return "中" else: return "低" # 示例 retrieval_sim = 0.82 gen_conf = 0.78 final_conf = fuse_confidence(retrieval_sim, gen_conf) level = map_to_level(final_conf) print(f"综合置信度: {final_conf} ({level})")

权重分配需根据具体应用场景调整：
- 对准确性要求极高的场景（如医疗、法务），应赋予检索更高权重；
- 若允许一定泛化能力（如客服问答），可适当提高生成侧比重；
- 在知识库尚不完善的初期阶段，也可临时降低检索门槛，防止“拒答”过多影响体验。

此外，还可以引入更多规则进行精细化控制：

if retrieval_score < 0.5: final_level = "低" # 明确无相关知识 elif generation_entropy > 2.0: final_level = "低" # 生成过程高度不确定 else: final_level = map_to_level(fuse_confidence(...))

这类规则引擎能有效拦截明显不可靠的回答，提升整体系统的稳健性。

可视化与用户体验设计

有了置信度评分，下一步是如何呈现给用户。在 Langchain-Chatchat 的 Web UI 中，可以通过多种方式实现友好展示：

颜色标识：绿色（高）、黄色（中）、红色（低）
图标提示：✔️ ✅ ⚠️ ❌
进度条/仪表盘式显示
悬浮 Tooltip 展示详细评分来源

例如，在前端组件中加入如下结构：

<div class="answer-block"> <p>{{ response }}</p> <div class="confidence-badge" :class="level"> {{ level }}置信度 </div> </div>

配合 CSS 样式控制视觉反馈，让用户一眼识别答案的可靠性等级。

更重要的是，应避免将数字本身作为唯一判断标准。很多用户并不理解“0.78”意味着什么，但他们能感知“这个答案看起来比较靠谱”。因此，建议结合文案引导，如：
- “高置信度：答案基于明确文档支持”
- “中置信度：部分内容可查证，建议核实”
- “低置信度：未找到直接依据，仅供参考”

这种解释性设计能显著提升人机交互的信任感与可用性。

实践建议与系统考量

在真实项目中实施置信度机制时，还需注意以下几个工程层面的问题：

性能权衡

启用 logits 输出会增加约 15%~30% 的推理时间和显存消耗。对于高并发场景，可考虑：
- 异步计算置信度（不影响主流程响应）；
- 仅对特定类型问题启用（如含“是否”、“依据”等关键词）；
- 缓存高频问题的置信评分。

降级策略

当使用远程 API 模型（无法获取 logits）时，可退化为仅依赖检索得分，或通过其他代理信号估算生成置信，如：
- 回答长度（过短可能表示拒绝回答）；
- 是否包含“可能”、“也许”等模糊词汇；
- 是否重复提问内容（回避式回应）。

运维价值

长期积累的置信度日志可用于反向优化系统：
- 统计低置信问题分布，发现知识盲区；
- 分析生成不稳定案例，优化 prompt 设计；
- 监控模型退化趋势，及时触发重训练。

结语

在 AI 助手逐步渗透到核心业务流程的当下，我们不能再满足于“能回答”，而必须追问一句：“它知道自己在说什么吗？”

Langchain-Chatchat 提供了一个极具潜力的平台，让我们可以在本地环境中构建具备“自我认知”能力的问答系统。通过向量检索得分与生成置信度的融合，不仅能有效识别潜在的误导性回答，也为用户决策提供了重要参考。

未来，随着更多细粒度信号的引入——如上下文覆盖率、引用溯源准确性、事实一致性校验——置信度评估将不再只是一个附加功能，而是成为智能系统可信性的基础设施。而这，正是 AI 从“工具”迈向“伙伴”的关键一步。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Langchain-Chatchat如何设置问答结果的置信度显示？