LLM+Jaccard相似度：构建智能故障案例匹配系统，让经验不再流失-开发者社区

文章介绍了一种结合大语言模型(LLM)和Jaccard相似度计算实现故障案例智能匹配的方案。通过LLM将具体故障信息抽象为服务角色和告警类型，再利用Jaccard相似度计算故障间的相似性，从而快速定位相似历史案例。该方案解决了历史经验难以复用的问题，新人也能借助历史经验处理故障，实现了秒级定位相似案例，提高了故障处理效率。

一、问题：历史经验难以复用

每次故障发生，你是否有这样的感觉：

“这个问题好像之前遇到过…” “上次是怎么解决的来着？” “要是能自动找到类似的历史案例就好了”

我们积累了大量故障处置记录，但每次还是靠人工回忆、翻找文档。历史经验就像散落的珍珠，缺少一根线把它们串起来。

本文介绍一种简单有效的方案：用 LLM 理解故障特征，用 Jaccard 计算相似度，实现故障案例的智能匹配。

二、核心思路

2.1 两个角色，各司其职

为什么需要 LLM？因为直接用服务名匹配，几乎不可能找到相似案例——你的系统有上百个服务，两次故障涉及完全相同服务的概率太低了。

为什么需要 Jaccard？因为它简单、快速、可解释。“这两个故障有 80% 的特征重叠”，谁都能理解。

2.2 Jaccard 相似度

一句话解释：两个集合的交集除以并集。

集合 A = {苹果, 香蕉, 橙子}集合 B = {苹果, 香蕉, 葡萄}交集 = {苹果, 香蕉} = 2 个并集 = {苹果, 香蕉, 橙子, 葡萄} = 4 个Jaccard 相似度 = 2 ÷ 4 = 0.5

三、关键一步：LLM 特征抽象

3.1 为什么要抽象？

看这个例子：

故障 A：order-service + payment-service + mysql-master 出问题故障 B：user-service + product-service + mysql-slave 出问题直接用服务名计算 Jaccard = 0（没有交集）但实际上，这两个故障本质相同：都是"数据库问题影响了应用层"

抽象后：

故障 A 角色：{应用层, 数据库}故障 B 角色：{应用层, 数据库}Jaccard = 1.0（完全匹配！）

3.2 用 LLM 做角色推断

我们定义 7 种服务角色：

角色	典型代表
Gateway	nginx、kong、api-gateway
Application	各类业务服务
Database	MySQL、MongoDB、PostgreSQL
Cache	Redis、Memcached
MessageQueue	Kafka、RabbitMQ
Middleware	ES、ZK、Nacos
Infra	监控、日志等运维组件

LLM 推断的 Prompt 示例：

请根据以下信息判断服务的角色类型。 服务信息： - 服务名称：{service_name} - 最近告警：{recent_alerts} - 服务描述：{service_description} 可选角色： 1. Gateway - 流量入口（网关、负载均衡） 2. Application - 业务应用服务 3. Database - 数据库（MySQL、MongoDB等） 4. Cache - 缓存（Redis、Memcached等） 5. MessageQueue - 消息队列（Kafka、RabbitMQ等） 6. Middleware - 中间件（ES、ZK、Nacos等） 7. Storage - 存储服务 8. Infra - 基础设施组件 请输出： { "role": "角色名称", "confidence": 0.0-1.0 之间的置信度, "reason": "判断依据" } ───────────────────────────────────────────────────────────────────────── 示例输出： 输入： 服务名称：order-mysql-master 服务描述：MySQL 数据库集群(主) 最近告警：slow_query_time > 1s, connection_count > 80% 输出： { "role": "Database", "confidence": 0.95, "reason": "服务名包含mysql，端口3306是MySQL默认端口，告警为数据库典型告警，拓扑位置为叶子节点且被多服务调用" }

3.3 告警类型分类

同样用 LLM 将告警抽象为 5 种类型：

类型	说明	典型告警
Resource	资源类	CPU高、内存满、连接池耗尽
Latency	延时类	超时、慢查询、响应慢
Error	错误类	5xx、异常、失败率
Availability	可用性	宕机、不可达
Capacity	容量类	队列积压、流量超限

四、匹配流程

4.1 完整流程

4.2 计算示例

当前故障：

角色集合：{Application, Database}
类型集合：{Resource, Latency, Error}

历史案例 A：

角色集合：{Application, Database}
类型集合：{Resource, Latency}

计算：

角色相似度 = 2/2 = 1.0类型相似度 = 2/3 = 0.67服务名相似度 = 0（不同服务）综合得分 = 0.5×1.0 + 0.3×0.67 + 0.2×0 = 0.70

相似度 0.70，推荐为参考案例。

五、工程实践要点

5.1 LLM 调用优化

策略	说明
存储	服务角色推断结果存DB，避免重复调用
批量	新服务批量推断，减少 API 调用

5.2 阈值建议

相似度	建议
≥ 0.8	高度相似，直接参考处置方案
0.6-0.8	中度相似，作为诊断参考
< 0.6	相似度低，仅供了解

六、总结

一句话概括：用 LLM 把"具体"变成"抽象"，用 Jaccard 把"抽象"变成"相似度"。

核心价值：

历史经验不再依赖人工回忆
秒级定位相似案例
新人也能借助历史经验处理故障

这个方案的妙处在于：LLM 和 Jaccard 各取所长——LLM 有理解能力但计算慢，Jaccard 计算快但不懂语义，两者结合刚刚好。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

LLM+Jaccard相似度：构建智能故障案例匹配系统，让经验不再流失