news 2026/3/16 11:45:31

LLM+Jaccard相似度:构建智能故障案例匹配系统,让经验不再流失

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM+Jaccard相似度:构建智能故障案例匹配系统,让经验不再流失

文章介绍了一种结合大语言模型(LLM)和Jaccard相似度计算实现故障案例智能匹配的方案。通过LLM将具体故障信息抽象为服务角色和告警类型,再利用Jaccard相似度计算故障间的相似性,从而快速定位相似历史案例。该方案解决了历史经验难以复用的问题,新人也能借助历史经验处理故障,实现了秒级定位相似案例,提高了故障处理效率。


一、问题:历史经验难以复用

每次故障发生,你是否有这样的感觉:

“这个问题好像之前遇到过…” “上次是怎么解决的来着?” “要是能自动找到类似的历史案例就好了”

我们积累了大量故障处置记录,但每次还是靠人工回忆、翻找文档。历史经验就像散落的珍珠,缺少一根线把它们串起来。

本文介绍一种简单有效的方案:用 LLM 理解故障特征,用 Jaccard 计算相似度,实现故障案例的智能匹配。


二、核心思路

2.1 两个角色,各司其职

为什么需要 LLM?因为直接用服务名匹配,几乎不可能找到相似案例——你的系统有上百个服务,两次故障涉及完全相同服务的概率太低了。

为什么需要 Jaccard?因为它简单、快速、可解释。“这两个故障有 80% 的特征重叠”,谁都能理解。

2.2 Jaccard 相似度

一句话解释:两个集合的交集除以并集。

集合 A = {苹果, 香蕉, 橙子}集合 B = {苹果, 香蕉, 葡萄}交集 = {苹果, 香蕉} = 2 个并集 = {苹果, 香蕉, 橙子, 葡萄} = 4 个Jaccard 相似度 = 2 ÷ 4 = 0.5

三、关键一步:LLM 特征抽象

3.1 为什么要抽象?

看这个例子:

故障 A:order-service + payment-service + mysql-master 出问题故障 B:user-service + product-service + mysql-slave 出问题直接用服务名计算 Jaccard = 0(没有交集)但实际上,这两个故障本质相同:都是"数据库问题影响了应用层"

抽象后

故障 A 角色:{应用层, 数据库}故障 B 角色:{应用层, 数据库}Jaccard = 1.0(完全匹配!)

3.2 用 LLM 做角色推断

我们定义 7 种服务角色:

角色典型代表
Gatewaynginx、kong、api-gateway
Application各类业务服务
DatabaseMySQL、MongoDB、PostgreSQL
CacheRedis、Memcached
MessageQueueKafka、RabbitMQ
MiddlewareES、ZK、Nacos
Infra监控、日志等运维组件

LLM 推断的 Prompt 示例

请根据以下信息判断服务的角色类型。 服务信息: - 服务名称:{service_name} - 最近告警:{recent_alerts} - 服务描述:{service_description} 可选角色: 1. Gateway - 流量入口(网关、负载均衡) 2. Application - 业务应用服务 3. Database - 数据库(MySQL、MongoDB等) 4. Cache - 缓存(Redis、Memcached等) 5. MessageQueue - 消息队列(Kafka、RabbitMQ等) 6. Middleware - 中间件(ES、ZK、Nacos等) 7. Storage - 存储服务 8. Infra - 基础设施组件 请输出: { "role": "角色名称", "confidence": 0.0-1.0 之间的置信度, "reason": "判断依据" } ───────────────────────────────────────────────────────────────────────── 示例输出: 输入: 服务名称:order-mysql-master 服务描述:MySQL 数据库集群(主) 最近告警:slow_query_time > 1s, connection_count > 80% 输出: { "role": "Database", "confidence": 0.95, "reason": "服务名包含mysql,端口3306是MySQL默认端口,告警为数据库典型告警,拓扑位置为叶子节点且被多服务调用" }

3.3 告警类型分类

同样用 LLM 将告警抽象为 5 种类型:

类型说明典型告警
Resource资源类CPU高、内存满、连接池耗尽
Latency延时类超时、慢查询、响应慢
Error错误类5xx、异常、失败率
Availability可用性宕机、不可达
Capacity容量类队列积压、流量超限

四、匹配流程

4.1 完整流程

4.2 计算示例

当前故障

  • 角色集合:{Application, Database}
  • 类型集合:{Resource, Latency, Error}

历史案例 A

  • 角色集合:{Application, Database}
  • 类型集合:{Resource, Latency}

计算

角色相似度 = 2/2 = 1.0类型相似度 = 2/3 = 0.67服务名相似度 = 0(不同服务)综合得分 = 0.5×1.0 + 0.3×0.67 + 0.2×0 = 0.70

相似度 0.70,推荐为参考案例。


五、工程实践要点

5.1 LLM 调用优化

策略说明
存储服务角色推断结果存DB,避免重复调用
批量新服务批量推断,减少 API 调用

5.2 阈值建议

相似度建议
≥ 0.8高度相似,直接参考处置方案
0.6-0.8中度相似,作为诊断参考
< 0.6相似度低,仅供了解

六、总结

一句话概括:用 LLM 把"具体"变成"抽象",用 Jaccard 把"抽象"变成"相似度"。

核心价值

  • 历史经验不再依赖人工回忆
  • 秒级定位相似案例
  • 新人也能借助历史经验处理故障

这个方案的妙处在于:LLM 和 Jaccard 各取所长——LLM 有理解能力但计算慢,Jaccard 计算快但不懂语义,两者结合刚刚好。


AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线


03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 21:54:40

30岁转行AI大模型:零基础入门、实战项目与面试全攻略,刚好赶上风口!非常详细收藏我这一篇就够

文章讲述作者30岁从传统行业转行AI大模型的经历。他通过自学Python、机器学习及深度学习&#xff0c;专攻Transformer架构和大模型微调&#xff0c;开发项目积累实战经验。半年后成功获得AI算法工程师职位&#xff0c;薪资提升50%。文章强调AI大模型领域人才缺口和就业前景&…

作者头像 李华
网站建设 2026/3/15 21:52:46

计算机Java毕设实战-基于springboot的高校毕业生就业信息管理系统基于springboot的毕业生就业系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/3/15 8:10:07

全网最全专科生必备AI论文工具TOP10

全网最全专科生必备AI论文工具TOP10 2026年专科生AI论文工具测评&#xff1a;为何需要一份精准榜单&#xff1f; 随着人工智能技术的不断进步&#xff0c;越来越多的专科生开始借助AI工具提升论文写作效率。然而&#xff0c;面对市场上五花八门的AI论文工具&#xff0c;如何选…

作者头像 李华
网站建设 2026/3/15 8:02:20

我把测试报告嵌入PR评论,开发打开就能看结果

测试报告嵌入PR评论的价值与背景 在敏捷开发和DevOps实践中&#xff0c;Pull Request&#xff08;PR&#xff09;是代码审查的核心环节。传统测试报告往往以附件或外部链接形式存在&#xff0c;导致开发者需切换上下文查看结果&#xff0c;降低效率。将测试报告直接嵌入PR评论…

作者头像 李华
网站建设 2026/3/15 8:02:30

‌TestOps实战:如何让测试不再“拖后腿”

测试不再是“守门员”&#xff0c;而是“交付加速器”‌ 在2026年的软件交付体系中&#xff0c;测试团队若仍依赖手动回归、Excel用例、孤立环境&#xff0c;将不可避免地成为交付瓶颈。‌TestOps的本质&#xff0c;是通过文化重塑、工具智能化与流程自动化&#xff0c;将测试…

作者头像 李华