news 2026/3/29 7:24:16

使用 OpenTelemetry 和 Elastic Streams 进行 Windows 事件日志监控

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用 OpenTelemetry 和 Elastic Streams 进行 Windows 事件日志监控

作者:来自 Elastic David Hope

学习如何使用 OpenTelemetry 提升 Windows 事件日志监控,实现标准化摄取,并使用 Elastic Streams 进行智能分区和分析。

对于系统管理员和 SRE 来说,Windows 事件日志既是金矿也是坟场。它们包含诊断服务器崩溃或安全漏洞根本原因所需的关键数据,但常常被数 GB 的噪声掩盖。传统上,从这些日志中提取价值需要脆弱的正则解析器、手动规则创建以及大量人类直觉。

然而,日志管理的格局正在发生变化。通过将行业标准的 OpenTelemetry(OTel)摄取与 Elastic Streams 的 AI 驱动能力结合,我们可以改变 Windows 基础设施的监控方式。这种方法不仅仅是移动数据,我们还在使用大型语言模型(LLM)来理解数据。

传统 Windows 日志的挑战

Windows 会生成大量不同类型的日志:System、Security、Application、Setup 和 Forwarded Events。在这些类别中,又包含成千上万的 Event ID。历史上,将这些数据引入可观测性平台通常需要安装专有代理,并配置复杂的管道来剥离 XML 头并格式化消息。

一旦数据被摄取,就需要尝试识别“异常”。你必须提前知道 Event ID 7031 表示服务崩溃,然后为其编写特定警报。如果漏掉了某个 Event ID 或者格式发生变化,监控就会失效。

步骤 1:通过 OpenTelemetry 摄取

现代化此工作流的第一步是采用 OpenTelemetry。OTel collector 已经成熟,现在对 Windows 环境提供了稳健支持。通过直接在 Windows 服务器上安装 collector,可以配置接收器以接入事件日志子系统。

这种方法的优势在于标准化。你不会被锁定在特定厂商的传输代理中。OTel collector 充当通用路由器,抓取日志并将其发送到你的可观测性后端,在本例中,是为处理高吞吐流量设计的 Elastic logs 索引。

在此配置中需要关注的关键点是我们如何添加这个 transform 语句:

transform/logs-streams: log_statements: - context: resource statements: - set(attributes["elasticsearch.index"], "logs")

这适用于原生 OpenTelemetry collector,当数据到达 Elastic 时,它会告诉 Elastic 使用新的 wired streams 功能,从而启用我们在后续步骤中讨论的所有下游 AI 功能。

查看我的示例配置这里

步骤 2:AI 驱动分区

数据到达后,下一个挑战是组织。将所有 Windows 日志都倒入单个 logs-* 索引会导致查询缓慢和混乱。过去,我们基于硬编码字段拆分索引。现在,我们可以使用 AI 对数据进行“指纹识别”。

这个过程涉及分析传入的流以识别模式。系统会查看日志的结构和内容来确定其来源。例如,它可以仅根据数据形状区分 Windows Security Audit 日志和 Service Control Manager 日志。

结果是自动分区。系统为每种数据类型创建单独、优化的“桶”或流。你得到干净的关注点分离,Security 日志进入一个流,File Manager 日志进入另一个流,而无需编写任何条件路由规则。这种分区对于性能和流程的下一阶段 —— 分析 —— 至关重要。

步骤 3:重要事件与 LLM 分析

一旦你的数据被分区(例如进入专用的 Service Control Manager 流),你就可以应用 GenAI 模型分析该流的语义意义。

在传统设置中,系统只能看到文本字符串。在 AI 驱动的设置中,系统可以理解上下文。当 LLM 分析 Service Control Manager 流时,它能够识别该系统负责的内容。它知道这个特定组件管理系统服务的启动和停止。

因为模型理解了日志流的目的,它可以生成关于什么是 “重要事件” 的建议。它不需要你告诉它去查找崩溃;它知道对于 Service Manager 来说,崩溃是关键故障。

从被动存储到主动建议

该工作流有效地自动化了检测规则的创建。LLM 扫描日志并生成与该特定数据集相关的潜在问题列表,例如:

  • 服务崩溃:后台进程意外终止的高严重性异常。
  • 启动/引导失败:阻止操作系统达到稳定状态的关键错误。
  • 权限拒绝:与服务交互相关的安全事件。

它会将这些作为建议观察项提出。你可以查看潜在问题列表,看到 AI 分配给它们的严重性(例如,Critical、Warning),并通过一次点击生成查找这些日志所需的查询。

结论

将 OpenTelemetry 用于标准化摄取,结合 AI 驱动的 Streams 进行分析,将混乱的 Windows 日志洪流转化为结构化、可操作的情报源。我们正从 “记录一切,却什么都不看” 的时代,迈向工具能够像我们一样理解基础设施的时代。

有效监控的障碍不再是技术复杂性。无论你是在跟踪安全审计还是调试启动循环,利用 LLM 对流进行分区和分析,已成为可观测性的新的标准。

今天就试用 Streams

原文:https://www.elastic.co/observability-labs/blog/windows-event-monitoring-with-opentelemetry-and-elastic-streams

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 13:07:28

Yolov7模型训练指南:从环境搭建到最终应用

1. 环境搭建1.1 【 设备与系统配置 】我使用的设备配置为V100显卡双卡,总显存64GB,操作系统为Ubuntu 18.04,Python版本为3.7.10。在这样的环境下,我可以顺利地进行yolov7模型的训练。1.2 【 代码获取与准备 】在搭建好环境后&…

作者头像 李华
网站建设 2026/3/22 17:20:04

告别低效繁琐!千笔·专业降AI率智能体 VS 文途AI,研究生专属降AI率工具

在AI技术迅速渗透学术写作领域的当下,越来越多的研究生开始借助AI工具提升论文撰写效率。然而,随着各大查重系统对AI生成内容的识别能力不断升级,如何有效降低AI率、避免重复率超标,已成为众多学生面临的核心难题。面对市场上五花…

作者头像 李华
网站建设 2026/3/27 7:37:44

Golang构建AI智能体社交网络:MoltBook分布式架构实战

引言 2026年初,全球首个专为AI智能体设计的社交网络平台MoltBook在科技圈引发轰动。在短短48小时内,超过15万个AI智能体涌入平台,自发形成了上万个主题社区(Submolts),甚至诞生了名为"龙虾教"(Crustafarianism)的虚拟宗教。这一现象级实验不仅展示了AI群体自…

作者头像 李华
网站建设 2026/3/20 11:23:13

Transformer架构深度解析

🧠 Transformer架构深度解析:从“注意力”到“理解”的革命 Transformer架构是人工智能领域近十年来最具颠覆性的创新之一,它不仅是GPT、BERT等大语言模型的基石,更是推动了自然语言处理乃至整个深度学习范式的变革。其核心思想完全抛弃了传统的循环(RNN)和卷积(CNN)…

作者头像 李华
网站建设 2026/3/15 12:05:41

最近在折腾C#和欧姆龙PLC通信,发现网上完整的HostLink协议实现案例不多,自己啃手册写了套基础通信框架。直接上干货,先扔个读取DM区的代码

C#上位机与omron欧姆龙 Host Link通信串口通讯实例 源码 通过和PLC用串口连接,可以读取写入欧姆龙PLC的数据寄存器DM(批量也可以)、输入输出CIO、辅助继电器WR,H保持继电器等。 c#基于VS2015以上版本 // 串口配置 SerialPort sp new Serial…

作者头像 李华
网站建设 2026/3/28 11:45:50

使用Nginx搭配GeoIP2实现根据IP自动跳转国家站点

前言 在现代Web应用中,根据用户的地理位置提供不同的内容是一种常见的需求。本文将详细介绍如何使用Nginx和GeoIP2模块实现按国家或地区的智能路由的功能,我们可以实现更加精准的内容分发、个性化的用户体验和合规化的服务策略。 这里只实现了根据国家或…

作者头像 李华