GAIA-DataSet:面向AIOps研究的多模态运维数据资源库
【免费下载链接】GAIA-DataSetGAIA, with the full name Generic AIOps Atlas, is an overall dataset for analyzing operation problems such as anomaly detection, log analysis, fault localization, etc.项目地址: https://gitcode.com/gh_mirrors/ga/GAIA-DataSet
一、学术价值定位
GAIA-DataSet作为Generic AIOps Atlas的开源实现,构建了一个覆盖完整运维场景的数据研究框架。该数据集通过模拟企业级分布式系统的真实运行状态,提供了包含指标、日志、追踪数据在内的多模态运维记录,为异常检测算法评测、日志智能分析、故障根因定位等研究方向提供了标准化实验基准。其核心价值在于解决AIOps领域研究中缺乏标注完整、场景丰富的真实数据集这一关键瓶颈,支持从数据驱动角度推进运维智能化技术的学术探索与工业落地。
二、数据架构解析
2.1 基础数据层(MicroSS数据集)
2.1.1 指标时间序列数据
包含超六千五百个多维度指标,采用CSV格式存储,每条记录包含13位毫秒级时间戳与对应指标值。文件命名规范中嵌入节点标识、IP地址、指标名称及采集周期等元数据,支持按服务层级(基础设施/应用/业务)进行多粒度分析。适用算法包括:基于孤立森林的离群点检测、LSTM时间序列预测、STL分解的周期性分析等。
2.1.2 分布式追踪数据
结构化链路追踪记录包含时间戳、主机IP、服务标识、追踪ID、跨度关系、调用耗时等关键字段,完整呈现微服务架构下的请求流转路径。该数据适合图神经网络(GNN)的服务依赖关系建模,以及基于注意力机制的异常调用链识别算法研究。
2.1.3 业务操作日志
涵盖二维码登录场景的全流程业务处理记录,包含精确到秒级的时间戳、服务名称及详细操作描述。此类非结构化文本数据可用于训练日志模板提取算法(如Drain3改进版),以及基于BERT的业务异常语义识别模型开发。
2.1.4 系统运行记录
包含系统级日志与异常注入过程的完整记录,与业务日志采用统一格式规范但专注于底层运行状态。该数据支持研究系统异常传播规律,可结合因果推断算法(如DoWhy框架)构建故障影响范围评估模型。
2.2 增强数据集(Companion Data)
2.2.1 异常检测专用集
提供406组标注完整的指标异常样本(含279组带标签数据),覆盖七类典型时间序列模式:变化点数据(Changepoint)、概念漂移序列(Concept_drift)、线性趋势数据、低信噪比记录、部分平稳序列、周期性波动数据及阶梯式变化指标。支持对比评估不同检测算法在各类数据特性下的表现差异。
2.2.2 日志智能分析资源
包含218,736条标注日志数据,细分为三大研究方向:日志结构化解析(Log Parsing)、语义异常检测(Semantics Anomaly Detection)和命名实体识别(NER)。其中语义异常检测样本包含人工标注的异常类型标签,适合训练基于Prompt Learning的少样本异常识别模型。
2.3 数据采集方法论
采用三层采集架构:基础设施层通过Prometheus+Node Exporter采集系统指标;应用层部署SkyWalking实现分布式追踪;业务层开发专用日志采集Agent记录操作轨迹。异常注入采用控制变量法,在保持系统基线负载稳定的前提下,通过混沌工程手段引入网络延迟、资源耗尽、依赖故障等23类典型异常场景,同步记录异常注入时间、影响范围及恢复过程,构建完整的因果关系链。
三、学术应用指南
3.1 数据获取与预处理流程
3.1.1 数据集获取
git clone https://gitcode.com/gh_mirrors/ga/GAIA-DataSet3.1.2 数据解压规范
MicroSS目录下的分卷压缩文件需按序号合并解压(如metric_split.z01至metric_split.zip),推荐使用7-Zip工具的"合并分卷"功能处理。Companion Data提供独立压缩包,可直接解压使用。
3.2 典型研究场景实施建议
3.2.1 时间序列异常检测研究
推荐流程:
- 从metric_detection数据集中选取三类以上不同特性的时间序列(如周期性+低信噪比+阶梯式)
- 采用5折交叉验证对比主流算法性能(Isolation Forest/XGBoost/LSTM-AE)
- 重点关注F1值、精确率-召回率曲线及平均检测延迟三个评估维度
- 利用提供的标注异常点分析算法在不同异常模式下的表现差异
3.2.2 日志语义理解研究
实施步骤:
- 对business日志进行模板提取(推荐使用LenMa算法)
- 构建基于BiLSTM-CRF的日志实体识别模型,标注服务名/操作类型/错误码等关键实体
- 利用标注的异常日志数据训练语义分类器,区分语法错误/业务异常/资源不足等故障类型
- 通过混淆矩阵分析模型在相似异常描述上的分类效果
3.2.3 故障根因定位研究
实验设计:
- 关联分析trace数据与metric异常片段,构建服务调用图与指标影响矩阵
- 采用PageRank改进算法计算节点故障传播概率
- 使用run日志中的异常注入记录作为Ground Truth,评估根因定位准确率
- 对比基于规则推理与深度学习方法在定位精度与泛化能力上的差异
四、数据特性与局限说明
该数据集在保留企业级系统真实运维特征的同时,通过严格的数据脱敏处理保护商业隐私。主要局限在于:部分高 cardinality指标(如请求量)经过归一化处理,可能影响极端流量场景的算法评估;异常注入场景集中于二维码登录业务,对电商秒杀等峰值流量场景的覆盖不足。研究者在使用时应结合具体研究目标,适当补充领域相关的特定场景数据。
五、许可证与引用说明
数据集采用Apache 2.0开源许可协议,允许学术研究与商业应用中的数据使用、修改及二次分发。基于该数据集发表的学术论文,建议引用以下规范:"GAIA-DataSet: A Multimodal Operational Data Repository for AIOps Research, CloudWise-OpenSource, 2022." 完整许可条款参见项目根目录LICENSE文件。
通过提供标准化、多维度的运维数据资产,GAIA-DataSet为AIOps领域的学术研究搭建了数据互通的实验平台,推动从经验驱动向数据驱动的运维智能化技术跃迁。建议研究者关注数据集的持续更新(当前最新版本V1.10),以获取包含Zookeeper、Redis、MySQL等中间件监控数据的扩展样本。
【免费下载链接】GAIA-DataSetGAIA, with the full name Generic AIOps Atlas, is an overall dataset for analyzing operation problems such as anomaly detection, log analysis, fault localization, etc.项目地址: https://gitcode.com/gh_mirrors/ga/GAIA-DataSet
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考