SkyWalking监控数据导入Prometheus：从入门到实战的完整指南-开发者社区

SkyWalking监控数据导入Prometheus：从入门到实战的完整指南

【免费下载链接】skywalkingAPM, Application Performance Monitoring System项目地址: https://gitcode.com/gh_mirrors/sky/skywalking

你是否正在为微服务架构下的监控数据整合而烦恼？是否需要将SkyWalking的APM数据与Prometheus的时序分析能力结合，构建统一的可观测性平台？本文将从零开始，手把手教你如何通过Telemetry模块和PromQL插件实现SkyWalking监控数据向Prometheus的标准化导入。

通过本文，你将掌握：

SkyWalking与Prometheus数据集成的两种核心方案
Telemetry指标导出的完整配置流程
PromQL查询适配与数据格式转换技巧
高可用部署架构设计与性能调优参数

快速上手：5分钟完成基础配置

环境准备与项目获取

首先克隆SkyWalking项目到本地：

git clone https://gitcode.com/gh_mirrors/sky/skywalking cd skywalking

基础Telemetry配置

修改核心配置文件oap-server/server-starter/src/main/resources/application.yml：

telemetry: selector: ${SW_TELEMETRY:prometheus} prometheus: host: ${SW_TELEMETRY_PROMETHEUS_HOST:0.0.0.0} port: ${SW_TELEMETRY_PROMETHEUS_PORT:1234} metricsPath: ${SW_TELEMETRY_PROMETHEUS_METRICS_PATH:/metrics} scheduleDelay: ${SW_TELEMETRY_PROMETHEUS_SCHEDULE_DELAY:30}

验证配置效果

启动OAP服务器后，访问http://localhost:1234/metrics即可看到Prometheus格式的监控指标：

# HELP jvm_memory_used_bytes Current memory usage of JVM # TYPE jvm_memory_used_bytes gauge jvm_memory_used_bytes{area="heap",service="oap-server"} 1.2582912e+08

核心功能详解：两种集成方案对比

方案一：Telemetry原生导出（推荐新手）

实现原理：OAP服务器内置指标收集器，直接暴露Prometheus格式的HTTP端点。

配置步骤：

确保SW_TELEMETRY=prometheus环境变量已设置
配置Prometheus采集任务
验证指标数据完整性

优势：

配置简单，开箱即用
性能开销小
与SkyWalking深度集成

方案二：PromQL插件（适合高级用户）

实现原理：通过PromQL插件实现Prometheus Query API兼容接口。

启用配置：

promql: selector: ${SW_PROMQL:default} default: restHost: ${SW_PROMQL_REST_HOST:0.0.0.0} restPort: ${SW_PROMQL_REST_PORT:9090}

实际应用场景：生产环境配置

Docker环境部署

在docker/docker-compose.yml中添加OAP服务配置：

services: oap: image: apache/skywalking-oap-server:9.7.0 environment: - SW_TELEMETRY=prometheus - SW_TELEMETRY_PROMETHEUS_PORT=1234 - SW_TELEMETRY_PROMETHEUS_SCHEDULE_DELAY=30 ports: - "1234:1234"

Prometheus采集配置

创建prometheus.yml配置文件：

scrape_configs: - job_name: 'skywalking-oap' scrape_interval: 30s static_configs: - targets: ['oap-server:1234'] relabel_configs: - source_labels: [__address__] target_label: instance

问题排查指南：常见错误及解决方案

问题1：指标无法访问

症状：访问/metrics端点返回404或连接拒绝。

排查步骤：

检查OAP服务器是否正常运行
验证Telemetry配置是否正确启用
确认防火墙和端口配置

解决方案：

# 检查OAP进程 ps aux | grep oap # 验证端口监听 netstat -tlnp | grep 1234

问题2：数据延迟过大

症状：Prometheus中显示的指标数据有明显延迟。

优化方案：

调整SW_TELEMETRY_PROMETHEUS_SCHEDULE_DELAY=20
优化存储批量写入参数

问题3：指标重复或标签冲突

症状：同一个指标在Prometheus中出现多次。

解决方案：

在application.yml中统一设置clusterName
检查OAP集群节点配置

进阶使用技巧：提升监控效率

自定义指标聚合

通过OAL脚本定义业务监控指标：

// 在 oap-server/oal-grammar/ 中定义自定义指标 service_success_rate = from(Service.*).percent(status == true);

告警规则配置

在Prometheus中配置针对SkyWalking指标的告警：

groups: - name: skywalking_alerts rules: - alert: HighErrorRate expr: sum(rate(service_error_count_total[5m])) by (service) > 0.05

性能调优参数

参数	推荐值	说明
SW_TELEMETRY_PROMETHEUS_SCHEDULE_DELAY	30	指标采集周期
SW_CORE_MAX_SIZE_OF_BATCH_SQL	2000	存储批量写入大小
prometheus.scrape_interval	30s	抓取间隔

版本兼容性与升级指南

当前版本兼容性

SkyWalking 9.x 版本内置Prometheus支持
Prometheus 2.40.x+ 版本完全兼容
支持Grafana 9.x+ 版本数据源

升级注意事项

从8.x升级到9.x时的主要变更：

Telemetry配置路径调整
PromQL插件端口变更（12800 → 9090）

最佳实践总结

关键配置清单

必选配置：

SW_TELEMETRY=prometheus
Prometheus正确配置采集任务
网络连通性验证

性能优化建议：

对高频指标使用rate()函数降采样
复杂查询使用Recording Rule预计算
大规模部署启用指标联邦采集

部署建议

测试环境先验证配置
生产环境逐步灰度发布
监控OAP自身健康状态
配置指标保留策略

通过本文的完整指南，你可以快速搭建SkyWalking与Prometheus的监控数据通道，实现从应用性能监控到全局可观测性的无缝衔接。建议从测试环境开始，按照步骤逐一验证，确保每个环节都正常工作后再部署到生产环境。

【免费下载链接】skywalkingAPM, Application Performance Monitoring System项目地址: https://gitcode.com/gh_mirrors/sky/skywalking

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

SkyWalking监控数据导入Prometheus：从入门到实战的完整指南