保姆级教程：用Prometheus+AlertManager给服务器CPU、内存、磁盘设置监控告警（附完整rules配置）-开发者社区

从零构建企业级服务器监控告警系统：Prometheus+AlertManager实战指南

在数字化转型浪潮中，服务器稳定性直接关系到业务连续性。想象一下这样的场景：凌晨三点，数据库服务器CPU突然飙升至95%，而值班人员却毫不知情，直到早晨用户投诉如潮水般涌来——这样的运维噩梦完全可以通过合理的监控告警系统避免。本文将手把手带您搭建基于Prometheus和AlertManager的智能监控体系，不仅覆盖CPU、内存、磁盘等基础指标，更会深入探讨如何根据业务特性定制告警阈值，让您从被动救火转向主动防御。

1. 环境准备与架构解析

1.1 核心组件角色定位

现代监控系统通常采用分层架构设计，各组件各司其职：

组件	职责	关键特性
Node Exporter	采集主机指标	支持900+指标，模块化采集
Prometheus	指标存储+告警规则评估	多维数据模型，PromQL强大查询语言
AlertManager	告警去重、分组、路由及通知	支持静默、抑制等高级特性
Grafana	数据可视化（可选）	丰富的仪表盘模板，支持告警集成

1.2 安装验证基础服务

确保已正确部署Prometheus和Node Exporter，可通过以下命令快速验证：

# 检查Node Exporter指标暴露 curl http://localhost:9100/metrics | grep node_cpu_seconds_total # 验证Prometheus抓取配置 curl -X POST http://localhost:9090/-/reload # 热加载配置

提示：生产环境建议将Node Exporter配置为systemd服务，并启用自动重启机制

2. 告警规则深度定制实战

2.1 规则文件结构解剖

创建/etc/prometheus/rules/host.rules文件，其采用YAML格式组织告警规则：

groups: - name: host-monitoring rules: - alert: HostHighCPU expr: 100 * (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[2m])) by (instance)) > 80 for: 10m labels: severity: critical team: infra annotations: dashboard: "http://grafana.example.com/d/ABCD1234" runbook: "https://wiki.example.com/Runbook#CPU_Overload"

关键参数解析：

expr：PromQL表达式，计算CPU使用率百分比
for：持续满足条件时长，避免瞬时抖动触发误报
labels：添加业务维度标签，便于告警路由
annotations：附加上下文信息，加速故障定位

2.2 智能阈值设定策略

不同业务场景需要差异化的告警阈值，参考以下行业实践：

CPU告警分级方案

基础阈值：>80%持续10分钟（通用型）
关键业务：>70%持续5分钟（提前预警）
计算密集型：>90%持续15分钟（容忍短时峰值）

内存告警特殊考量

- alert: HostHighMemory expr: | (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes)) / node_memory_MemTotal_bytes * 100 > 85 for: 15m

注意：Linux会利用空闲内存作缓存，计算真实使用率需排除Cache/Buffer

2.3 磁盘监控高级技巧

针对磁盘空间告警，建议增加挂载点白名单和inode监控：

- alert: HostLowDiskSpace expr: | 100 * (node_filesystem_size_bytes{fstype=~"ext4|xfs",mountpoint!~"/tmp|/var/cache"} - node_filesystem_avail_bytes{fstype=~"ext4|xfs",mountpoint!~"/tmp|/var/cache"}) / node_filesystem_size_bytes{fstype=~"ext4|xfs",mountpoint!~"/tmp|/var/cache"} > 90 for: 30m - alert: HostLowInodes expr: | (node_filesystem_files_free{fstype=~"ext4|xfs"} / node_filesystem_files{fstype=~"ext4|xfs"} * 100) < 10 for: 1h

3. AlertManager配置精要

3.1 邮件通知专业配置

alertmanager.yml示例配置片段：

route: group_by: [alertname, severity] group_wait: 30s group_interval: 5m repeat_interval: 4h receiver: ops-team-email receivers: - name: ops-team-email email_configs: - to: ops@example.com from: alertmanager@example.com smarthost: smtp.example.com:587 auth_username: "alertmanager" auth_password: "your_password" headers: Subject: '[{{ .Status | title }}] {{ .CommonLabels.alertname }}' html: | <!DOCTYPE html> <html> <body> <h2>{{ .CommonLabels.alertname }}</h2> <p><strong>Severity</strong>: {{ .CommonLabels.severity }}</p> <pre>{{ range .Alerts }}{{ .Annotations.description }} {{ end }}</pre> <p><a href="{{ .CommonAnnotations.dashboard }}">View Dashboard</a></p> </body> </html>

3.2 告警分级路由实战

根据业务重要性实施分级通知策略：

routes: - match: severity: critical receiver: pagerduty continue: false - match: severity: warning receiver: slack-alerts - match_re: team: (db|redis) receiver: db-team

4. 生产环境优化指南

4.1 性能调优参数

在prometheus.yml中调整这些关键参数：

global: scrape_interval: 1m evaluation_interval: 1m scrape_timeout: 10s rule_files: - '/etc/prometheus/rules/*.rules' alerting: alertmanagers: - static_configs: - targets: ['alertmanager:9093'] # 限制内存使用 storage: tsdb: retention: 15d max_samples_per_send: 5000

4.2 告警疲劳破解之道

时段敏感策略：工作时间降低阈值，夜间适当放宽
动态抑制规则：主备切换期间自动抑制冗余告警
自动化修复集成：对已知问题配置webhook自动处理

inhibit_rules: - source_match: alertname: NodeDown target_match: severity: warning equal: [instance]

实际部署中发现，合理的告警分组能减少70%以上的通知噪音。例如将同一主机的多个指标告警合并发送，既保证信息完整又避免轰炸。

保姆级教程：用Prometheus+AlertManager给服务器CPU、内存、磁盘设置监控告警（附完整rules配置）