Proxmox + Prometheus + Grafana 监控告警体系
系列文章 #7 | 后 VMware 时代企业虚拟化实战
目录
- 监控体系设计思路
- 组件选型
- 部署 Prometheus + Grafana
- PVE Exporter 配置
- 关键指标清单
- Grafana Dashboard 推荐
- Alertmanager 告警规则
- 通知渠道(钉钉/企微/邮件)
- 日志监控
一、监控体系设计思路
VMware 时代习惯用 vROps 或 SolarWinds 一站式方案。Proxmox 没有官方对应,但开源组合更灵活:
┌─────────────┐ │ Grafana │ ← 展示层 └──────┬──────┘ │ PromQL ┌──────┴──────┐ │ Prometheus │ ← 时序数据库 + 告警引擎 └──┬──┬──┬────┘ │ │ │ pull ┌──────┘ │ └──────┐ ▼ ▼ ▼ PVE Exporter Node Ceph (PVE API) Exporter Exporter (OS) (内置) │ ▼ alert ┌─────────────┐ │Alertmanager │ ← 告警聚合去重 └──────┬──────┘ │ ┌──────┴──────────┐ ▼ ▼ ▼ 钉钉 企微 邮件核心原则:采集、存储、展示、告警分离,每层可独立替换。
二、组件选型
| 组件 | 用途 | 替代品 |
|---|---|---|
| Prometheus | 时序数据库 + 告警 | VictoriaMetrics(性能更好) |
| Grafana | 可视化 | - |
| Alertmanager | 告警路由 | PagerDuty |
| PVE Exporter | 拉 PVE 指标 | Telegraf + pve input |
| Node Exporter | 主机 OS 指标 | Telegraf |
| Ceph mgr module | Ceph 指标 | 内置即可 |
| Loki | 日志聚合 | ELK |
三、部署 Prometheus + Grafana
建议独立一台监控服务器(或 VM),配置 4c / 8GB / 200GB SSD 足够小到中型集群。
3.1 Docker Compose 快速部署
# docker-compose.ymlversion:'3.8'services:prometheus:image:prom/prometheus:latestvolumes:-./prometheus.yml:/etc/prometheus/prometheus.yml-./rules:/etc/prometheus/rules-prom-data:/prometheusports:-"9090:9090"restart:unless-stoppedalertmanager:image:prom/alertmanager:latestvolumes:-./alertmanager.yml:/etc/alertmanager/alertmanager.ymlports:-"9093:9093"restart:unless-stoppedgrafana:image:grafana/grafana:latestvolumes:-grafana-data:/var/lib/grafanaports:-"3000:3000"environment:-GF_SECURITY_ADMIN_PASSWORD=YourPasswordrestart:unless-stoppedvolumes:prom-data:grafana-data:dockercompose up-d