从零搭建GPU监控看板：用Python脚本+nvidia-smi定时抓取数据并可视化-开发者社区

从零搭建GPU监控看板：用Python脚本+nvidia-smi定时抓取数据并可视化

在深度学习训练、科学计算或图形渲染场景中，GPU的实时状态监控如同汽车仪表盘——没有它，你永远不知道引擎是否过热或燃油是否耗尽。本文将手把手带您构建一个轻量级GPU监控系统，不仅能实时捕获温度、显存、利用率等关键指标，还能通过可视化图表揭示硬件性能的长期趋势。不同于简单的nvidia-smi命令展示，我们将实现从数据采集、存储到分析的全流程自动化，特别适合需要同时管理多台GPU服务器的团队。

1. 环境准备与工具链选择

1.1 硬件与驱动基础配置

确保所有目标机器已安装NVIDIA官方驱动（版本≥450），可通过以下命令验证环境就绪状态：

nvidia-smi --query-gpu=driver_version,name --format=csv

典型输出示例：

driver_version, name 470.57.02, NVIDIA Tesla V100S-PCIE-32GB

推荐配置清单：

操作系统：Ubuntu 20.04 LTS（对NVIDIA驱动兼容性最佳）
Python环境：≥3.8（需安装pandas,matplotlib等库）
存储介质：SSD硬盘（高频写入场景下性能更稳定）

1.2 Python生态工具选型对比

工具	适用场景	优点	缺点
`subprocess`	基础命令调用	无需额外依赖	输出解析较复杂
`gpustat`	快速获取GPU状态	人性化输出格式	功能扩展性有限
`py3nvml`	直接访问NVML API	无需解析命令行输出	需处理C语言绑定兼容性

提示：生产环境推荐组合使用subprocess+pandas，兼顾灵活性与数据处理能力。

2. 数据采集模块开发

2.1 定时抓取GPU指标

通过crontab+Python脚本实现分钟级数据采集，核心代码如下：

import subprocess import time from datetime import datetime def fetch_gpu_metrics(): cmd = [ 'nvidia-smi', '--query-gpu=timestamp,utilization.gpu,memory.used,temperature.gpu', '--format=csv,noheader,nounits' ] result = subprocess.run(cmd, capture_output=True, text=True) return [ {k:v for k,v in zip( ['time','gpu_util','mem_used','temp'], line.split(', ') )} for line in result.stdout.strip().split('\n') ] while True: metrics = fetch_gpu_metrics() save_to_database(metrics) # 实现见2.2节 time.sleep(60) # 采集间隔可调

2.2 数据存储方案设计

SQLite作为轻量级数据库的典型配置：

import sqlite3 def init_db(): conn = sqlite3.connect('gpu_monitor.db') conn.execute('''CREATE TABLE IF NOT EXISTS gpu_stats (id INTEGER PRIMARY KEY AUTOINCREMENT, gpu_id INT, timestamp DATETIME, gpu_util INT, mem_used INT, temp INT)''') return conn

性能优化技巧：

启用WAL模式提升并发写入性能
定期执行VACUUM命令压缩数据库
按日期分表存储（适合长期监控）

3. 可视化呈现方案

3.1 Matplotlib动态仪表盘

构建可实时刷新的监控面板：

import matplotlib.pyplot as plt from matplotlib.animation import FuncAnimation def update_plot(frame): df = load_last_hour_data() # 自定义数据加载函数 ax.clear() ax.plot(df['timestamp'], df['gpu_util'], label='GPU利用率(%)') ax.plot(df['timestamp'], df['temp'], label='温度(℃)') ax.legend(loc='upper right') fig, ax = plt.subplots(figsize=(12,6)) ani = FuncAnimation(fig, update_plot, interval=60000) plt.show()

3.2 Grafana高级监控方案

配置步骤：

安装Grafana并添加SQLite数据源插件
创建Dashboard并添加Time Series面板
配置SQL查询语句：

SELECT datetime(timestamp) as time, avg(gpu_util) as "GPU利用率" FROM gpu_stats WHERE $__timeFilter(timestamp) GROUP BY strftime('%Y-%m-%d %H:%M', timestamp)

告警规则示例：

持续5分钟温度>85℃时触发邮件通知
显存使用率>90%时触发Slack提醒

4. 生产环境部署建议

4.1 系统服务化管理

创建systemd服务实现开机自启：

# /etc/systemd/system/gpu_monitor.service [Unit] Description=GPU Monitoring Daemon [Service] ExecStart=/usr/bin/python3 /opt/gpu_monitor/main.py Restart=always User=root [Install] WantedBy=multi-user.target