Excalidraw性能监控面板：实时查看GPU利用率-开发者社区

Excalidraw性能监控面板：实时查看GPU利用率

在AI功能加速融入各类创作工具的今天，一个看似简单的“手绘白板”应用也可能暗藏复杂的计算逻辑。以开源项目Excalidraw为例，它最初只是一个轻量级、风格化的在线画板，但随着社区为其集成自然语言生成图表的能力——比如输入“画一个微服务架构图”，系统就能自动生成草图——背后的算力需求悄然升级。

这类AI推理任务通常运行在GPU上，尤其是当模型基于PyTorch或TensorFlow构建时。一旦并发请求增多，GPU资源可能迅速成为瓶颈：响应变慢、生成超时、用户体验下降……而问题根源却难以定位——是网络延迟？CPU卡顿？还是GPU已经满载？

这时候，一个能实时看到GPU利用率的可视化监控面板，就不再是“锦上添花”，而是保障服务稳定的关键基础设施。

从硬件到前端：如何让GPU“说话”

要实现对GPU状态的感知，核心在于打通“硬件 → 数据采集 → 接口暴露 → 可视化展示”的全链路。整个过程并不需要侵入主服务代码，也不依赖昂贵的商业工具，只需几个关键组件协同工作即可完成。

看得见的指标：什么是GPU利用率？

GPU利用率反映的是图形处理器在一段时间内处于活跃计算状态的时间比例，单位为百分比。例如80%的利用率意味着GPU核心每秒中有800毫秒正在执行任务，其余时间空闲或等待数据。

但这只是冰山一角。真正有价值的监控应包含多维指标：

指标	含义	典型用途
GPU Utilization	核心计算负载	判断是否过载
Memory Usage	显存占用情况	检测OOM风险
Temperature	温度	预防散热异常
Power Draw	功耗	容量规划参考

尤其在部署Stable Diffusion类图像生成模型时，显存往往是比算力更稀缺的资源。因此，只看利用率而不关注显存使用，很容易误判系统健康状况。

技术落地：用Python和JavaScript搭建轻量监控系统

我们不需要重构现有服务，只需部署一个独立的监控子系统，定时读取GPU状态并通过API对外暴露。前端则通过轮询方式拉取数据并动态绘图。

后端采集：精准获取NVIDIA GPU状态

借助NVIDIA提供的NVML（NVIDIA Management Library），我们可以直接与驱动通信，获取底层硬件信息。pynvml是其Python封装，简洁高效。

以下是一个最小可运行版本的监控服务：

# gpu_monitor.py import pynvml from flask import Flask, jsonify app = Flask(__name__) def init_gpu(): try: pynvml.nvmlInit() device_count = pynvml.nvmlDeviceGetCount() print(f"✅ NVML初始化成功，检测到 {device_count} 块GPU") except Exception as e: print(f"❌ 无法初始化NVML：{e}") exit(1) def get_gpu_metrics(gpu_index=0): handle = pynvml.nvmlDeviceGetHandleByIndex(gpu_index) util_rates = pynvml.nvmlDeviceGetUtilizationRates(handle) mem_info = pynvml.nvmlDeviceGetMemoryInfo(handle) return { "gpu_util": util_rates.gpu, "memory_used_gb": round(mem_info.used / (1024**3), 2), "memory_total_gb": round(mem_info.total / (1024**3), 2), "temperature_c": pynvml.nvmlDeviceGetTemperature(handle, 0), "timestamp": int(time.time()) } @app.route('/metrics/gpu') def gpu_metrics(): try: data = get_gpu_metrics() return jsonify(data) except Exception as e: return jsonify({"error": str(e)}), 500 if __name__ == '__main__': init_gpu() app.run(host='0.0.0.0', port=5001, debug=False)

✅ 运行前提：
- 安装NVIDIA驱动；
-pip install pynvml flask；
- 若使用Docker，需添加--gpus all参数挂载设备。

这个服务启动后会监听:5001/metrics/gpu，返回类似如下JSON：

{ "gpu_util": 67, "memory_used_gb": 8.45, "memory_total_gb": 24.0, "temperature_c": 72, "timestamp": 1715003200 }

简单、标准、易于集成。

前端展示：用Chart.js打造实时趋势图

有了数据接口，下一步就是让用户“看得懂”。我们选择轻量且灵活的 Chart.js 来绘制动态折线图。

<!-- monitor.html --> <canvas id="gpuChart" width="800" height="400"></canvas> <script src="https://cdn.jsdelivr.net/npm/chart.js"></script> <script> const ctx = document.getElementById('gpuChart').getContext('2d'); const gpuChart = new Chart(ctx, { type: 'line', data: { labels: [], datasets: [{ label: 'GPU 利用率 (%)', data: [], borderColor: '#2563eb', backgroundColor: 'rgba(37, 99, 235, 0.1)', tension: 0.2, fill: true }] }, options: { responsive: true, animation: false, interaction: { intersect: false, mode: 'index' }, scales: { y: { min: 0, max: 100, title: { display: true, text: '利用率 (%)' } }, x: { title: { display: true, text: '时间' }, ticks: { maxTicksLimit: 10 } } }, plugins: { tooltip: { enabled: true }, legend: { display: true, position: 'top' }, title: { display: true, text: '📊 实时GPU利用率监控' } } } }); // 每2秒更新一次 setInterval(() => { fetch('http://localhost:5001/metrics/gpu') .then(res => res.json()) .then(data => { const timeLabel = new Date(data.timestamp * 1000).toLocaleTimeString(); gpuChart.data.labels.push(timeLabel); gpuChart.data.datasets[0].data.push(data.gpu_util); // 保留最近50个点，防止内存溢出 if (gpuChart.data.labels.length > 50) { gpuChart.data.labels.shift(); gpuChart.data.datasets[0].data.shift(); } gpuChart.update('quiet'); // 避免重复动画影响性能 }) .catch(err => console.warn("⚠️ 数据获取失败:", err)); }, 2000); </script>

效果直观：一条随时间推移不断向右滚动的曲线，清晰呈现GPU负载变化。你可以一眼识别出哪些操作触发了高负载（如批量生成图表），也能发现是否存在持续过载的情况。

融入AI增强版Excalidraw架构

在一个典型的AI赋能的Excalidraw部署中，整体结构大致如下：

graph TD A[Excalidraw Web UI] --> B[Backend API Server] B --> C[AI Inference Engine] C --> D[NVIDIA GPU Pool] D --> E[Performance Monitor] E --> F[Visualization Panel] B --> E

用户在前端输入文本指令，提交给后端；
后端调用本地或远程的AI模型服务（如运行在FastAPI上的Diffusion模型）；
模型加载至GPU进行推理，生成图像结果；
监控服务独立运行，周期性采集GPU状态；
前端监控页面可通过iframe嵌入运维后台，也可单独访问。

这种设计保证了低耦合、高可用：即使监控模块宕机，不影响主服务；反之亦然。

实战价值：不只是“看看而已”

很多人认为监控就是“出事后再查日志”，但真正的价值在于提前预警和辅助决策。

场景一：快速定位性能瓶颈

某次用户反馈“AI生图经常卡住”。查看监控面板发现：

CPU和内存平稳；
GPU利用率瞬间冲到99%，且持续超过20秒；
显存占用达23.8/24GB。

结论明确：显存即将耗尽，导致新任务排队甚至崩溃。解决方案也很直接：升级到A100（40GB+显存）或启用模型量化减少内存占用。

场景二：优化资源配置，降低成本

观察一周数据后发现：

平均GPU利用率仅28%；
高峰时段不超过60%；
夜间几乎无负载。

这说明当前使用的单块高端GPU存在严重资源浪费。完全可以将多个轻量AI服务合并部署在同一台机器上，或将实例降配为T4等性价比更高的卡型，节省云成本30%以上。

场景三：容量规划与弹性伸缩依据

结合历史趋势分析，可以回答这些问题：

当前配置最多支持多少并发AI请求？
是否需要引入自动扩缩容机制（K8s + KEDA）？
下季度业务增长预期下，是否需提前采购GPU服务器？

这些原本靠“拍脑袋”的决策，现在都有了数据支撑。

设计细节决定成败

一个好用的监控系统，不仅功能完整，更要考虑实际工程中的诸多边界问题。

采样频率怎么定？

太频繁（如每200ms一次）会导致不必要的系统开销，甚至干扰主任务；太稀疏（>10s）则可能错过瞬时高峰。

推荐设置为2~3秒：既能捕捉大多数负载波动，又不会带来明显负担。

支持多GPU怎么办？

服务器常配有2块及以上GPU。此时应遍历所有设备，并区分显示：

def get_all_gpus_metrics(): metrics = [] for i in range(pynvml.nvmlDeviceGetCount()): handle = pynvml.nvmlDeviceGetHandleByIndex(i) util = pynvml.nvmlDeviceGetUtilizationRates(handle) mem = pynvml.nvmlDeviceGetMemoryInfo(handle) metrics.append({ "gpu_id": i, "gpu_util": util.gpu, "memory_used_gb": round(mem.used / (1024**3), 2) }) return metrics

前端可用不同颜色的曲线分别表示各卡状态，便于排查负载不均问题。

安全性不容忽视

监控接口若暴露在公网，可能成为攻击入口。建议采取以下措施：

默认绑定内网地址（如127.0.0.1或10.x.x.x）；
如需外网访问，启用JWT认证或OAuth代理；
不返回敏感信息（如GPU序列号、固件版本）；
使用反向代理（Nginx）限制访问频率。

与Prometheus生态无缝对接

如果你已有Prometheus + Grafana作为统一监控平台，只需稍作改造即可接入：

from prometheus_client import start_http_server, Gauge # 定义指标 GPU_UTIL = Gauge('gpu_utilization_percent', 'GPU utilization rate', ['gpu']) MEM_USED = Gauge('gpu_memory_used_gb', 'Used GPU memory in GB', ['gpu']) # 在采集循环中更新 for i in range(pynvml.nvmlDeviceGetCount()): data = get_gpu_metrics(i) GPU_UTIL.labels(gpu=f'gpu{i}').set(data['gpu_util']) MEM_USED.labels(gpu=f'gpu{i}').set(data['memory_used_gb']) start_http_server(8080) # Prometheus从 http://xxx:8080/metrics 抓取

这样就能在Grafana中创建专业级别的GPU监控大盘，与其他系统指标统一管理。