news 2026/5/9 9:30:49

[AI] 日志与监控:用 Prometheus + Grafana 监控本地 LLM 指标

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[AI] 日志与监控:用 Prometheus + Grafana 监控本地 LLM 指标

目标:为本地/私有化 LLM 部署建立可观测性,覆盖指标采集、日志结构化、可视化面板与报警实践,适用于 vLLM/TGI/llama.cpp 等。

1. 监控范围

  • 性能:TTFT、p50/p95/p99 延迟、tokens/s、QPS、并发数。
  • 资源:GPU 显存/利用率、CPU、内存、磁盘 I/O、网络。
  • 质量:错误率、超时、重试、拒答率、敏感词命中。
  • 成本:tokens 消耗、缓存命中率。

2. 指标采集

  • vLLM/TGI:自带 Prometheus 端点(如:8000/metrics),包含请求延迟、tokens、显存。
  • llama.cpp:可通过--metrics或 exporter(如 telegraf + exec)采集;
  • GPU:nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv
  • 自定义:在网关/业务层增加请求计数、错误率、命中缓存等指标。

3. 日志

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 10:23:00

[AI] 模型推理成本优化:批处理、动态批次与缓存复用实战

目标:在本地/私有化 LLM 部署中降低推理成本,覆盖批处理、动态批次、KV 缓存复用、I/O 优化与监控回归。 1. 成本来源 算力:GPU/CPU 占用、功耗、并发不足导致的浪费; I/O:模型加载、磁盘/网络延迟; Tokens:上下文过长、重复提示; 并发与队列:小批次、高切换造成吞吐…

作者头像 李华
网站建设 2026/5/4 17:15:24

亲测Qwen3-VL-8B-Instruct-GGUF:8B参数跑出72B效果

亲测Qwen3-VL-8B-Instruct-GGUF:8B参数跑出72B效果 最近在尝试部署多模态大模型时,我注意到了一个非常有意思的技术突破——Qwen3-VL-8B-Instruct-GGUF。这个名字听起来有点复杂,但它的核心价值一句话就能说清:用80亿参数的体量&…

作者头像 李华
网站建设 2026/5/6 11:49:07

电气控制接线实操汇总

点动控制电路 按下SB1,KM1吸合;松开SB1,KM1断开。 自锁控制电路 按下SB1,KM1吸合,同时KM1的常开点变常闭,保持自锁;松开SB1,KM1保持。 起保停控制电路 按下SB1起动,KM1常开点形成自锁,急停ST1断开。 两地控制电路 可以实现在甲乙两地启停一台电动机。 基本正反转…

作者头像 李华
网站建设 2026/5/6 19:51:48

OpCore Simplify完全指南:零基础快速打造完美黑苹果系统

OpCore Simplify完全指南:零基础快速打造完美黑苹果系统 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑苹果复杂的技术配置感到困…

作者头像 李华
网站建设 2026/5/6 19:51:10

超过三分之二的投资管理机构将AI广泛应用于前台业务支持

、美通社消息:全球领先的金融科技企业SimCorp委托开展的一项全球最新研究显示,70%的买方机构已成功采用人工智能以支持其前台业务。这一发现较去年发布的报告出现显著增长。该报告显示,当时仅约10%的受访者在积极探索AI工具。当时&#xff0c…

作者头像 李华
网站建设 2026/5/8 1:40:48

BongoCat桌面猫咪伴侣:跨平台安装与个性化设置完全指南

BongoCat桌面猫咪伴侣:跨平台安装与个性化设置完全指南 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 想要一…

作者头像 李华