[AI] 日志与监控：用 Prometheus + Grafana 监控本地 LLM 指标-开发者社区

目标：为本地/私有化 LLM 部署建立可观测性，覆盖指标采集、日志结构化、可视化面板与报警实践，适用于 vLLM/TGI/llama.cpp 等。

1. 监控范围

性能：TTFT、p50/p95/p99 延迟、tokens/s、QPS、并发数。
资源：GPU 显存/利用率、CPU、内存、磁盘 I/O、网络。
质量：错误率、超时、重试、拒答率、敏感词命中。
成本：tokens 消耗、缓存命中率。

2. 指标采集

vLLM/TGI：自带 Prometheus 端点（如:8000/metrics），包含请求延迟、tokens、显存。
llama.cpp：可通过--metrics或 exporter（如 telegraf + exec）采集；
GPU：nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv；
自定义：在网关/业务层增加请求计数、错误率、命中缓存等指标。

3. 日志

目标：在本地/私有化 LLM 部署中降低推理成本，覆盖批处理、动态批次、KV 缓存复用、I/O 优化与监控回归。 1. 成本来源算力：GPU/CPU 占用、功耗、并发不足导致的浪费； I/O：模型加载、磁盘/网络延迟； Tokens：上下文过长、重复提示；并发与队列：小批次、高切换造成吞吐…

李华

亲测Qwen3-VL-8B-Instruct-GGUF：8B参数跑出72B效果

亲测Qwen3-VL-8B-Instruct-GGUF：8B参数跑出72B效果最近在尝试部署多模态大模型时，我注意到了一个非常有意思的技术突破——Qwen3-VL-8B-Instruct-GGUF。这个名字听起来有点复杂，但它的核心价值一句话就能说清：用80亿参数的体量&…

李华

电气控制接线实操汇总

点动控制电路按下SB1，KM1吸合；松开SB1，KM1断开。自锁控制电路按下SB1，KM1吸合，同时KM1的常开点变常闭，保持自锁；松开SB1，KM1保持。起保停控制电路按下SB1起动，KM1常开点形成自锁，急停ST1断开。两地控制电路可以实现在甲乙两地启停一台电动机。基本正反转…

李华

OpCore Simplify完全指南：零基础快速打造完美黑苹果系统

OpCore Simplify完全指南：零基础快速打造完美黑苹果系统【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑苹果复杂的技术配置感到困…

李华

超过三分之二的投资管理机构将AI广泛应用于前台业务支持

、美通社消息：全球领先的金融科技企业SimCorp委托开展的一项全球最新研究显示，70%的买方机构已成功采用人工智能以支持其前台业务。这一发现较去年发布的报告出现显著增长。该报告显示，当时仅约10%的受访者在积极探索AI工具。当时&#xff0c…

李华

BongoCat桌面猫咪伴侣：跨平台安装与个性化设置完全指南

BongoCat桌面猫咪伴侣：跨平台安装与个性化设置完全指南【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作，每一次输入都充满趣味与活力！ 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 想要一…

李华