📌 写在前面
上周在调试一个安防场景的YOLO11模型时,遇到了一个令人头疼的问题:检测结果在常规数据集上mAP表现很不错,但一放到真实监控画面——密集人群、车辆拥堵、货架堆叠,模型就频繁漏检。可视化中间特征图发现,模型其实对两个目标都有响应,但最终输出只剩下一个框。
经过排查,罪魁祸首是后处理。默认的NMS(Non-Maximum Suppression)在目标重叠度高时会直接删除分数稍低的框,哪怕它们其实是完全不同的两个目标。这是YOLO系列长期存在的痛点,尤其在做安防、工业检测、自动驾驶等目标密集场景的工程师,十有八九都踩过这个坑。
今天我们就来拆解这个问题,并手把手演示如何用DIoU-NMS替换传统NMS,在高重叠目标场景下显著提升召回率。全文将覆盖架构设计、部署方案、生态工具、竞品对比等多个维度,内容基于近3个月内的YOLO社区进展、Ultralytics官方发布和技术论文,确保干货密度和时效性。
一、背景:YOLO11的演进与后处理的“隐形瓶颈”
1.1 YOLO11:新一代多任务实时检测框架
YOLO11由Ultralytics开发,于2024年在YOLO Vision 2024(YV24)会议上正式发布,标志着多任务实时目标检测技术的重大突破。它基于YOLOv8的架构基础,引入了C3k2块、SPPF(空间金字塔池化—快速)和C2PSA(