mmdetection模型测试实战：用`tools/test.py`一键可视化预测结果并保存到指定文件夹-开发者社区

mmdetection模型测试实战：可视化预测结果与性能深度解析

在计算机视觉项目的完整生命周期中，模型训练只是第一步。真正考验模型实用价值的，是它在真实场景中的表现。本文将带你深入掌握mmdetection框架下的模型测试全流程，从基础命令解析到高级可视化技巧，再到关键性能指标的深度解读。

1. 模型测试的核心价值与准备工作

模型测试环节常被开发者忽视，但它实际上是连接研发与落地的关键桥梁。一个在测试集上表现良好的模型，才能真正投入实际应用。在mmdetection框架中，测试环节不仅能输出mAP等量化指标，更重要的是能直观展示模型"看"世界的方式。

测试前需要确认三个核心文件：

配置文件（如retinanet_r50_fpn_1x_coco.py）：记录模型结构和训练参数
训练权重（如epoch_12.pth）：模型学习到的参数集合
测试数据集：通常与验证集相同，需在配置文件中正确指定

建议的目录结构示例：

project/ ├── configs/ │ └── retinanet_r50_fpn_1x_coco.py ├── work_dirs/ │ └── retinanet_r50_fpn_1x_coco/ │ └── epoch_12.pth └── results/ # 用于存放测试输出

提示：测试前建议使用python tools/print_config.py configs/xxx.py检查配置文件是否完整，避免因路径错误导致测试失败。

2. 基础测试命令全解析

最基础的测试命令包含三个核心参数：

python tools/test.py \ configs/retinanet_r50_fpn_1x_coco.py \ work_dirs/retinanet_r50_fpn_1x_coco/epoch_12.pth \ --eval bbox

这条命令会输出如下关键指标：

Average Precision (AP) @[ IoU=0.50:0.95 | area= all | maxDets=100 ] = 0.389 Average Precision (AP) @[ IoU=0.50 | area= all | maxDets=100 ] = 0.591 Average Precision (AP) @[ IoU=0.75 | area= all | maxDets=100 ] = 0.421 ...

2.1 可视化输出实战

想要直观查看预测效果，--show-dir参数是利器：

python tools/test.py \ configs/retinanet_r50_fpn_1x_coco.py \ work_dirs/retinanet_r50_fpn_1x_coco/epoch_12.pth \ --show-dir results/visualization

生成的文件结构：

results/ └── visualization/ ├── img1.jpg ├── img2.jpg └── ...

可视化效果要素解读：

边界框颜色：不同类别使用不同颜色
左上角标签：格式为类别名置信度
背景透明度：低置信度预测会半透明显示

2.2 关键参数对比

参数	作用	适用场景	输出位置
`--eval`	计算mAP等指标	量化评估	终端/stdout
`--show`	实时显示图像	快速调试	弹出窗口
`--show-dir`	保存可视化结果	报告/演示	指定目录
`--eval-options`	自定义评估参数	精细分析	终端/stdout

3. 高级测试技巧与性能优化

3.1 类别级精度分析

修改mmdet/datasets/coco.py中的evaluate函数：

def evaluate( self, results, metric='bbox', logger=None, jsonfile_prefix=None, classwise=True, # 改为True proposal_nums=(100, 300, 1000), iou_thrs=[0.5], # 指定IoU阈值 metric_items=None ):

修改后输出示例：

Classwise AP: | class | AP@0.5 | |----------|--------| | person | 0.723 | | car | 0.681 | | dog | 0.542 |

3.2 置信度阈值调整

通过model.test_cfg控制输出质量：

# 在配置文件中添加 model = dict( test_cfg=dict( score_thr=0.3, # 只显示置信度>0.3的预测 nms=dict(type='nms', iou_threshold=0.5), max_per_img=100 ) )

效果对比：

高阈值（如0.7）：减少误检，但可能漏检
低阈值（如0.1）：检出更多目标，但噪声增加

3.3 多尺度测试增强

在配置文件中启用多尺度测试：

test_pipeline = [ dict( type='MultiScaleFlipAug', img_scale=[(1333, 800), (1000, 600), (666, 400)], # 多尺度 flip=True, # 水平翻转增强 transforms=[ ... ] ) ]

4. 测试结果分析与问题定位

4.1 常见问题模式识别

通过可视化结果可以识别典型问题：

漏检问题：
- 目标尺寸过小
- 遮挡严重
- 类别不平衡导致少数类识别差
误检问题：
- 背景被误判为目标
- 类别混淆（如哈士奇被识别为狼）
定位不准：
- 边界框偏移
- 框体过大/过小

4.2 量化指标深度解读

关键指标解析表：

指标	计算公式	合理范围	优化方向
AP@0.5	IoU阈值0.5时的AP	0.5-0.9	提高定位精度
AP@0.75	IoU阈值0.75时的AP	0.3-0.7	优化边界框回归
AR@100	每图100个提案的召回率	0.6-0.9	改进RPN网络

4.3 测试结果可视化增强

使用第三方工具生成更专业的分析图表：

import matplotlib.pyplot as plt # 绘制PR曲线 plt.plot(recall, precision) plt.xlabel('Recall') plt.ylabel('Precision') plt.title('Precision-Recall Curve') plt.savefig('pr_curve.png')

5. 工程化测试方案

5.1 自动化测试脚本

创建可复用的测试脚本run_test.sh：

#!/bin/bash CONFIG=$1 CHECKPOINT=$2 OUT_DIR=$3 python tools/test.py \ $CONFIG \ $CHECKPOINT \ --out ${OUT_DIR}/results.pkl \ --eval bbox \ --show-dir ${OUT_DIR}/visualization \ --eval-options "classwise=True" "iou_thrs=[0.5,0.75]"

5.2 测试报告生成

使用Pandas生成结构化报告：

import pandas as pd df = pd.DataFrame({ 'Class': ['person', 'car', 'dog'], 'AP@0.5': [0.72, 0.68, 0.54], 'AP@0.75': [0.51, 0.47, 0.32] }) df.to_markdown('performance_report.md')

5.3 持续集成方案

GitLab CI示例配置：

test_model: stage: test script: - python tools/test.py $CONFIG $CHECKPOINT --eval bbox artifacts: paths: - results/ expire_in: 1 week

在实际项目中，我发现将测试环节纳入持续集成流程可以提前发现模型退化问题。特别是在数据分布随时间变化的场景中，定期测试能确保模型始终保持最佳状态。

mmdetection模型测试实战：用`tools/test.py`一键可视化预测结果并保存到指定文件夹