告别Anchor！用DETR（Transformer）在自定义COCO数据集上训练自己的目标检测模型（附完整代码）-开发者社区

用DETR实现端到端目标检测：从原理到自定义数据集实战

当目标检测遇上Transformer，传统方法中的Anchor设计突然显得如此多余。DETR（Detection Transformer）的出现，不仅简化了整个检测流程，更让我们看到了视觉任务中注意力机制的强大潜力。本文将带你深入理解这一创新架构，并手把手完成从数据准备到模型部署的全过程。

1. 为什么DETR是目标检测的革命者？

传统目标检测方法如Faster R-CNN和YOLO都依赖复杂的Anchor设计，这些预定义的边界框不仅需要精心调整超参数，还引入了大量计算开销。DETR的核心突破在于：

完全摒弃Anchor机制：使用Transformer的注意力机制直接预测目标位置
真正的端到端训练：无需后处理NMS（非极大值抑制）
统一的任务处理方式：将检测视为集合预测问题

下表对比了传统方法与DETR的关键差异：

特性	Anchor-based方法	DETR
需要预定义Anchor	是	否
需要NMS后处理	是	否
训练流程	多阶段	端到端
对小目标检测效果	一般	中等
计算复杂度	中等	较高

注意：虽然DETR的计算开销较大，但其简洁的架构使其在多项基准测试中达到了与Faster R-CNN相当的精度。

2. 准备自定义COCO格式数据集

要让DETR识别你的专属目标类别，首先需要构建符合COCO格式的训练数据。以下是关键步骤：

图像采集与标注
- 确保每张图像至少包含一个目标实例
- 使用LabelImg或CVAT等工具进行边界框标注
- 保存为JSON格式的标注文件
构建COCO数据结构

{ "images": [{ "id": int, "width": int, "height": int, "file_name": str }], "annotations": [{ "id": int, "image_id": int, "category_id": int, "bbox": [x,y,width,height], "area": float, "iscrowd": 0 }], "categories": [{ "id": int, "name": str }] }

custom_coco/ ├── annotations/ │ ├── instances_train.json │ └── instances_val.json └── images/ ├── train/ └── val/

3. 模型配置与权重调整

DETR官方提供了基于ResNet-50的预训练模型，但我们需要针对自定义类别进行调整：

下载预训练权重
- 官方模型通常使用COCO的91个类别
- 需修改分类头以适应你的类别数量
调整类别数的关键代码

import torch # 加载预训练权重 pretrained_weights = torch.load('detr-r50.pth') # 修改为你的类别数（示例为3类） num_classes = 3 pretrained_weights["model"]["class_embed.weight"].resize_(num_classes+1, 256) pretrained_weights["model"]["class_embed.bias"].resize_(num_classes+1) # 保存调整后的权重 torch.save(pretrained_weights, "detr_r50_%d.pth"%num_classes)

修改模型配置文件
- 在models/detr.py中更新num_classes参数
- 调整main.py中的训练超参数：

parser.add_argument('--lr', default=1e-4, type=float) parser.add_argument('--batch_size', default=4, type=int) parser.add_argument('--epochs', default=300, type=int) parser.add_argument('--num_queries', default=100, type=int)

4. 训练与推理实战

准备好数据和模型后，就可以开始训练你的自定义检测器了：

启动训练

python main.py \ --dataset_file "coco" \ --coco_path "/path/to/your/custom_coco" \ --output_dir "output" \ --resume "detr_r50_3.pth" \ --num_classes 3

监控训练过程
- 使用TensorBoard记录损失曲线
- 关注分类损失和边界框回归损失的平衡
- 典型训练需要300个epoch左右
推理代码示例

def detect(image_path, model, transform): img = Image.open(image_path) img_tensor = transform(img).unsqueeze(0).to(device) with torch.no_grad(): outputs = model(img_tensor) # 处理输出结果 probas = outputs['pred_logits'].softmax(-1)[0, :, :-1] keep = probas.max(-1).values > 0.7 # 置信度阈值 # 转换边界框格式 bboxes_scaled = rescale_bboxes( outputs['pred_boxes'][0, keep].cpu(), img.size ) return probas[keep], bboxes_scaled

5. 性能优化与实用技巧

在实际应用中，我们发现几个提升DETR效果的关键点：

学习率策略：使用带warmup的余弦退火调度
数据增强：适当增加随机裁剪和颜色扰动
查询数量：根据目标密集程度调整num_queries
注意力可视化：理解模型关注区域

对于小目标检测的局限性，可以考虑：

增加高分辨率特征图
使用Deformable DETR等改进版本
在损失函数中增加对小目标的权重

训练完成后，模型可以直接部署到生产环境，无需复杂的后处理流程。这种端到端的特性使得DETR在实际应用中展现出独特的优势，特别是在需要快速迭代新类别的场景中。

SpringBoot 2.6.2 + Flowable 6.7.2 整合实战：手把手教你搞定在线流程设计器（Modeler）

SpringBoot 2.6.2 Flowable 6.7.2 深度整合实战：从零构建企业级流程设计平台在企业级应用开发中，工作流引擎的选择往往决定了业务流程管理的灵活性和效率。本文将带您深入探索如何基于SpringBoot 2.6.2与Flowable 6.7.2构建一个功能完备的流程设计平台…

李华

衰减器原理、设计与高频应用全解析

1. 衰减器基础概念与核心原理 1.1 衰减器的定义与基本功能衰减器（Attenuator）是一种无源电子元件，其主要功能是在保持信号完整性的前提下，精确控制信号电平的降低幅度。与放大器不同，衰减器不提供任何增益&#xff0…

李华

如何彻底解放双手：碧蓝航线自动化脚本完整指南

如何彻底解放双手：碧蓝航线自动化脚本完整指南【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研，全自动大世界项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript 你是否也曾为《碧…

李华

【避坑指南】Ubuntu20.04下PX4开发环境一站式部署与Gazebo仿真实战

1. 环境准备：Ubuntu20.04基础配置刚接触PX4开发的朋友们，我强烈建议使用虚拟机来搭建环境。实测下来，物理机和WSL2都可能遇到各种玄学问题，特别是Gazebo图形界面无法显示这种头疼的情况。我自己用的是VMware Workstation 16 Pro …

李华

Real-ESRGAN-GUI：如何用免费AI工具一键修复模糊图片和低分辨率动漫

Real-ESRGAN-GUI：如何用免费AI工具一键修复模糊图片和低分辨率动漫【免费下载链接】Real-ESRGAN-GUI Lovely Real-ESRGAN / Real-CUGAN GUI Wrapper 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN-GUI Real-ESRGAN-GUI是一款基于Flutter开发的跨…

李华

比迪丽ComfyUI工作流分享：自动触发bdl+风格强化节点封装

比迪丽ComfyUI工作流分享：自动触发bdl风格强化节点封装 1. 从WebUI到ComfyUI：为什么你需要这个工作流如果你用过比迪丽（Videl / Bidili）的WebUI，可能会觉得它简单直接：输入提示词，点击生成&a…

李华