news 2026/5/5 23:36:01

【RT-DETR论文阅读】:首个实时端到端Transformer检测器,DETR正式超越YOLO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【RT-DETR论文阅读】:首个实时端到端Transformer检测器,DETR正式超越YOLO

论文信息

  • 标题:DETRs Beat YOLOs on Real-time Object Detection
  • 会议:CVPR 2024
  • 单位:百度、北京大学
  • 代码:github.com/lyuwenyu/RT-DETR
  • 论文:https://arxiv.org/pdf/2304.08069.pdf

一、前言

长久以来,实时检测领域一直是YOLO家族的天下,但它们都绕不开一个“拖油瓶”——NMS
NMS不仅拖慢速度,还严重影响精度稳定性。

DETR虽然完美去掉NMS,却因为速度太慢、计算太贵,从来进不了实时赛道。

直到百度提出RT-DETR
第一个真正做到实时、端到端、无NMS、精度速度双杀YOLO的Transformer检测器。

  • RT-DETR-R50:53.1% AP,108 FPS
  • RT-DETR-R101:54.3% AP,74 FPS
  • 不用NMS、不用Anchor、训练更快、部署更稳

一句话总结:
RT-DETR = DETR的优雅 + YOLO的速度 + 更高的精度。

与之前那些先进的实时物体检测器相比,我们的 RT-DETR 实现了最先进的性能。

二、核心动机:NMS是实时检测的毒瘤

YOLO之所以快不上去,根本原因就是NMS后处理

NMS的两大原罪:

  1. 速度不稳定:框越多越慢,耗时不可控
  2. 精度不稳定:阈值敏感,调参痛苦

不同置信度阈值下保留的框数量。

阈值越低,框越多,NMS越慢。

图片分析:
NMS执行时间完全不可控,成为实时检测的巨大瓶颈。


表格1(来自原文Table 1)

IoU阈值APNMS耗时(ms)置信度阈值APNMS耗时(ms)
0.552.12.240.00152.92.36
0.652.62.290.0152.41.73
0.852.82.460.0551.21.06

表格分析:
NMS耗时随阈值剧烈波动,精度也跟着跳变,工业部署极其不友好。


三、RT-DETR总览

RT-DETR 的概述。我们将骨干网络的最后三个阶段的特征输入到编码器中。高效的混合编码器通过基于注意力的同尺度特征交互(AIFI)和基于卷积神经网络的跨尺度特征融合(CCFF)将多尺度特征转换为一系列图像特征。然后,不确定性最小化查询选择会选取固定数量的编码器特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器会通过迭代优化对象查询来生成类别和框。

结构:
Backbone →高效混合编码器(AIFI+CCFF)最小不确定性查询选择→ 解码器 → 输出

两大革命性创新:

  1. 高效混合编码器:把多尺度特征计算量砍半
  2. 最小不确定性查询选择:给解码器送最高质量的查询

四、创新1:高效混合编码器(速度核心)

DETR编码器一直是计算瓶颈,因为多尺度特征序列太长。

RT-DETR直接解耦

  • AIFI(注意力 intra-scale):只在最高层S5做自注意力
  • CCFF(CNN cross-scale):用轻量CNN做跨尺度融合

公式如下:
Q=K=V=Flatten(S5) \mathcal{Q}=\mathcal{K}=\mathcal{V}=Flatten(\mathcal{S}_5)Q=K=V=Flatten(S5)
F5=Reshape(AIFI(Q,K,V)) \mathcal{F}_5=Reshape(AIFI(\mathcal{Q},\mathcal{K},\mathcal{V}))F5=Reshape(AIFI(Q,K,V))
O=CCFF({S3,S4,F5}) \mathcal{O}=CCFF(\{\mathcal{S}_3,\mathcal{S}_4,\mathcal{F}_5\})O=CCFF({S3,S4,F5})

符号解释:

  • S3,S4,S5\mathcal{S}_3,\mathcal{S}_4,\mathcal{S}_5S3,S4,S5:Backbone输出的三层特征
  • AIFIAIFIAIFI:单尺度注意力交互
  • CCFFCCFFCCFF:卷积跨尺度融合
  • Flatten/ReshapeFlatten/ReshapeFlatten/Reshape:展平与恢复形状

通俗解释:
只在语义最深的特征上做注意力,剩下的融合全部用超快CNN,速度直接起飞。


CCFF 中的融合模块。

图片3:CCFF融合块
1×1卷积 + RepBlock + 残差融合,极轻量、极高效。


五、创新2:最小不确定性查询选择(精度核心)

过去的查询选择只看分类分数,不管定位准不准。
RT-DETR提出:分类+定位一起评价

不确定性公式:
U(X^)=∥P(X^)−C(X^)∥ \mathcal{U}(\hat{\mathcal{X}})=\| \mathcal{P}(\hat{\mathcal{X}})-\mathcal{C}(\hat{\mathcal{X}})\|U(X^)=P(X^)C(X^)

符号解释:

  • U\mathcal{U}U:不确定性
  • P\mathcal{P}P:定位预测分布
  • C\mathcal{C}C:分类预测分布
  • X^\hat{\mathcal{X}}X^:编码器特征

通俗解释:
只选“分类置信度高定位IoU高”的特征做查询。


所选编码器特征的分类结果及交并比得分。紫色和绿色的点分别代表通过不确定性最小化查询选择训练得到的模型所选出的特征以及通过常规查询选择所选出的特征。

图片4:查询质量对比
紫色(RT-DETR)大量集中在右上角,代表分类准+定位准

图片分析:
最小不确定性策略选出的查询质量远超普通方法。


六、创新3:不用重训练,动态调节速度

RT-DETR可以直接删减解码器层来提速,精度掉得极少。

  • 6层解码器:最高精度
  • 5层解码器:几乎不掉点
  • 4层解码器:速度更快

真正工业级友好:一机多速,不用重训。


七、核心代码(PyTorch风格)

# ==============================# RT-DETR 核心:高效混合编码器# ==============================classHybridEncoder(nn.Module):def__init__(self,in_channels,hidden_dim,num_layers=1):super().__init__()# AIFI:只对 S5 做注意力self.aifi=TransformerEncoderLayer(d_model=hidden_dim,nhead=8)# CCFF:跨尺度卷积融合self.ccff=CCFFModule(in_channels,hidden_dim)defforward(self,feats):# feats: (S3, S4, S5)s3,s4,s5=feats# AIFI 只处理 S5s5_flat=s5.flatten(2).permute(2,0,1)s5_enhanced=self.aifi(s5_flat)s5_enhanced=s5_enhanced.permute(1,2,0).view_as(s5)# CCFF 跨尺度融合out=self.ccff([s3,s4,s5_enhanced])returnout# ==============================# 最小不确定性查询选择# ==============================classMinUncertaintyQuerySelection(nn.Module):defforward(self,feats,cls_scores,box_preds):# 计算不确定性:分类与定位差异uncertainty=torch.abs(cls_scores-box_preds.sigmoid())# 选不确定性最小的 Top-K 特征_,indices=uncertainty.topk(300,dim=1,largest=False)returnfeats.gather(1,indices),box_preds.gather(1,indices)

八、实验结果(最强表格合集)

8.1 实时检测器大比拼

表格2(来自原文Table 2)

模型BackboneAPFPS
YOLOv5-L-49.054
YOLOv8-L-52.971
RT-DETR-R50R5053.1108
RT-DETR-R101R10154.374

结论:
RT-DETR精度、速度、参数全面超越所有YOLO L/X型号。


8.2 编码器消融实验

表格3(来自原文Table 3)

编码器变种AP延迟(ms)
A43.07.2
B44.911.1
C45.613.3
D46.412.2
Ds546.87.9
E(RT-DETR)47.99.3

结论:
只对S5做注意力+CNN融合,速度提升35%,精度还涨。


8.3 查询选择消融

表格4(来自原文Table 4)

查询策略AP高分特征占比
普通47.90.35%
最小不确定性48.70.82%

结论:
高质量查询直接带来**+0.8 AP**。


8.4 解码器动态速度调节

表格5(来自原文Table 5)

解码器层数AP延迟(ms)
6层53.19.3
5层53.08.8
4层52.78.3
2层51.67.5

结论:
从6层减到5层,精度几乎不掉,速度明显更快


九、全文总结

RT-DETR是首个真正实时的端到端Transformer检测器,用极简设计解决三大痛点:

  1. 去掉NMS,推理稳定、速度可预测
  2. 高效混合编码器,Transformer实时化
  3. 最小不确定性查询,大幅提升精度
  4. 动态解码器,不用重训自由调速

最终:
RT-DETR在速度、精度、部署性上全面超越YOLO,
正式宣告:DETR时代降临实时检测!


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 23:36:00

【Excel提效 No.044】一句话搞定数据分列按固定宽度拆分

目录 你是否也遇到过这些问题 处理效果 1. 前置准备 2. 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 1. 拆分银行卡号 2. 拆分产品编码 3. 拆分订单号 4. 拆分…

作者头像 李华
网站建设 2026/5/5 23:26:27

YOLO训练入门(下)学习笔记(第四集)

⏱ 00:02 - 00:30|核心类比:训练 管员工电脑硬件(CPU / GPU / 内存) 员工模型训练 让员工干活👉 核心思想:不要让硬件偷懒,也不要让它过劳崩溃⏱ 00:30 - 01:36|如何判断训练速度&…

作者头像 李华
网站建设 2026/5/5 23:20:37

使用 Taotoken CLI 工具一键生成并写入多款开发工具的配置文件

使用 Taotoken CLI 工具一键生成并写入多款开发工具的配置文件 1. Taotoken CLI 工具概述 Taotoken CLI 工具(taotoken/taotoken)是为开发者提供的命令行工具,支持快速配置多种大模型开发工具的运行环境。通过交互式菜单或子命令&#xff0…

作者头像 李华
网站建设 2026/5/5 23:17:55

大语言模型逻辑验证框架:原理、实现与应用

1. 项目背景与核心价值大语言模型在文本生成、问答系统等任务中展现出惊人能力,但其逻辑推理的可靠性和一致性始终是业界痛点。我在实际项目中发现,当模型需要处理数学证明、法律条文解析或复杂决策场景时,经常出现前后矛盾、违反基本逻辑规则…

作者头像 李华
网站建设 2026/5/5 23:15:22

初创公司如何借助Taotoken快速低成本验证多个大模型效果

初创公司如何借助Taotoken快速低成本验证多个大模型效果 1. 初创团队的技术选型挑战 对于资源有限的初创团队而言,在技术选型阶段面临的核心矛盾是验证需求与成本约束。大模型能力验证通常需要同时测试多个主流模型在真实业务场景中的表现,但直接对接各…

作者头像 李华
网站建设 2026/5/5 23:15:20

量子退火在计算机视觉多旋转平均问题中的应用

1. 量子多旋转平均(MRA)问题概述在计算机视觉领域,多旋转平均(Multiple Rotation Averaging, MRA)是一个基础但极具挑战性的优化问题。简单来说,就是当我们有一堆相机拍摄的图片时,需要计算出每…

作者头像 李华