news 2026/4/15 10:56:28

【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测

文章:WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

代码:https://github.com/WeChatCV/WeDetect

单位:腾讯微信团队


一、问题背景:传统方法的“速度与精度”困局

传统开放词汇目标检测主要分为两类思路,却都存在明显短板:

  • 融合型方法:通过深度跨模态融合层让图像和文字深度交互,精度较高,但计算量极大,导致推理速度慢,且视觉特征无法在不同文字查询间共享,换个描述就得重新计算;

  • 非融合型方法:采用双塔架构,不用复杂融合,速度更快,但过去在精度和泛化能力上始终落后于融合型方法,难以支撑复杂场景需求。

此外,现有模型还存在功能单一的问题:要么只能做基础检测,要么无法处理“左边穿7号球衣的球员”这类复杂指令,要么不能精准检索小物体,难以覆盖多场景实际应用。

二、方法创新:以“检索”为核心,打造全能模型家族

腾讯团队跳出传统思路,将“检索”理念贯穿始终,推出了WeDetect模型家族,通过三大核心创新解决痛点:

1. 核心架构:无融合双塔,兼顾速度与对齐

WeDetect家族统一采用双塔架构,彻底抛弃耗时的跨模态融合层:

  • 文本编码器:将文字描述(如“猫”“心形的锁”)编码成特征向量;

  • 视觉编码器:提取图片中不同尺度的区域特征,采用ConvNeXt backbone,天生适配多尺度物体检测。

  • 识别逻辑:通过计算文本特征与图像区域特征的相似度(点积)完成匹配,就像在“特征字典”里检索目标,无需反复交互,速度自然拉满。

2. 三大模型:各司其职,覆盖全场景需求

  • WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框的高质量数据集(含多粒度标签,如“动物→狗→黄色的狗”),通过分阶段训练,在无融合架构下实现超高精度。

  • WeDetect-Uni(通用候选框生成器):冻结WeDetect的核心参数,仅训练一个“通用物体提示词”,就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性,可直接用于后续分类,还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体(哪怕是烟蒂这样的小物体)的图像,弥补了传统图像检索的细粒度短板。

  • WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制,推理速度提升13倍,还能避免边界框回归不准的问题。

3. 数据与训练:细节拉满,筑牢性能根基

  • 多粒度标签:为每个物体标注层级化标签,训练时随机采样,丰富文本多样性,助力细粒度对齐;

  • 分阶段训练:先预训练视觉和文本编码器,再训练模型头部和颈部,最后端到端微调,充分复用预训练知识;

  • 自动数据引擎:用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注,生成高质量、无遗漏的标注数据,减少人工成本。

三、实验结果:15个基准测试登顶,性能全面碾压

在15个主流 benchmarks 上的测试显示,WeDetect家族实现了“速度与精度”的双重突破:

1. 基础检测:又快又准

  • WeDetect-Tiny(33M参数):在LVIS数据集上实现37.4 AP,比同类快模型YOLO-World-L高2.0 AP,且运行速度达62.5 fps,远超YOLO-World-L的54.6 fps;

  • WeDetect-Large:在LVIS数据集上达到49.4 AP,比此前的SOTA模型LLMDet高7.4 AP,性能断层领先。

2. 物体检索:细粒度优势明显

WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6,比经典模型CLIP高出37.2,能精准定位小物体和局部特征,检索速度远超传统方法。

3. 复杂指令理解:高效碾压大模型

WeDetect-Ref 4B(仅40亿参数)在RefCOCO/+/g数据集上平均准确率达93.2,比Qwen3-VL 4B高6.6个百分点,且推理速度是后者的13倍,甚至比Grounding-DINO-L还快;同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。

四、优势与局限:实际应用的“加分项”与“待优化点”

核心优势

  1. 速度极快:无融合架构+并行推理,WeDetect-Tiny达62.5 fps,WeDetect-Ref比同类大模型快13倍,满足实时部署需求;

  2. 功能全面:统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务,无需多个模型拼接;

  3. 泛化性强:在跨领域数据集(如卡通、素描、纹身图像)和长尾类别上表现稳定,零样本迁移能力突出;

  4. 部署友好:架构简洁,可通过GPU和Flash Attention进一步加速,适配不同硬件环境。

现存局限

  1. 多查询支持不足:WeDetect-Ref是二进制分类模型,单次前向传播只能处理一个查询,多查询需多次推理后合并结果(但因速度足够快,实际影响较小);

  2. 小样本极端场景:在极少数超小众类别或极模糊图像上,检索精度仍有提升空间。

五、一句话总结

WeDetect家族以“检索”为核心,通过无融合双塔架构、多粒度数据训练和功能化模型设计,首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破,为实时智能视觉应用提供了高效可行的解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 16:19:33

MCP分布式事务一致性难题突破(独家解决方案曝光)

第一章:MCP分布式事务一致性难题破解在微服务架构(Microservices Cloud Native Platform, MCP)广泛应用的今天,跨服务的数据一致性成为系统稳定性的核心挑战。传统单体数据库的ACID事务无法直接延伸至分布式环境,导致…

作者头像 李华
网站建设 2026/4/14 6:26:44

Claude Code安装指南:AI如何提升你的开发效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个Python脚本,使用Claude Code API实现以下功能:1. 接收用户输入的自然语言需求描述;2. 调用Claude Code生成对应的代码片段;…

作者头像 李华
网站建设 2026/4/9 9:51:48

备考MCP AI Copilot,这5个高频考点你必须掌握,否则90%会挂科

第一章:MCP AI Copilot 认证考试概述MCP AI Copilot 认证考试是面向现代云平台开发者与AI工程实践者的一项专业能力评估体系,旨在验证考生在AI辅助开发、自动化代码生成、智能运维及安全合规等核心场景下的综合应用能力。该认证覆盖主流开发环境与AI集成…

作者头像 李华
网站建设 2026/4/5 14:14:59

N8N vs 传统开发:自动化流程效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个对比分析应用,展示用N8N和Python分别实现以下功能的工作量对比:每天定时从3个不同API获取数据,清洗转换后存入数据库,异常时…

作者头像 李华
网站建设 2026/4/12 23:18:04

若依框架前后端分离架构下集成Hunyuan-MT-7B翻译接口

若依框架集成 Hunyuan-MT-7B 翻译服务的工程实践 在当今多语言信息交互日益频繁的背景下,企业系统对高质量、低延迟的翻译能力需求愈发迫切。尤其是在政务、医疗、教育等涉及少数民族语言支持的场景中,通用云服务商的翻译API往往存在成本高、数据出境风险…

作者头像 李华
网站建设 2026/4/15 0:46:17

Proteus元器件大全:硬件原理设计全面讲解

从零搭建虚拟实验室:Proteus元器件库实战全解析你有没有过这样的经历?焊了一块板子,通电后芯片冒烟;或者调试几天才发现某个引脚接反、电源没加滤波电容。更别提学生时代做课设时,为了等一个运放或单片机快递而耽误整个…

作者头像 李华