news 2026/3/10 19:05:25

多模态-8 YOLO World

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-8 YOLO World

这篇文章介绍多模态模型-YOLO World

多模态基础知识介绍可以看:多模态-1 基础理论

Grounding DINO介绍可以看:多模态-7 Grounding DINO

CLIP介绍可以看:多模态-2 CLIP

YOLO World原论文:《YOLO-World: Real-Time Open-Vocabulary Object Detection》

YOLO World类似Grounding DINO,也是解决开放集合目标检测的问题,但是使用的图像编码器是YOLO(具体是YOLO V8),相比于以往的开放集合目标检测模型更轻量,推理部署阶段可进一步配合重参数化的技巧提升推理速度,使YOLO World接近于原始YOLO的速度,消费级显卡上可达70+ FPS。

一 模型结构与训练

YOLO World整体结构如下:

输入依旧是<图像,文本>,但是相比于Grounding DINO,YOLO World输入的文本是类别名称列表,而Grounding DINO是任意格式的文本。

YOLO-World 更适合“我知道要检测什么,只是模型没学过”的场景,而Grounding DINO 更适合“我用语言描述我想找的东西”的场景。

将图片输入到YOLO的Backbone中进行图像特征提取,将类别文本输入到Text Encoder中进行文本编码特征提取(论文中使用的Text Encoder是CLIP),利用Vision-Language PAN进行图像特征、文本编码特征的语义对齐,将语义对齐后的特征输入到Text Contrastive Head、Box Head中得到预测类别和矩形框坐标输出,和真实标签计算损失反向梯度传播训练整个YOLO World。

1.1 Text Encoder

利用CLIP对输入的文本类别列表,如[cat,dog,apple],进行特征编码表示,得到[C,D]大小的编码表示矩阵,其中C是类别的个数、D是文本特征编码表示的嵌入向量维度。如果输入的是一整段的文本,则利用n-gram方法从文本中提取出文本类别列表,再进行特征编码表示,比如输入的是“a cat and a dog eat apple”,需要借助n-gram方法从这段文本中提取出来要检测的类别名词,然后形成类别名称列表再输入到CLIP中进行特征编码表示。

1.2 Vision-Language PAN

1.3 训练

二 实验结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/2 19:46:46

AC掉线后,本地转发的AP还能用吗?答案藏在这3个关键点里

在企业无线部署中,AC(无线控制器)作为“大脑”,一旦掉线就容易让人慌神——尤其是开启本地转发模式时,已连用户会不会断网?新用户能不能接入?很多运维同学都会混淆通用场景与本地转发的特殊逻辑,今天就一次性讲透,帮你快速排障、理清真相。 先明确核心前提:企业WLAN…

作者头像 李华
网站建设 2026/3/10 8:13:18

嵌入式MPU、MCU与SoC的本质区别

基本概念MPU (微处理器单元)定义&#xff1a;Microprocessor Unit&#xff0c;专注于高性能计算的处理器核心特点&#xff1a;需要外接RAM、Flash等存储器件运行频率高(通常100MHz以上)支持复杂操作系统(如Linux)典型代表&#xff1a;ARM Cortex-A系列MCU (微控制器单元)定义&a…

作者头像 李华
网站建设 2026/3/9 14:58:36

开题报告 基于Java的企业人事智能推荐系统

目录系统背景与意义核心技术框架功能模块设计创新点应用场景示例技术验证指标项目技术支持可定制开发之功能亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作系统背景与意义 现代企业人力资源管理面临员工技能匹配、岗位适配度、人才流失…

作者头像 李华
网站建设 2026/3/10 17:37:43

开题报告 基于大数据的学生综合评价系统

目录 基于大数据的学生综合评价系统介绍系统核心功能模块关键技术实现应用场景示例 项目技术支持可定制开发之功能亮点源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作 基于大数据的学生综合评价系统介绍 该系统利用大数据技术整合学生在校…

作者头像 李华
网站建设 2026/3/2 13:22:55

Agent智能体

1 Agent是什么 简单来说&#xff0c;Agent就是什么一个能感知环境、决策并行动以实现目标的智能体。 像ChatGPT这样的基础LLM本质上已经具备Agent的雏形&#xff1a;它能理解问题&#xff08;环境感知&#xff09;&#xff0c;决定如何回答&#xff08;决策&#xff09;&…

作者头像 李华