news 2026/5/4 21:19:34

基于对比语言-图像预训练的YOLOv10开放词汇:CLIP-YOLOv10全流程实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于对比语言-图像预训练的YOLOv10开放词汇:CLIP-YOLOv10全流程实战

目录

一、写在前面的废话

二、先看看效果

三、核心原理(用人话讲)

四、环境配置(血的教训)

五、完整代码实现

5.1 模型定义 models/clip_yolov10.py

5.2 训练脚本 train_clip_yolo.py

5.3 推理脚本 inference.py

5.4 快速测试脚本 quick_test.py

六、推荐的数据集

1. COCO-O (COCO with Out-of-vocabulary)

2. LVIS (Large Vocabulary Instance Segmentation)

3. OVAD (Open Vocabulary Attribute Detection)

4. 自制数据集方案(最推荐)


一、写在前面的废话

老铁们,好久不见。最近后台一堆人问我:“大佬,YOLOv10都出来了,能不能搞个开放词汇检测?就是那种不用固定类别,想检测啥就说啥的那种?”

说实话,我之前一直在忙项目,没时间折腾。这不,前两天刚把手头的活交完,赶紧抽时间把这套东西搞出来了。传统的YOLO系列模型有个硬伤——你训练的时候定好了80类,推理的时候就只能检测这80类,想加个新类别?对不起,重新训练吧。

今天要说的这个CLIP-YOLOv10,就是把CLIP那套牛逼的图文匹配能力嫁接到YOLOv10上。简单来说,你现在可以对着模型说“我要检测红色的杯子”,它还真就能给你框出来。不用重新训练,不用准备数据集,就是这么神奇。

整个代码我已经在COCO和自定义数据集上调通跑过了,效果怎么说呢,比我想象的要好,但也没好到能直接上生产(后面会分析原因)。这篇文章,我尽量把踩过的坑都填上,让你直接用就能跑通。


二、先看看效果

先说结论:在COCO验证集上,用同样的文本描述(比如“person”、“car”这些),CLIP-YOLOv1

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 21:17:34

计算机科学终极速查表大全:从编程语言到算法理论一网打尽

计算机科学终极速查表大全:从编程语言到算法理论一网打尽 【免费下载链接】awesome-cheatsheet :beers: awesome cheatsheet 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-cheatsheet 在计算机科学领域,无论是编程新手还是资深开发者&am…

作者头像 李华
网站建设 2026/5/4 21:17:33

3步搞定Spring Data JPA:告别SQL繁琐实现数据持久化

3步搞定Spring Data JPA:告别SQL繁琐实现数据持久化 【免费下载链接】springboot-learning-example spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。 项目地址: https://gitcode.com/gh_mirrors/sp/springboot-learning-ex…

作者头像 李华
网站建设 2026/5/4 21:16:30

从列表页到详情页:手把手教你用Vue 3 + Router实现动态路由与参数传递(完整项目片段)

从列表页到详情页:Vue 3动态路由实战指南 在单页应用开发中,列表到详情的跳转是最常见也最核心的交互模式之一。想象这样一个场景:你正在开发一个电商后台系统,商品列表中的每个卡片都需要点击后展示完整详情。传统多页应用会直接…

作者头像 李华
网站建设 2026/5/4 21:12:28

终极游戏本性能控制:OmenSuperHub完全指南

终极游戏本性能控制:OmenSuperHub完全指南 【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度,自动解除DB功耗限制。 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 想要彻底释放你的惠普OMEN游戏本隐藏性能吗&#xf…

作者头像 李华
网站建设 2026/5/4 21:09:50

不同档位的降 AI 速度需求——30 分钟到 4 小时差在哪?

不同档位的降 AI 速度需求——30 分钟到 4 小时差在哪? 「我答辩还有 1 小时——能压住 AI 率吗?」 取决于你的档位。30% 起点 1 小时够;60% 起点不够;80% 起点远远不够。这一篇按 4 档拆解时间组成。 4 档时间需求总览 档位AI…

作者头像 李华
网站建设 2026/5/4 21:07:44

如何安全激活IDM:IDM-Activation-Script权限最小化实践指南

如何安全激活IDM:IDM-Activation-Script权限最小化实践指南 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script IDM-Activation-Script是一款开源工具&am…

作者头像 李华