基于对比语言-图像预训练的YOLOv10开放词汇：CLIP-YOLOv10全流程实战-开发者社区

一、写在前面的废话

二、先看看效果

三、核心原理（用人话讲）

四、环境配置（血的教训）

五、完整代码实现

5.1 模型定义 models/clip_yolov10.py

5.2 训练脚本 train_clip_yolo.py

5.3 推理脚本 inference.py

5.4 快速测试脚本 quick_test.py

六、推荐的数据集

1. COCO-O (COCO with Out-of-vocabulary)

2. LVIS (Large Vocabulary Instance Segmentation)

3. OVAD (Open Vocabulary Attribute Detection)

4. 自制数据集方案（最推荐）

一、写在前面的废话

老铁们，好久不见。最近后台一堆人问我：“大佬，YOLOv10都出来了，能不能搞个开放词汇检测？就是那种不用固定类别，想检测啥就说啥的那种？”

说实话，我之前一直在忙项目，没时间折腾。这不，前两天刚把手头的活交完，赶紧抽时间把这套东西搞出来了。传统的YOLO系列模型有个硬伤——你训练的时候定好了80类，推理的时候就只能检测这80类，想加个新类别？对不起，重新训练吧。

今天要说的这个CLIP-YOLOv10，就是把CLIP那套牛逼的图文匹配能力嫁接到YOLOv10上。简单来说，你现在可以对着模型说“我要检测红色的杯子”，它还真就能给你框出来。不用重新训练，不用准备数据集，就是这么神奇。

整个代码我已经在COCO和自定义数据集上调通跑过了，效果怎么说呢，比我想象的要好，但也没好到能直接上生产（后面会分析原因）。这篇文章，我尽量把踩过的坑都填上，让你直接用就能跑通。

二、先看看效果

先说结论：在COCO验证集上，用同样的文本描述（比如“person”、“car”这些），CLIP-YOLOv1

计算机科学终极速查表大全：从编程语言到算法理论一网打尽

计算机科学终极速查表大全：从编程语言到算法理论一网打尽【免费下载链接】awesome-cheatsheet :beers: awesome cheatsheet 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-cheatsheet 在计算机科学领域，无论是编程新手还是资深开发者&am…

李华

3步搞定Spring Data JPA：告别SQL繁琐实现数据持久化

3步搞定Spring Data JPA：告别SQL繁琐实现数据持久化【免费下载链接】springboot-learning-example spring boot 实践学习案例，是 spring boot 初学者及核心技术巩固的最佳实践。项目地址: https://gitcode.com/gh_mirrors/sp/springboot-learning-ex…

李华

从列表页到详情页：手把手教你用Vue 3 + Router实现动态路由与参数传递（完整项目片段）

从列表页到详情页：Vue 3动态路由实战指南在单页应用开发中，列表到详情的跳转是最常见也最核心的交互模式之一。想象这样一个场景：你正在开发一个电商后台系统，商品列表中的每个卡片都需要点击后展示完整详情。传统多页应用会直接…

李华

终极游戏本性能控制：OmenSuperHub完全指南

终极游戏本性能控制：OmenSuperHub完全指南【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度，自动解除DB功耗限制。项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 想要彻底释放你的惠普OMEN游戏本隐藏性能吗&#xf…

李华

不同档位的降 AI 速度需求——30 分钟到 4 小时差在哪？

不同档位的降 AI 速度需求——30 分钟到 4 小时差在哪？ 「我答辩还有 1 小时——能压住 AI 率吗？」取决于你的档位。30% 起点 1 小时够；60% 起点不够；80% 起点远远不够。这一篇按 4 档拆解时间组成。 4 档时间需求总览档位AI…

李华

一、写在前面的废话

二、先看看效果

计算机科学终极速查表大全：从编程语言到算法理论一网打尽

3步搞定Spring Data JPA：告别SQL繁琐实现数据持久化

从列表页到详情页：手把手教你用Vue 3 + Router实现动态路由与参数传递（完整项目片段）

终极游戏本性能控制：OmenSuperHub完全指南

不同档位的降 AI 速度需求——30 分钟到 4 小时差在哪？

如何安全激活IDM：IDM-Activation-Script权限最小化实践指南