LocateAnything 是 NVIDIA 推出的视觉-语言定位(Vision-Language Grounding)模型。核心创新Parallel Box Decoding (PBD)将完整的边界框作为原子单元一步预测,打破传统逐token自回归解码的瓶颈,实现速度和精度的双重提升。
核心创新:并行框解码(PBD)
传统的视觉定位模型以自回归方式逐词生成边界框坐标。LocateAnything 引入了并行框解码:
在并行的结构化单元中预测完整的边界框(
x1, y1, x2, y2)和点采用逐块多令牌预测框架
在不牺牲几何一致性的前提下实现2.5 倍吞吐量提升
支持三种推理模式:
- 快速模式
:并行解码,追求最大速度
- 慢速模式
:自回归解码,追求最高精度
- 混合模式
(默认):并行解码,当格式异常时回退到自回归解码
- 快速模式
使用场景
开放集、常见及长尾目标检测
在杂乱场景中的密集多目标检测
短语和指代表达定位
自动化数据集标注与注释(如检测、定位、指向)
用于交互式和智能体系统的 GUI 元素定位
机器人与自动驾驶感知
文档理解、版面定位和 OCR 定位
工业检测、监控和遥感应用
基于点的定位和细粒度空间推理
【nvidia/LocateAnything-3B】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【nvidia/LocateAnything-3B】带来的精彩体验吧!
项目入口
https://open.virtaicloud.com/web/project/detail/721647383146205184
视频教程
https://www.bilibili.com/video/BV1G4Te6MEwU/?vd_source=85d5574e8763d2ef3afdafc50f2b9d43
启动开发环境
进入【nvidia/LocateAnything-3B】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。
配置完成,点击进入开发环境,根据主页项目介绍进行部署。
使用方法
在gemini/code中找到使用说明,选中使用方法单元格,点击运行。
等待生成local URL,右侧添加端口7860。
项目使用方法
示例展示
➫温馨提示:完成项目后,记得及时关闭开发环境,以免继续产生费用!