news 2026/7/3 11:47:09

云平台一键部署【nvidia/LocateAnything-3B】视觉定位推理服务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
云平台一键部署【nvidia/LocateAnything-3B】视觉定位推理服务

LocateAnything 是 NVIDIA 推出的视觉-语言定位(Vision-Language Grounding)模型。核心创新Parallel Box Decoding (PBD)将完整的边界框作为原子单元一步预测,打破传统逐token自回归解码的瓶颈,实现速度和精度的双重提升。

核心创新:并行框解码(PBD)

传统的视觉定位模型以自回归方式逐词生成边界框坐标。LocateAnything 引入了并行框解码

  • 并行的结构化单元中预测完整的边界框(x1, y1, x2, y2)和点

  • 采用逐块多令牌预测框架

  • 在不牺牲几何一致性的前提下实现2.5 倍吞吐量提升

  • 支持三种推理模式

    • 快速模式

      :并行解码,追求最大速度

    • 慢速模式

      :自回归解码,追求最高精度

    • 混合模式

      (默认):并行解码,当格式异常时回退到自回归解码

使用场景

  • 开放集、常见及长尾目标检测

  • 在杂乱场景中的密集多目标检测

  • 短语和指代表达定位

  • 自动化数据集标注与注释(如检测、定位、指向)

  • 用于交互式和智能体系统的 GUI 元素定位

  • 机器人与自动驾驶感知

  • 文档理解、版面定位和 OCR 定位

  • 工业检测、监控和遥感应用

  • 基于点的定位和细粒度空间推理

【nvidia/LocateAnything-3B】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验【nvidia/LocateAnything-3B】带来的精彩体验吧!

项目入口

https://open.virtaicloud.com/web/project/detail/721647383146205184

视频教程
https://www.bilibili.com/video/BV1G4Te6MEwU/?vd_source=85d5574e8763d2ef3afdafc50f2b9d43

启动开发环境

进入【nvidia/LocateAnything-3B】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。

配置完成,点击进入开发环境,根据主页项目介绍进行部署。

使用方法

在gemini/code中找到使用说明,选中使用方法单元格,点击运行。

等待生成local URL,右侧添加端口7860。

项目使用方法

示例展示

➫温馨提示:完成项目后,记得及时关闭开发环境,以免继续产生费用!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 11:44:59

01| 回顾经典:TCP/IP和Linux是如何改变世界的?

引言今天是网络编程课程的第一章,我想你一定满怀热情,期望快速进入到技术细节里,了解那些你不熟知的编程技能。而今天我却想和你讲讲历史,虽然这些事情看着不是“干货”,但它可以帮助你理解网络编程中各种技术的来龙去…

作者头像 李华
网站建设 2026/7/3 11:43:52

性价比高的惠州餐饮燃料排名

在惠州餐饮行业,燃料成本一直是老板们头疼的问题。液化气价格波动大,醇基燃料安全系数低,环保燃料又担心不合规,这些问题直接影响到餐馆的利润和正常运营。根据2023年惠州餐饮协会的调研数据,超过60%的餐饮老板反映燃料…

作者头像 李华
网站建设 2026/7/3 11:29:56

PaddleOCR GPU集成四层校验与CUDA/cuDNN兼容性实战指南

1. 项目概述:为什么PaddleOCR的GPU集成不是“装完驱动就跑通”的事 PaddleOCR是百度飞桨生态里最成熟的开源OCR工具链,从v2.0开始就全面转向动态图架构,现在最新稳定版已支持中文、英文、多语种混合识别、表格识别、公式识别等全场景能力。但…

作者头像 李华