英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
阅读原文· ithome.com英伟达联合香港理工大学、南京大学推出 LocateAnything 模型,专为机器人感知与 AI 智能体设计,可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术,提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上,混合模式速度达 12.7 Boxes Per Second,超过 Qwen3-VL(1.1 BPS)与 Rex-Omni(5.0 BPS)。在 LVIS(IoU=0.95)评测中得分 31.1,高于 Rex-Omni 的 20.7。
IT之家 5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等,推出 LocateAnything 模型,主打高速、高精度检测对象。
该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。
NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。
LocateAnything 提出 Parallel Box Decoding(并行框解码),把边界框或点作为固定长度原子单元,在 1 步内预测 x1、y1、x2、y2。
该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:
Fast Mode 面向端侧机器人和具身智能,强调吞吐;
Slow Mode 偏向离线标注和高精度评测;
Hybrid Mode 默认快速输出,遇到格式异常或空间歧义时切回自回归解码。
团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。