英伟达发布LocateAnything视觉语言定位模型

AI热点日报时间：2026-07-01

热点解读

英伟达推出LocateAnything视觉语言定位模型，统一实现多目标检测、GUI定位、OCR文本检测及点级指向。推理速度在单张H100上达12 7BPS，较同类模型快数倍，并在LVIS等基准测试中取得领先成绩。其并行框解码技术有效提升效率与精度。

LocateAnything 是什么？英伟达视觉语言定位模型全解析

先给出结论：英伟达最新推出的视觉语言定位模型 LocateAnything，以单一模型统一实现了多目标检测、GUI 元素定位、OCR 文本检测、点级指向等多种任务。用户只需输入自然语言描述，模型便能在图像中精准框选目标。该模型的核心亮点在于推理速度——在单张 H100 上达到 12.7 BPS，较 Qwen3-VL 快约 10 倍。在 LVIS 等权威基准测试中，它也刷新了 SOTA 成绩。从机器人操控到文档智能，再到自动驾驶感知，这套方案提供了一个实用的统一解。

LocateAnything 核心功能详解

功能列表虽然较长，但每一条都紧扣“视觉定位”这一核心命题：

指代表达定位：用户说出“那个穿红衣服的人”，模型便能找到目标并画出边界框。
多目标密集检测：同时检测图像中的多个物体类别，输出密集的边界框集合，无需反复调用。
GUI 元素定位：识别界面中的按钮、输入框等交互元素，并支持输出点级坐标。
文本检测与 OCR：精准定位文字区域，可识别文档、场景文字及表格结构。
点级定位：输出精确的点坐标，适用于精细化的指向任务。
混合推理模式：默认采用快速并行模式，遇到复杂场景自动切换为稳定的串行模式——相当于为模型加上了一层保险。

LocateAnything 技术原理深度解析

技术层面，有几项设计颇具亮点：

并行框解码（PBD）：不同于传统逐 token 串行生成边界框的方式，PBD 将每个边界框或点视为原子单元，在单次前向传播中并行输出完整坐标集 (x1,y1,x2,y2)。理解这一点，就明白了它为何如此高效。
模型架构：采用 Moon-ViT 视觉编码器提取原生分辨率视觉特征，经双层 MLP 投影器映射后，送入 Qwen2.5 语言解码器进行定位推理。
结构化输出：通过、等特殊 token 组织输出结果，生成语义块、框块、负样本块和结束块。
混合推理模式：如上所述——MTP 模式主打高吞吐，一旦遇到格式异常或空间歧义，自动无缝回退到 NTP 串行模式。
纠正性重解码：并行解码若检测到框结构畸形或坐标冲突，系统会自动丢弃问题块，回退到已验证前缀，并用 NTP 重新生成修正结果。这种容错机制在工程落地时极为实用。

如何使用 LocateAnything：从环境配置到模型调用

动手体验的流程并不复杂，几步即可运行：

环境准备：从 GitHub 克隆 Eagle 仓库，进入 Embodied 目录执行 pip install -e . 完成依赖安装。
模型加载：导入 LocateAnythingWorker 类并实例化，加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
目标检测：调用 detect() 方法，传入图像和类别名称列表（如 ["person", "car"]），模型返回所有匹配目标的边界框坐标。
短语定位：使用 ground_multi() 方法输入图像和描述文本（如 "people wearing red shirts"），定位符合语义描述的目标。
文本检测：调用 detect_text()，模型自动识别图像中的文字区域并输出对应的边界框。
GUI 定位：通过 ground_gui() 定位界面元素，设置 output_type="point" 可输出点坐标而非边界框。
点级指向：使用 point() 方法输入图像和描述，获取指定目标的精确单点坐标。
批量推理：配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH，调用 detect_batch() 同时处理多组图像-查询对。
结果解析：提取输出中标签内的整数坐标（范围 0-1000），除以 1000 后映射到原始图像的宽高像素值。
微调适配：准备 JSONL 数据配方，使用 torchrun 启动全量微调脚本，或运行 LoRA 脚本冻结主干，仅训练投影器与低秩适配层。

LocateAnything 核心优势一览

速度领先：单张 H100 上达到 12.7 BPS，比 Qwen3-VL 快约 10 倍，比 Rex-Omni 快约 2.5 倍。这一差距在实际应用中非常明显。
精度 SOTA：在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上均取得最佳性能，并非单项突出，而是全面覆盖。
通用统一：单一模型搞定检测、定位、GUI、OCR、布局等多种任务，无需为不同场景切换专用模型，大大降低了维护成本。
几何一致性：并行解码保留了框内坐标的几何耦合关系，避免了串行生成常见的结构畸形问题。
显存优化：通过 la_flash 运行时，在 A100 等 GPU 上可将峰值显存从 35GB 降至 11GB，有效降低了部署门槛。

LocateAnything 项目资源与链接

项目官网：https://research.nvidia.com/labs/lpr/locate-anything/
GitHub仓库：https://github.com/NVlabs/Eagle/tree/main/Embodied
HuggingFace模型库：https://huggingface.co/nvidia/LocateAnything-3B
技术论文：https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything 与同类竞品对比分析

对比维度	LocateAnything-3B	Rex-Omni
所属机构	NVIDIA 英伟达	开源社区
产品定位	通用视觉语言定位与检测模型	通用视觉定位与理解模型
核心解码技术	并行框解码（PBD），原子化单次预测完整边界框	串行/混合坐标 token 生成
推理速度（H100）	12.7 BPS	~5.0 BPS
速度倍数	基准	慢约 2.5 倍
LVIS 精度（F1@Mean）	50.7	46.9
COCO 精度（F1@Mean）	54.7	52.9
Dense200 精度	58.7	58.3
DocLayNet 文档精度	76.8	70.7
M6Doc 文档精度	70.1	55.6
TotalText（OCR）	43.3	40.6
HumanRef 指代定位	68.8	65.4

LocateAnything 典型应用场景

具身智能与机器人：为机器人提供视觉感知能力，通过语言指令定位操作目标，例如“拿起桌上的红色杯子”。
文档智能处理：自动识别并框选文档中的标题、表格、段落、印章等结构化元素，适用于扫描件解析与版面分析。
GUI 自动化测试：定位界面中的按钮、输入框、图标，支撑自动化测试和 RPA 流程，减少手工标注的繁琐工作。
自动驾驶感知：在街景图像中密集检测车辆、行人、交通标志，输出精准边界框，满足实时性要求。
零售与仓储：通过描述快速定位货架上的特定商品或仓库中的目标包裹，提升拣选效率。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：英伟达发布LocateAnything视觉语言定位模型要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai-bot.cn/locateanything/

英伟达

上一篇：AI智能开支分类工具

下一篇：免费在线AI会计工具AccountingSolverAI

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。