面包屑图标 当前位置: 首页
AI资讯
热点详情

英伟达发布LocateAnything视觉语言定位模型

AI热点日报
AI热点日报时间:2026-07-01
热点解读

英伟达推出LocateAnything视觉语言定位模型,统一实现多目标检测、GUI定位、OCR文本检测及点级指向。推理速度在单张H100上达12 7BPS,较同类模型快数倍,并在LVIS等基准测试中取得领先成绩。其并行框解码技术有效提升效率与精度。

LocateAnything 是什么?英伟达视觉语言定位模型全解析

先给出结论:英伟达最新推出的视觉语言定位模型 LocateAnything,以单一模型统一实现了多目标检测、GUI 元素定位、OCR 文本检测、点级指向等多种任务。用户只需输入自然语言描述,模型便能在图像中精准框选目标。该模型的核心亮点在于推理速度——在单张 H100 上达到 12.7 BPS,较 Qwen3-VL 快约 10 倍。在 LVIS 等权威基准测试中,它也刷新了 SOTA 成绩。从机器人操控到文档智能,再到自动驾驶感知,这套方案提供了一个实用的统一解。

LocateAnything 核心功能详解

功能列表虽然较长,但每一条都紧扣“视觉定位”这一核心命题:

  • 指代表达定位:用户说出“那个穿红衣服的人”,模型便能找到目标并画出边界框。
  • 多目标密集检测:同时检测图像中的多个物体类别,输出密集的边界框集合,无需反复调用。
  • GUI 元素定位:识别界面中的按钮、输入框等交互元素,并支持输出点级坐标。
  • 文本检测与 OCR:精准定位文字区域,可识别文档、场景文字及表格结构。
  • 点级定位:输出精确的点坐标,适用于精细化的指向任务。
  • 混合推理模式:默认采用快速并行模式,遇到复杂场景自动切换为稳定的串行模式——相当于为模型加上了一层保险。

LocateAnything 技术原理深度解析

技术层面,有几项设计颇具亮点:

  • 并行框解码(PBD):不同于传统逐 token 串行生成边界框的方式,PBD 将每个边界框或点视为原子单元,在单次前向传播中并行输出完整坐标集 (x1,y1,x2,y2)。理解这一点,就明白了它为何如此高效。
  • 模型架构:采用 Moon-ViT 视觉编码器提取原生分辨率视觉特征,经双层 MLP 投影器映射后,送入 Qwen2.5 语言解码器进行定位推理。
  • 结构化输出:通过 等特殊 token 组织输出结果,生成语义块、框块、负样本块和结束块。
  • 混合推理模式:如上所述——MTP 模式主打高吞吐,一旦遇到格式异常或空间歧义,自动无缝回退到 NTP 串行模式。
  • 纠正性重解码:并行解码若检测到框结构畸形或坐标冲突,系统会自动丢弃问题块,回退到已验证前缀,并用 NTP 重新生成修正结果。这种容错机制在工程落地时极为实用。

如何使用 LocateAnything:从环境配置到模型调用

动手体验的流程并不复杂,几步即可运行:

  • 环境准备:从 GitHub 克隆 Eagle 仓库,进入 Embodied 目录执行 pip install -e . 完成依赖安装。
  • 模型加载:导入 LocateAnythingWorker 类并实例化,加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
  • 目标检测:调用 detect() 方法,传入图像和类别名称列表(如 ["person", "car"]),模型返回所有匹配目标的边界框坐标。
  • 短语定位:使用 ground_multi() 方法输入图像和描述文本(如 "people wearing red shirts"),定位符合语义描述的目标。
  • 文本检测:调用 detect_text(),模型自动识别图像中的文字区域并输出对应的边界框。
  • GUI 定位:通过 ground_gui() 定位界面元素,设置 output_type="point" 可输出点坐标而非边界框。
  • 点级指向:使用 point() 方法输入图像和描述,获取指定目标的精确单点坐标。
  • 批量推理:配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH,调用 detect_batch() 同时处理多组图像-查询对。
  • 结果解析:提取输出中 标签内的整数坐标(范围 0-1000),除以 1000 后映射到原始图像的宽高像素值。
  • 微调适配:准备 JSONL 数据配方,使用 torchrun 启动全量微调脚本,或运行 LoRA 脚本冻结主干,仅训练投影器与低秩适配层。

LocateAnything 核心优势一览

  • 速度领先:单张 H100 上达到 12.7 BPS,比 Qwen3-VL 快约 10 倍,比 Rex-Omni 快约 2.5 倍。这一差距在实际应用中非常明显。
  • 精度 SOTA:在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上均取得最佳性能,并非单项突出,而是全面覆盖。
  • 通用统一:单一模型搞定检测、定位、GUI、OCR、布局等多种任务,无需为不同场景切换专用模型,大大降低了维护成本。
  • 几何一致性:并行解码保留了框内坐标的几何耦合关系,避免了串行生成常见的结构畸形问题。
  • 显存优化:通过 la_flash 运行时,在 A100 等 GPU 上可将峰值显存从 35GB 降至 11GB,有效降低了部署门槛。

LocateAnything 项目资源与链接

  • 项目官网:https://research.nvidia.com/labs/lpr/locate-anything/
  • GitHub仓库:https://github.com/NVlabs/Eagle/tree/main/Embodied
  • HuggingFace模型库:https://huggingface.co/nvidia/LocateAnything-3B
  • 技术论文:https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything 与同类竞品对比分析

对比维度LocateAnything-3BRex-Omni
所属机构NVIDIA 英伟达开源社区
产品定位通用视觉语言定位与检测模型通用视觉定位与理解模型
核心解码技术并行框解码(PBD),原子化单次预测完整边界框串行/混合坐标 token 生成
推理速度(H100)12.7 BPS~5.0 BPS
速度倍数基准慢约 2.5 倍
LVIS 精度(F1@Mean)50.746.9
COCO 精度(F1@Mean)54.752.9
Dense200 精度58.758.3
DocLayNet 文档精度76.870.7
M6Doc 文档精度70.155.6
TotalText(OCR)43.340.6
HumanRef 指代定位68.865.4

LocateAnything 典型应用场景

  • 具身智能与机器人:为机器人提供视觉感知能力,通过语言指令定位操作目标,例如“拿起桌上的红色杯子”。
  • 文档智能处理:自动识别并框选文档中的标题、表格、段落、印章等结构化元素,适用于扫描件解析与版面分析。
  • GUI 自动化测试:定位界面中的按钮、输入框、图标,支撑自动化测试和 RPA 流程,减少手工标注的繁琐工作。
  • 自动驾驶感知:在街景图像中密集检测车辆、行人、交通标志,输出精准边界框,满足实时性要求。
  • 零售与仓储:通过描述快速定位货架上的特定商品或仓库中的目标包裹,提升拣选效率。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:英伟达发布LocateAnything视觉语言定位模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://ai-bot.cn/locateanything/
英伟达

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-03 20:42
AI驱动的员工英语口语教练Lucida

LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。

AI热点2026-07-03 20:42
Screenshot2Code:截图转代码工具

Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。

AI热点2026-07-03 20:42
SpeakStruct 语音转结构化数据 可自定义模板

SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。

AI热点2026-07-03 20:41
AI驱动语音治疗应用 IzzyAI

IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。

延伸阅读