LARYBench发布：定义具身动作表征的ImageNet，首次度量人类视频泛化表征

AI热点日报时间：2026-07-05

热点解读

在具身智能领域，最近有一件值得关注的大事：美团技术团队正式推出了LARYBench——一个系统化的评测基准，专门用来衡量从大规模视觉数据中学习到的通用隐式动作表征。这个基准的发布，被不少人看作是具身智能领域的“ImageNet”时刻。实验结果还透露了一个反直觉的结论：通用视觉模型在动作泛化和控制精度上，居然碾压了专门为具身任务设计的动作专家模型。这恰好说明，具身动作表征能够从海量的人类视频数据中“涌现”出来，给整个行业指出了一个新的方向。

核心要点

LARYBench基准发布：美团技术团队带来的是 Latent Action Representation Yielding Benchmark，专门用于系统评测从大规模视觉数据中习得的通用隐式动作表征。
具身智能的“ImageNet”：这个基准被业内视作具身动作表征领域的里程碑，好比计算机视觉中的ImageNet，从此有了统一的度量标尺。
通用模型胜出：实验数据显示，通用视觉模型在动作泛化能力与控制精度上，都明显优于那些只为具身智能量身定做的动作专家模型。
动作表征“涌现”：研究证实了，具身动作表征可以从大规模人类视频数据中自发产生，不再需要完全依赖特定任务的标注数据。

详细分析

LARYBench的定义与系统化评测意义

LARYBench的推出，恰好填补了具身智能在通用动作表征评测上的空白。回顾人工智能的发展史，ImageNet的出现极大推动了计算机视觉的进步，而LARYBench则试图在具身动作表征领域扮演类似的角色。它不只是一个数据集，更是一套系统化的评测框架，重点在于衡量模型如何从海量、非结构的视觉数据中提取出能够指导物理实体动作的“隐式表征”。这种表征是具身智能理解物理世界、执行复杂任务的基础，有了系统化的评测机制，后续研究就有了清晰的优化方向。

通用视觉模型与动作专家模型的对比

这项研究中最耐人寻味的发现，莫过于通用视觉模型的表现居然超过了专门训练的专家模型。通常我们会想，专家模型针对特定任务精心设计，精度和控制上理应有天然优势。但LARYBench的实验结果彻底碘伏了这一直觉。在动作泛化（应对从未见过的新场景）和控制精度（动作的准确程度）上，通用视觉模型展现出了更强的鲁棒性。这意味着，在大规模、多样化数据上预训练的通用模型，所捕捉到的底层视觉规律和空间逻辑，能够更有效地迁移到具体的动作控制中去，在复杂多变的具身环境里表现得更出色。

从人类视频中学习：动作表征的涌现机制

LARYBench的研究进一步确认了，具身动作表征可以从大规模人类视频数据中“涌现”。这一发现的科研价值相当深远。它提示我们：或许不需要为每一个机器人动作进行昂贵的人工标注指令训练，而是直接让AI观察人类在现实世界中的活动视频，自动习得关于“动作”的深层理解。这种从视觉信号到动作逻辑的自发转化，证明了大规模人类行为数据中蕴藏着丰富的具身先验知识。当模型规模和数据量达到一定程度，这种隐式的动作表征能力便会自然产生，为实现通用具身智能铺平了道路。

行业影响

LARYBench的发布，对整个具身智能行业影响深远。第一，它为全球研究者提供了一把衡量动作表征质量的“标尺”，加速了算法的迭代与优化。第二，这项研究强调了通用视觉模型的价值，很可能引导行业资源从单一任务的专家模型转向更大规模、更具通用性的视觉预训练模型。第三，也是最值得关注的一点——“从人类视频数据中涌现动作表征”的结论，大大扩展了训练数据的来源，降低了数据获取的门槛。未来机器人学习将更加依赖对人类社会现有视觉资源的深度挖掘，这无疑为整个产业打开了新的想象空间。

常见问题

问题1：LARYBench中的“隐式动作表征”到底指什么？

简单来说，隐式动作表征就是模型从视觉数据中提取出来的、虽然没有明确动作标签却包含了执行动作所需关键信息的特征。这些特征能够反映物体间的空间关系、运动趋势和物理约束，从而指导具身智能在物理世界中做出正确的动作反应。

问题2：为什么通用视觉模型会比专门的动作专家模型表现更好？

根本原因在于通用视觉模型经过大规模、多样化的视觉数据预训练，学到了更丰富、更具泛化能力的特征表示。而专门的动作专家模型往往受限于较小的特定任务数据集，容易过拟合，面对新场景或高精度要求时，缺乏通用模型那种深厚的底层视觉理解能力。

问题3：从人类视频中学习动作表征有哪些实际好处？

最大的好处是数据的丰富性和低成本。人类视频涵盖了极其多样的环境和复杂的交互行为，在互联网上几乎取之不尽。通过从中学习，具身智能可以吸收人类处理物理世界的经验，而无需为每一种可能的机器人操作手动编写代码或采集昂贵的传感器数据。这大大加速了机器人的学习进程。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：LARYBench发布：定义具身动作表征的ImageNet，首次度量人类视频泛化表征要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://aitoolly.com/zh/ai-news/article/2026-06-28-larybench-released-defining-the-imagenet-for-embodied-action-representations-via-large-scale-human-v

动作

上一篇：高考志愿填报正被AI主导的趋势

下一篇：美团LongCat发布General 365推理评测 Gemini 3 Pro准确率仅62.8%

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周通义灵码实战Flutter跨平台移动端开发实例 02 / 本周LiblibAI数据分析提示词计划太粗优化方法 03 / 本周Firefly办公提示词避免元素堆砌的技巧 04 / 本周SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 05 / 本周如何搭建自己的提示词库

01 / 本月通义灵码实战Flutter跨平台移动端开发实例 02 / 本月LiblibAI数据分析提示词计划太粗优化方法 03 / 本月Firefly办公提示词避免元素堆砌的技巧 04 / 本月SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 05 / 本月如何搭建自己的提示词库

热点快看

07-05 15:28通义灵码实战Flutter跨平台移动端开发实例 07-05 15:28LiblibAI数据分析提示词计划太粗优化方法 07-05 15:27Firefly办公提示词避免元素堆砌的技巧 07-05 15:27SpaceX、Anthropic与OpenAI掀起IPO热潮 MANGOS时代开启 07-05 15:27如何搭建自己的提示词库

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别