LARYBench：定义具身动作表征的ImageNet，从人类视频学习泛化表征

AI热点日报时间：2026-07-05

热点解读

美团技术团队发布LARYBench基准，用于系统评测通用隐式动作表征。实验显示，通用视觉模型在动作泛化和控制精度上优于专家模型。研究发现，具身动作表征可从人类视频数据中自然涌现，为行业提供新标准。

美团技术团队最近放出了一个值得关注的新东西——LARYBench（Latent Action Representation Yielding Benchmark）。简单说，这是一个系统化的评测基准，目标是从大规模视觉数据中学习通用的隐式动作表征。实验结果表明，通用视觉模型在动作泛化和控制精度上反而比那些专门为具身智能设计的“专家模型”更强，这背后的潜台词很明确：具身动作表征完全可以从人类视频数据中自然涌现，而不必死磕机器人数据。这对整个具身智能领域来说，是一个重要的风向标。

核心要点

发布LARYBench基准：美团技术团队推出了Latent Action Representation Yielding Benchmark，专门用来系统化评测通用隐式动作表征。
通用模型表现卓越：实验数据很明确——通用视觉模型在动作泛化和控制精度两个关键指标上，都压过了专门为具身智能训练的动作专家模型。
动作表征的涌现：研究发现，具身动作表征可以从大规模人类视频数据中自然涌现，并非一定要靠昂贵的机器人数据去硬教。
定义行业新标准：这个基准已经被视为具身动作表征领域的“ImageNet”，为从视觉数据中学习动作提供了可量化的度量标准。

详细分析

LARYBench：具身智能动作表征的系统化度量

LARYBench的发布，其实填补了一个很要命的空白——之前没人能系统性地评测通用隐式动作表征到底行不行。它的核心任务很简单：指引研究者如何从大规模视觉数据中提取并学习通用的动作表征。具身智能发展到现在，让机器理解并执行复杂动作一直是个硬骨头。LARYBench相当于给这个领域立了一个标杆，就像当年ImageNet之于计算机视觉——有了统一的尺度，开发者才能量化评估模型从视觉输入中提取动作逻辑的能力到底有几斤几两。

通用视觉模型与动作专家模型的对比分析

根据美团公布的实验结果，通用视觉模型的表现带来了一个挺碘伏性的启示。过去大家普遍认为，专门为具身智能设计的“动作专家模型”在特定控制任务上肯定更擅长，毕竟人家就是吃这碗饭的。但LARYBench的数据却给出了相反的结论：通用视觉模型在动作泛化和控制精度两个维度上，都显著优于那些专家模型。这意味着什么？意味着在大规模多样化数据上预训练过的通用模型，底层逻辑提取能力更强，能更好地适应不同任务和场景。适应性、精准度，两样都没落下。

从人类视频数据中涌现的具身能力

这项研究最亮眼的发现，恐怕就是“涌现”这两个字。实验表明，具身动作表征可以从大规模的人类视频数据中自然涌现。换句话说，机器通过学习人类日常视频里的动作逻辑，就能内化出通用的动作表征，而不是非得靠机器人吭哧吭哧采集海量数据。这种涌现现象背后藏着一条重要规律：人类视频里本身就包含了丰富的物理世界交互逻辑，只要算法和评测基准（比如LARYBench）引导得当，通用视觉模型完全能够把这些信息转化为机器人可控的隐式动作指令。这对解决具身智能数据匮乏的问题来说，是一条极具潜力的新路子。

行业影响

LARYBench的发布，对整个具身智能和AI行业都会产生深远影响。首先，它确立了动作表征领域“ImageNet”的地位，后续研究者有了标准化的评价体系，算法迭代速度势必加快。其次，它验证了通用视觉模型在具身领域里的巨大潜力——这很可能引发行业对“通用模型vs专家模型”路线选择的重新思考。最关键的一点，它证明了人类视频数据在具身动作学习中的核心价值，这意味着训练门槛会大幅降低，机器人技术从实验室走向现实应用场景的进程，可能会比预想的要快得多。

常见问题

问题1：什么是LARYBench？

LARYBench全称Latent Action Representation Yielding Benchmark，是由美团技术团队发布的系统化评测基准。它主要用来评估模型从大规模视觉数据中学习通用隐式动作表征的能力，被业内称为具身动作表征领域的“ImageNet”。

问题2：为什么通用视觉模型比动作专家模型表现更好？

从实验结果来看，通用视觉模型在动作泛化和控制精度上全面占优。核心原因在于，通用模型在大规模多样化数据上训练过，学到的是更深层次的视觉规律和逻辑，面对复杂的具身控制任务时，比那些只盯着单一任务的专家模型更具适应性和精确性。说白了，底子宽，路子就多。

问题3：这项研究对获取具身智能数据有什么启示？

研究表明，具身动作表征可以从人类视频数据中涌现。这意味着开发者完全可以利用现成的海量人类视频资源来训练AI，而不是非要依赖成本高昂、采集困难的机器人实地操作数据。这个思路一旦打通，具身智能规模化发展的数据瓶颈就有了新的解决方案。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：LARYBench：定义具身动作表征的ImageNet，从人类视频学习泛化表征要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://aitoolly.com/zh/ai-news/article/2026-06-12-larybenchimagenet

动作

上一篇：罗技MX Master 3S亚马逊限时特惠89.99美元

下一篇：美团技术团队基于Agent评测思路实现31万行代码AI重构实践

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周烽火通信获评国家级信息化与工业化深度融合示范企业 02 / 本周昆仑万维发布全球首款音乐推理大模型Mureka O1 03 / 本周智能电网终端芯片厂商科创板IPO一波三折终过会 04 / 本周智谱AutoGLM沉思实测：惊喜有限，尚难替代人工 05 / 本周大语言模型推理完整过程与核心原理解析

01 / 本月烽火通信获评国家级信息化与工业化深度融合示范企业 02 / 本月昆仑万维发布全球首款音乐推理大模型Mureka O1 03 / 本月智能电网终端芯片厂商科创板IPO一波三折终过会 04 / 本月智谱AutoGLM沉思实测：惊喜有限，尚难替代人工 05 / 本月大语言模型推理完整过程与核心原理解析

热点快看

07-05 16:58烽火通信获评国家级信息化与工业化深度融合示范企业 07-05 16:58昆仑万维发布全球首款音乐推理大模型Mureka O1 07-05 16:58智能电网终端芯片厂商科创板IPO一波三折终过会 07-05 16:58智谱AutoGLM沉思实测：惊喜有限，尚难替代人工 07-05 16:57大语言模型推理完整过程与核心原理解析

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别