美团LARYBench：定义具身动作表征的ImageNet 揭示通用视觉模型泛化优势

AI热点日报时间：2026-07-04

热点解读

要深入理解具身智能领域的最新突破，首先需要关注美团技术团队发布的重磅工具——LARYBench（Latent Action Representation Yielding Benchmark）。这一评测基准的核心目标非常明确：为那些希望从海量视觉数据中学习通用隐式动作表征的研究人员，提供一把标准化的

要深入理解具身智能领域的最新突破，首先需要关注美团技术团队发布的重磅工具——LARYBench（Latent Action Representation Yielding Benchmark）。这一评测基准的核心目标非常明确：为那些希望从海量视觉数据中学习通用隐式动作表征的研究人员，提供一把标准化的衡量标尺。实验数据揭示了一个引人注目的现象：通用视觉模型在动作理解与精准控制方面，竟然全面超越了专为具身智能设计的“专家模型”。换言之，那种具备跨场景适应能力的通用动作表征，实际上可以通过观察大量人类视频自然“涌现”，而并非必须依赖昂贵的机器人示教数据。这一发现为具身智能的标准化评估开辟了一条全新的路径。

核心要点

发布LARYBench评测基准：一套系统化评估通用隐式动作表征的专业工具，由美团技术团队打造。
通用模型表现更加出色：实验数据明确显示，通用视觉模型在动作泛化能力与控制精准度上，均优于专门的具身模型。
数据驱动的涌现效应：研究表明，具身动作表征能够从大规模人类视频数据中直接、自然地“生发”，无需依赖特定任务的标注数据。
塑造行业评测标准：这套新基准被誉为具身动作表征领域的“ImageNet”，首次实现了对人类视频中习得的泛化表征进行量化评估。

详细分析

接下来，我们梳理几个必须理解的关键议题。

LARYBench：具身智能动作表征的全新评测标尺

LARYBench的问世，实质上是填补了具身智能领域长期存在的空白——通用动作表征评估工具的缺失。过去，开发者常常面临这样的困境：自己设计的模型在任务A上表现良好，但切换到任务B时就束手无策，而标准化的评测体系却付之阙如。LARYBench正是针对这一痛点而来。它构建了一套系统化的评测架构，使得不同模型在处理复杂物理交互时的表征能力，首次拥有了统一的比较维度。其地位与意义，类似于当年ImageNet在计算机视觉领域中所扮演的角色——通过标准化的数据与任务，驱动整个行业的技术迭代与进步。

通用视觉模型与专家模型的效能对比

在LARYBench构建的实验框架下，研究人员将通用视觉模型与那些专为具身智能任务训练的动作专家模型进行了正面比拼。数据所揭示的趋势十分耐人寻味：通用模型在“动作泛化”和“控制精度”这两项硬性指标上，均表现得更胜一筹。这意味着什么？它意味着具备强大特征提取能力的通用模型，在理解动作背后的逻辑、执行高精度控制的过程中，展现出了比那些仅盯着特定具身任务训练的“专家”更强的自适应性与准确性。这一结论对“专用模型一定优于通用模型”的传统认知构成了有力挑战，并凸显出一个更本质的理念：基础的视觉能力，才是支撑具身任务的关键底层能力。

具身动作表征的涌现现象

研究中最令人振奋的发现，或许在于具身动作表征的来源问题。实验结果表明，这种看似复杂的动作表征，并不一定需要依赖高成本的机器人示教数据去逐个学习，它完全可以从海量的人类视频数据中自然地“涌现”出来。当模型接触到足够数量的人类活动视频后，会自动捕捉到关于动作、力度与空间关系的那些隐含而深层的规律。这种从非结构化、随意记录的视频中提取通用动作知识的能力，极大地降低了具身智能模型训练的门槛。换个角度看，这意味着利用互联网上本就存在且规模庞大的视频资源来增强机器人的操作能力，是一条极具探索价值的新路径。

行业影响

因此，LARYBench带来的冲击波是具体而实质的。首先，它为行业提供了一把硬通货式的量化工具，让开发者能够清晰判断自己模型在动作表征上的真实水平，从而加速算法的优化周期。其次，该研究结论显著提升了通用视觉模型的地位，这很可能会引导行业资源向更大规模的基础模型研发方向倾斜。最后，证实了人类视频数据在具身学习中确实能发挥作用，这将促使更多的企业与研究机构认真思考——如何将手上及互联网上的视频资源充分利用起来，攻克具身智能领域长期面临的数据稀缺难题。

常见问题

问题 1：LARYBench的主要功能是什么？

简单来说，它是一套专门用于度量和引导模型从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。在具身动作表征这个方向上，其所扮演的角色与当年的ImageNet类似。

问题 2：为什么通用视觉模型在具身任务中表现更好？

实验数据显示，通用视觉模型在动作泛化与控制精度两个维度上均表现出明显优势。通常的解释是，通用模型在接受大规模数据训练的过程中，习得了更丰富、更本质的特征表示，这使得它在面对未见过的动作或需要极高控制精度的场景时，具备更强的适应能力。

问题 3：这项研究对数据采集有何启示？

答案非常直接：研究证明，具身动作表征可以从大规模人类视频中“涌现”。这意味着，除了高成本、高难度的直接机器人数据采集之外，充分利用互联网上已有的海量人类活动视频资源，同样是提升具身智能模型性能的一条有效且值得投入的路径。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：美团LARYBench：定义具身动作表征的ImageNet 揭示通用视觉模型泛化优势要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://aitoolly.com/zh/ai-news/article/2026-06-29-meituan-tech-team-launches-larybench-a-new-benchmark-for-general-latent-action-representation-in-emb

动作

上一篇：Genspark自动化工作流平滑部署与迁移策略

下一篇：人工智能时代数学家应对机遇与挑战的策略

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周ChatTTS 自然富有表现力的对话文本转语音 02 / 本周SpeechKit语音合成发布平台扩展音频内容 03 / 本周FileSpeech文件转自然语音工具 04 / 本周有趣简单发现GPT的SupriseGpts平台 05 / 本周ChatGPT朗读功能增强浏览器扩展

01 / 本月ChatTTS 自然富有表现力的对话文本转语音 02 / 本月SpeechKit语音合成发布平台扩展音频内容 03 / 本月FileSpeech文件转自然语音工具 04 / 本月有趣简单发现GPT的SupriseGpts平台 05 / 本月ChatGPT朗读功能增强浏览器扩展

热点快看

07-04 17:23ChatTTS 自然富有表现力的对话文本转语音 07-04 17:23SpeechKit语音合成发布平台扩展音频内容 07-04 17:23FileSpeech文件转自然语音工具 07-04 17:23有趣简单发现GPT的SupriseGpts平台 07-04 17:23ChatGPT朗读功能增强浏览器扩展

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别