LARYBench发布：美团技术团队揭示具身动作表征通用模型潜力

AI热点日报时间：2026-07-03

热点解读

最近，美团技术团队放出了一项重磅成果——LARYBench（Latent Action Representation Yielding Benchmark）。这个系统化的评测基准，核心目标是从大规模视觉数据中学习通用的隐式动作表征，并首次系统性地度量了从人类视频中学习的泛化表征能力。实验结果表明，通

最近，美团技术团队放出了一项重磅成果——LARYBench（Latent Action Representation Yielding Benchmark）。这个系统化的评测基准，核心目标是从大规模视觉数据中学习通用的隐式动作表征，并首次系统性地度量了从人类视频中学习的泛化表征能力。实验结果表明，通用视觉模型在动作泛化和控制精度上，反而碾压了那些专门为具身智能设计的动作专家模型。这意味着，一个关键的转折点正在到来：具身动作表征，可以从海量的人类视频数据中自然涌现。

几个关键信息值得先记住

LARYBench正式亮相：美团技术团队推出的这个基准，为从视觉数据中学习隐式动作表征提供了标准化的评测工具。
具身动作表征的“ImageNet”：你可以把它理解为具身智能领域的里程碑——就像ImageNet定义了计算机视觉的度量标尺一样，LARYBench将为动作表征建立统一的衡量标准。
通用模型反而更胜一筹：实验数据出人意料：通用视觉模型在动作泛化（适应从未见过的场景）和控制精度上，全面超越了那些专门为具身任务定制的专家模型。
动作表征的涌现特性：研究证实，具身动作表征完全可以来自大规模的人类视频数据，而不是非得依赖昂贵且稀缺的机器人实操数据。这种“涌现”能力，打开了全新的可能。

详细拆解

LARYBench：填补具身智能评测的空白

在具身智能这条赛道上，如何有效表征“动作”一直都是核心难题。过去，大家往往各自埋头训练模型，但缺少一个统一的标尺来评判谁的动作表征更优秀。美团这次推出的LARYBench，正是为了解决这个痛点。它是一个系统化的评测基准，专门用来评估模型从大规模视觉数据中提取通用隐式动作表征的能力。类比一下，计算机视觉有ImageNet作为标杆，而LARYBench的目标就是成为具身智能领域的“ImageNet”——让所有研究者能用同一把尺子，衡量不同模型在处理复杂动作信息时的实际表现。

通用视觉模型 vs. 专家模型：谁更强？

这项研究最让人意外的发现，就是通用视觉模型的表现竟然超越了专门的具身动作专家模型。按照传统思路，针对特定场景设计的专家模型，理应精度更高、更贴合任务需求。但LARYBench的实验结果彻底碘伏了这种假设。通用视觉模型凭借在大规模数据中习得的丰富特征，在动作泛化（也就是处理没见过的动作场景）和控制精度上展现出了更强实力。从数据来看，强大的基础视觉感知能力，才是构建高精度具身控制系统的前提——而不是一味地堆砌专家模块。

从人类视频中“长出来”的动作智慧

LARYBench的发布还揭示了一个更底层的趋势：具身动作表征可以从大规模的人类视频数据中“涌现”。这意味着什么？简单说，AI并不一定需要通过昂贵的机器人实操数据来学习如何行动——只要观察人类在视频中的行为，模型就能内化并理解复杂的动作逻辑。这种从视觉观察到动作表征的转化，为解决具身智能领域长期面临的数据匮乏问题提供了全新路径。人类视频数据中，其实蕴藏着丰富且可迁移的动作知识储备，只是过去我们不知道如何有效提取。LARYBench让我们看到了这条路是通的。

对行业的深远影响

LARYBench的发布，不只是一个技术工具的问世，更可能改写具身智能的研发路径。首先，它明确了通用视觉模型在具身智能架构中的核心地位——这会引导行业资源从单任务专家模型的开发，转向更强大的通用视觉基础模型的攻坚。其次，它证明了人类视频数据的巨大价值，加速了基于视频预训练的具身智能技术路线的成熟。最后，作为一个标准化的评测工具，LARYBench将促进学术界和工业界在动作表征领域的公平竞争与技术迭代——大家终于有了统一的擂台，推动整个领域向更高级的泛化能力迈进。

常见问题快问快答

问题1：LARYBench到底能干什么？

简单说，LARYBench是一把尺子。它专门用来度量和指引模型从大规模视觉数据中学习通用隐式动作表征的能力。正因为它的这个定位，业内把它叫作具身动作表征领域的“ImageNet”。

问题2：为什么通用视觉模型比专门设计的专家模型还好使？

根据LARYBench的实验结果，通用视觉模型在动作泛化和控制精度上全面领先。核心原因是：通用模型在大规模数据训练中获得了更深层、更本质的特征理解能力，这种“见多识广”使得它在处理复杂和未知的具身动作时，比那些只见过特定场景的专家模型更具适应性。

问题3：这项研究对数据获取有什么启示？

最大的启示是：具身动作表征可以从大规模人类视频数据中涌现。换句话说，开发者可以利用现有的海量人类视频资源来训练模型，而不必完全依赖成本极高的机器人实操数据。这大大降低了具身智能的研发门槛，数据获取的路径一下子宽了很多。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：LARYBench发布：美团技术团队揭示具身动作表征通用模型潜力要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://aitoolly.com/zh/ai-news/article/2026-07-02-larybench-redefining-embodied-action-representation-through-large-scale-human-video-learning

动作

上一篇：Video-Use开源编码智能体实现自动化视频编辑新范式

下一篇：桌面AI再进化 Gemini Spark助力macOS本地文件自动化管理

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周DialogusAI 通过AI对话高效学习外语的谷歌浏览器扩展工具 02 / 本周MAIA专业语音转录与内容处理谷歌浏览器扩展人工智能助手 03 / 本周VOME基于人工智能的语音备忘录应用软件推荐 04 / 本周语音日记应用MemoJournal 05 / 本周全能AI内容创作生成平台

01 / 本月DialogusAI 通过AI对话高效学习外语的谷歌浏览器扩展工具 02 / 本月MAIA专业语音转录与内容处理谷歌浏览器扩展人工智能助手 03 / 本月VOME基于人工智能的语音备忘录应用软件推荐 04 / 本月语音日记应用MemoJournal 05 / 本月全能AI内容创作生成平台

热点快看

07-03 19:49DialogusAI 通过AI对话高效学习外语的谷歌浏览器扩展工具 07-03 19:49MAIA专业语音转录与内容处理谷歌浏览器扩展人工智能助手 07-03 19:49VOME基于人工智能的语音备忘录应用软件推荐 07-03 19:49语音日记应用MemoJournal 07-03 19:49全能AI内容创作生成平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别