当前位置: 首页
AI
Molmo+2重磅发布:全球最强开源视频理解模型上线

Molmo+2重磅发布:全球最强开源视频理解模型上线

热心网友 时间:2026-01-23
转载

如果说Molmo让AI学会了在图片里“指手画脚”,那么Molmo 2则更进一步,它教会了AI如何在视频中追踪事件、捕捉动作细节,甚至能够准确计数——真正实现了对动态场景的时空联合理解。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

无论是智能手机、自动驾驶,还是工业传感领域,视频正日益成为AI认知世界的一种新“语言”。如今,Molmo 2的诞生,让开源模型也能看懂视频里的每一帧画面,理解其中每一个细微的变化。

2025年12月11日,艾伦人工智能研究所正式发布了Molmo 2。这是一款为下一代视频理解、空间定位与跨帧追踪而专门设计的开源多模态大模型。它不仅能够在多项权威评测中超越如Gemini 3 Pro、GPT-5等闭源系统,更首次将这种视频级的“指哪打哪”能力带入了开源社区的视野。

为什么 Molmo 2 值得关注?

Molmo 2 是对2024年备受瞩目的Molmo图像理解模型的全面升级。如果说初代Molmo让AI学会了在静态图片中识别并指向物体,那么Molmo 2则让AI掌握了在动态视频里追踪事件、定位动作和进行精确计数的能力,从而真正实现了对时空信息的联合理解。

核心突破:

视频原生理解:支持单图、多图和任意长度视频输入。精准时空定位:不仅能回答“发生了什么”,还能明确指出“在哪一帧、哪个位置”。高效小模型:8B参数版本性能碾压上一代72B模型,训练数据仅为竞品的1/8。完全开源:采用Apache 2.0许可,提供三种架构选择,包含全栈开源的Olmo版本。

三大模型变体,满足不同场景需求

体积虽小,能力却大:Molmo 2(8B)在图像指代、视频追踪等任务上全面超越了上一代72B参数的Molmo,这充分证明了“精炼数据+精准目标”的策略远比盲目堆叠参数更为有效。

性能碾压:开源第一,闭源也难挡

Molmo 2在多个维度刷新了开源模型的纪录:

视频追踪:大幅超越Gemini 3 Pro及所有开源多模态视觉模型。短视频问答:在NextQA、PerceptionTest、MVBench等7项基准平均得分位列开源第一。人类偏好评估:其8B版本领先于Qwen3-VL-8B,甚至在某些方面超越了GPT-5和Claude Sonnet 4.5。视频计数与定位:它是唯一能通过“返回坐标+时间戳”来精确回答“多少次”这类问题的开源模型。

举例:

问:“机器人几次抓起红色积木?” → 模型返回每次抓取对应的帧号与积木坐标。问:“杯子什么时候掉的?” → 返回精确时间戳与掉落位置框。问:“穿条纹衬衫的人何时秀肌肉?” → 自动追踪人物ID,并标记所有相关事件的时空点。

技术亮点:为“接地”而生

Molmo 2的核心设计理念是Grounding(接地)——即让语言信号与视觉信息在空间和时间上实现精准对齐。

统一架构:视觉编码器 + 轻量连接器 + 强大语言模型。跨帧注意力:不同帧的视觉片段可以相互关注,显著提升追踪稳定性。SlowFast推理策略:关键帧采用高分辨率处理,非关键帧采用低分辨率分析,兼顾精度与效率。16,384超长上下文:能轻松处理长视频或多图输入。

900万+视频样本,打造高质量开源数据集

为训练Molmo 2,艾伦人工智能研究所构建了史上规模最大的视频接地数据集,包含9个全新子集:

Molmo2-Cap:涵盖10.4万视频与43.1万片段,每段均配有数百字的密集描述。Molmo2-VideoPoint:包含30万+查询,专门用于训练模型的“指物+计数”能力。Molmo2-VideoTrack:支持自然语言查询的物体追踪。Molmo2-MultiImageQA:涉及跨2-5张相关图像的复杂问答。

所有数据集都将开源发布,助力社区构建更强大的视频理解系统。

立即体验

论文:项目:仓库:
来源:https://www.51cto.com/article/834855.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布防范 OpenClaw(“龙虾”)开源智能体安全风险“六要六不要”建议

工信部发布“六要六不要”,为OpenClaw(“龙虾”)开源智能体安全风险划出红线 近日,工业和信息化部网络安全威胁和漏洞信息共享平台发布了一份重磅文件,针对当前热门的OpenClaw(因其图标酷似龙虾,业内常昵称为“龙虾”)开源智能体,提出了清晰的安全使用指引——“六要六不要”。这份建议可不是空穴

时间:2026-04-02 11:16
荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀 CEO 李健:荣耀机器人全栈自研,将聚焦消费市场

荣耀CEO李健详解机器人战略:全栈自研,聚焦三大核心消费场景 荣耀春季旗舰新品发布会圆满结束后,关于公司未来发展的蓝图更加清晰。在随后的媒体沟通会上,荣耀CEO李健不仅公布了年度销售目标,更首次系统性地阐述了荣耀在机器人领域的完整战略规划与市场布局。 在探讨机器人业务发展方向时,李健明确了荣耀的坚定

时间:2026-04-02 11:14
别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别只盯着“上门装龙虾赚26万”!看懂OpenClaw背后的“意图入口”大战

别再只关注“上门装龙虾赚26万”!深度解读OpenClaw背后的“意图入口”新战争 最近科技行业的热潮,充满了戏剧性的现实色彩。一只“红色龙虾”AI智能体搅动了整个市场:有人通过提供安装服务,收取每次五百元,短短几天就赚取二十六万元收入;腾讯大厦前甚至排起长队,大家竞相领取免费的安装体验权限。这场全

时间:2026-04-02 11:00
openclaw安装配置

openclaw安装配置

一、系统要求 在开始安装 OpenClaw 之前,请务必确认您的计算机满足以下最低配置要求。这如同搭建房屋前检查地基,是确保后续安装流程顺利、软件稳定运行的前提。更高的硬件配置将为复杂任务处理和流畅体验提供有力保障。 操作系统:支持 Windows 10 及以上版本、macOS 最新稳定版,以及主流

时间:2026-04-02 10:53
自研第一个SKILL-openclaw入门

自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

时间:2026-04-02 10:40
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程