微软开源多模态AI基础模型无需微调处理网页与机器人

AI热点日报时间：2026-07-02

热点解读

大家好，今天聊一个微软刚开源的新东西——**Magma模型**。这玩意儿，从名字到能力，都挺有意思。核心是什么？一句话：它标志着多模态AI的交互能力，往前实实在在地跨了一大步。以前我们说多模态，无非是看懂图、读懂字，最多再写点描述。但Magma不一样，它真的能“动手”了——既能在网页里帮你操作，也

大家好，今天聊一个微软刚开源的新东西——**Magma模型**。这玩意儿，从名字到能力，都挺有意思。核心是什么？一句话：它标志着多模态AI的交互能力，往前实实在在地跨了一大步。以前我们说多模态，无非是看懂图、读懂字，最多再写点描述。但Magma不一样，它真的能“动手”了——既能在网页里帮你操作，也能指挥机器人干点实活。 --- 微软研究院官宣的这个**Magma模型**，官方定义是“首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型”。说实话，定义有点绕，看几个例子就明白了。模型已经被计算机视觉顶会CVPR接收。只要给定一个目标描述，Magma就能自己制定计划、执行行动。数字界面里，它能找到天气信息、帮你打开飞行模式，甚至执行分享、发送消息这类多步骤操作。物理世界里，它也能让机器人移动桌面上的“热狗”模型、把蘑菇模型放到锅里，或者把抹布从左至右推开。相比其他模型，Magma在实际操作中更“丝滑”，出错率明显更低。多模态理解和对话任务也扛得住——它能赢下一盘国际象棋比赛（左图），也能根据当前环境提出“放松几个小时”的建议（右图）。甚至还能描述视频里正在发生什么动作，并预测接下来会发生什么。目前模型以MIT许可证在GitHub上开源，想试试的可以直接上手。 --- ## 融合视觉、语言与动作的全新能力传统视觉语言（VL）模型，核心局限在于它们只关心图像和文本之间的映射。而Magma把这件事拆得更深——它在底层加入了空间和时序智能，让AI真正具备了“动起来”的能力。微软研究院的表述是：Magma在视觉理解和语言理解的基础上，又让AI具备了在视觉空间世界进行动作规划与执行的能力。翻译一下就是，无论是UI界面导航，还是机器人精准抓取与移动，Magma都能胜任，而且是跨界通吃的。那么，它凭什么能做到？ Magma真正称得上创新的地方，在于它独创的**两大标注方法**： **1、Set-of-Mark（SoM）** 这个方法很简单也很聪明：为任务中需要关注的关键对象——比如网页里的可点击元素，或者餐桌上的摆放物品——提供一套高层次的“关注标记”。就像给模型画了个圈，告诉它“看你这里，这个是重点”。通过这种精准定位，Magma能快速锁定任务的核心要素，为后续动作规划打下基础。研究团队发现，SoM对UI导航、机器人和人类视频都有统一的操作标记作用，模型识别并锁定“可交互目标”的效率明显提升。 **2、Trace-of-Mark（ToM）** 如果说SoM解决的是“看哪里”的问题，那ToM解决的就是“怎么动”。它从静态标记延伸到动态视频场景，通过对物体运动轨迹的标注，捕捉动作的时序变化。无论是机器人抓取物体时的手臂轨迹，还是人类在视频里的动态操作，ToM都能帮模型理解任务的时序逻辑，预测未来状态。研究团队表示，相比直接进行下一帧预测，ToM用更少的token就能捕捉更长时间跨度的动作语义，这让Magma能更专注于关键动作细节。 --- ## 那么，它实际表现如何？概括而言，Magma在**零样本智能**和**跨领域应用**两个维度上，确实拿出了让人信服的成绩。在多项测试中，包括UI导航、机器人操作与视频理解，Magma不需要针对特定领域做额外微调，就能交出让人满意的表现。更直接的证据来自零样本评估——研究团队拿了多个模型（包括ChatGPT在内）做对比测试，结果显示：预训练好的Magma是唯一能完成所有测试任务的模型。具体到跨领域优势，可以拆成几个维度看： - **UI导航场景**：在Mind2Web、AITW这类网页或移动设备界面导航任务中，Magma只需少量微调，就能取得非常突出的成绩。 - **机器人任务**：在WidowX机械臂真实操作和LIBERO场景中进行少样本微调，Magma大幅领先于其他对比模型。尤其在软物体操作和精确摆放任务中，表现极其稳定。研究者还专门验证了一点：如果在预训练阶段去掉SoM和ToM标注，Magma的性能会显著下降。这说明，这两大标注策略确实是模型的核心竞争力。 - **跨实体模拟**：在Google Robots和Bridge任务里，Magma同样展现了强大的跨实体泛化能力，能胜任不同种类物品的抓取与摆放。再看**多模态理解能力**。在视频理解和对话场景里，Magma所需的视频指令调优数据量并不大，却在大多数基准测试上，与Video-Llama2、ShareGPT4Video等先进方法相当甚至超越。它不仅能描述视频内容，还能对下一步动作做合理的预测和推断，这点非常关键。技术细节方面，Magma使用大规模异构视觉语言（VL）数据集预训练，包含**3900多万条**样本，覆盖图像、视频以及机器人动作轨迹等多种形式。视觉骨干网络用的是ConvNeXt-XXL，语言模型则是Llama-3-8B。目前模型已在GitHub上以MIT许可证开源，Hugging Face上也提供了部分模型权重和示例。 --- ## 团队大部分为华人翻看论文作者名单，大部分是华人面孔。论文一作兼项目负责人**杨健伟**，是Microsoft Research深度学习组的首席研究员。2020年3月加入微软前，他在乔治亚理工学院互动计算学院获得计算机科学博士学位，研究方向是“结构化视觉理解、生成与推理”。他的研究专注于通用多模态智能体，是该领域的先驱之一，推动了UniCL、RegionCLIP、GLIP、Florence、X-Decoder、SEEM、Semantic-SAM，以及LLaVa变体、GPT-4V的SoM提示工程、Phi-3-Vision等一系列关键突破。他主导的Project Magma项目，发布后直接冲上Hacker News热榜第一，学术界和工业界的关注度相当高。作者之一的**顾禹**，是Microsoft Research资深科学家。他主导开发了PubMedBERT——世界首批自适应大模型之一，下载量超过2000万，还拿了ACM年度最佳论文，目前广泛应用于全球医疗机构。他共同主导了BiomedParse（发表于《自然·方法》），并研发BiomedJourney用于疾病进展模拟。在智能体系统方面，他展示了LLM驱动的多智能体协作推理优化肿瘤决策的成果，曾在世界经济论坛亮相，研究成果发表在《自然》《细胞》等顶级期刊。说到底，Magma的这次开源，不只是放出了一个模型，更是把多模态AI从“听懂看懂”带入“行动执行”阶段的一次关键尝试。从目前的反馈和数据来看，这条路，确实走得通。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：微软开源多模态AI基础模型无需微调处理网页与机器人要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025031118596.html

ai 人工智能

上一篇：机器学习在嵌入式边缘处理中的具体实现

下一篇：全球首个搭载NVIDIA M2050 GPU的云实例开启GPU云计算下一个十年

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。