OpenClaw多模态6B小模型性能超越Nano Banana 2
当前主流的多模态生成模型虽然在标准任务上表现出色,但在面对复杂指令和多样化的下游应用场景时,其局限性便显露无遗。相比之下,近期备受关注的智能体(Agent)框架,如OpenClaw和Claude Code,在处理现实世界的复杂挑战时展现出了卓越的适应性和创造力。正是洞察到这一关键差异,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,成功地将OpenClaw等智能体的先进范式迁移至多模态生成领域,创新性地提出了名为GEMS(Agent-Native Multimodal Generation with Memory and Skills)的全新框架。该框架的核心优势在于,它能够深度挖掘并释放较小规模模型的潜力。实验表明,一个仅拥有60亿参数的轻量级模型,在搭载GEMS框架后,于特定任务上的表现甚至超越了部分闭源的大型模型。


GEMS:Agent-Native Multimodal Generation with Memory and Skills
那么,GEMS框架究竟是如何实现这一突破的呢?其核心理念在于借鉴并融合了OpenClaw、Claude Code等前沿智能体系统的成功经验,将这些智能体范式的精髓系统性地引入多模态生成任务,旨在从根本上解决现有模型在复杂、开放场景下能力不足的问题。

整个GEMS框架围绕三个不可或缺的核心支柱构建:
Agent Loop(智能体循环): 该模块引入了一个结构化的多智能体协作与迭代优化流程。它并非单次生成,而是一个动态的、闭环的推理与修正过程。多个智能体角色分工明确,通过持续的交互、评估与反馈,逐步引导生成结果精确地对齐复杂用户指令的深层意图。
Agent Memory(智能体记忆): GEMS的记忆系统并非简单的对话历史记录。它采用了一种高效的分层压缩策略:完整保留历史交互中的关键事实与决策结果,同时将冗长的思维链推理过程压缩为精炼的、可复用的经验要点。这种设计在显著降低计算与存储开销的同时,为处理长序列任务和实现持续优化提供了清晰、高效的上下文指引。
Agent Skill(智能体技能): 框架构建了一个模块化、可灵活扩展的专家技能库。当系统判定当前任务需要特定领域的知识或能力时,便可动态加载对应的详细技能指令与高质量示例。这相当于为模型配备了一个“即插即用”的专业工具箱,极大地拓宽了其能力范围,使其能够胜任更专业、更多元的创意生成需求。
实验分析
仅有创新的架构设计是不够的,实际性能表现才是关键。研究团队在涵盖五个主流基准任务和四个实际下游任务的广泛测试集上,对基于不同生成模型的GEMS框架进行了全面评估。


实验结果令人瞩目。在以Z-Image-Turbo为基础模型时,GEMS框架在主流多模态生成任务上的平均性能提升了14.22%。在更具挑战性的下游应用任务中,其性能优势更为明显,超越了此前最优的基线模型达8.92个百分点。这一系列数据强有力地验证了GEMS框架在提升模型能力方面的有效性和出色的泛化性能。
进一步分析
为了深入探究GEMS各个核心模块的具体贡献,研究团队进行了一系列细致的消融实验。

左图清晰地展示了一个性能渐进提升的过程:随着Agent Loop(智能体循环)、Agent Memory(智能体记忆)和Agent Skill(智能体技能)模块被依次集成,模型的综合表现也随之稳步提高。最具说服力的是,在GenEval2评测集上,装备了完整GEMS框架的60亿参数Z-Image-Turbo轻量模型,其性能表现甚至超过了知名的闭源大模型Nano Banana 2。这充分印证了智能体化策略对于激发小模型潜力的巨大价值。
右图则具体对比了记忆模块的不同实现策略。结果表明,将思维链压缩为精炼经验要点的策略,其效果显著优于简单堆叠完整历史对话或完全禁用记忆功能,证明了高效记忆管理的重要性。

此外,团队还深入分析了生成迭代轮次(平均生成/优化次数)与最终生成质量之间的平衡关系。上图表明,GEMS框架能够在更少的平均迭代轮次内达到更高的性能水平,实现了生成效率与输出效果的双重优化。

进一步的消融研究揭示,Memory(记忆)和Skill(技能)模块是提升每次迭代优化质量的关键。它们赋能模型更智能地利用过往经验和领域知识,从而减少了为获得满意结果所需的不必要迭代次数,提升了整体推理效率。
技能加持,生成更有艺术感
除了数据指标的提升,GEMS框架中Agent Skills模块带来的生成质量飞跃是直观可见的。该模块使模型能够根据任务内容自主调用特定技能,从而显著增强生成结果的艺术表现力和创意水平。

以下两个案例对比生动地展示了这一优势:
案例1:山脉日出场景
在未调用技能时,生成的山脉日出图像虽然具备真实性,但光影效果较为平淡,缺乏视觉冲击力和艺术感染力。
而当模型触发了“美学绘画”(Aesthetic Drawing)技能后,画面质感得到显著提升。光影的层次感、对比度和戏剧性大大增强,整体构图与色彩搭配更具美感。
案例2:漂浮的书籍概念
无技能辅助时,生成的图像仅为书本简单悬浮于空中,创意构思相对普通。
一旦调用“创意绘画”(Creative Drawing)技能,画面立刻变得生动且富有想象力:书页仿佛拥有生命般翩翩起舞,与璀璨的星空元素巧妙融合,营造出梦幻而充满故事性的视觉氛围。
通过以上对比,可以直观感受到GEMS的技能模块如何使多模态生成的结果从“符合要求”跃升至“富有创意”和“充满艺术灵魂”的层次。
结语
GEMS的研究工作有力地证实:通过引入智能体化的任务管理与推理策略,能够有效弥补基础生成模型在复杂能力上的固有短板。赋予模型持久的“记忆”能力和可扩展的“技能”库,就如同为一位天赋型画师配备了资深艺术指导和一整套专业工具。即便底层是一个参数规模较小的开源模型,也完全有可能在复杂的多模态生成与理解任务中,激发出媲美乃至超越大型闭源模型的潜力。这项工作为未来多模态人工智能,特别是面向复杂场景的生成式AI的发展,提供了一个极具启发性和实用价值的新方向与技术范式。
论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
大模型训练合成数据生成的十大实用策略
合成数据,这个曾经被视为“辅助工具”的技术选项,如今正快速演进为驱动大模型开发与迭代的核心基础设施。对于任何致力于长期模型训练、优化和持续升级的团队而言,构建高质量的合成数据能力已成为一项战略性任务。 背后的驱动力非常现实:获取大规模、高质量的训练数据始终是AI团队面临的主要瓶颈。数据或许存在,但面
Claude代码能力更新引争议思考深度下降难处理复杂工程
近期,AI编程工具Claude Code的性能表现引发了开发者社区的广泛关注与深度讨论。一份在官方仓库引发热议的Issue直指核心问题:这款曾被寄予厚望的AI编程助手,在经历特定更新后,其处理复杂工程任务的能力似乎出现了显著退化。 核心指控聚焦于一次关键更新:据称,该更新导致模型的内部推理深度骤降约
SentiAvatar革新3D数字人动作生成技术
与3D数字人互动时,你是否曾感到一丝难以言喻的“不自然”?它的嘴唇在同步发音,表情却略显呆板;手臂虽有动作,却与对话内容缺乏关联。更常见的是,那些外观高度拟真但动作僵硬、节奏失调的数字人,很容易将用户体验带入“恐怖谷”效应。 问题的核心在于,人类的高效沟通从来不是单一维度的信息传递。一个细微的耸肩足
Claude Code内置工具与技能完整清单揭秘
在上一篇文章中,我们深入剖析了Claude Code的System Prompt架构与提示词工程。今天,我们把目光转向它的“能力体系”——一个由40多个内置工具、5个专用Agent以及一套完整的斜杠命令构成的强大工具箱。所有洞察,均源自对源码的深度分析。 一、工具全景:40+ 个内置工具 Claud
匹兹堡大学新作实现一句话生成逼真3D场景
视觉语言大模型(VLM)在描述图像内容时往往头头是道,可一旦面对三维空间推理,短板就暴露无遗。物体一多,视角一换,模型的认知底线很容易被击穿。 更棘手的是,想精准评估这种能力也困难重重。真实世界的数据集采集成本高昂,且难以灵活调整参数;而程序生成的3D场景又常常显得虚假、违背物理规律。业界一直缺少一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

