OpenClaw多模态6B小模型性能超越Nano Banana 2

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

OpenClaw多模态6B小模型性能超越Nano Banana 2

热心网友时间：2026-05-20

转载

当前主流的多模态生成模型虽然在标准任务上表现出色，但在面对复杂指令和多样化的下游应用场景时，其局限性便显露无遗。相比之下，近期备受关注的智能体（Agent）框架，如OpenClaw和Claude Code，在处理现实世界的复杂挑战时展现出了卓越的适应性和创造力。正是洞察到这一关键差异，上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队，成功地将OpenClaw等智能体的先进范式迁移至多模态生成领域，创新性地提出了名为GEMS（Agent-Native Multimodal Generation with Memory and Skills）的全新框架。该框架的核心优势在于，它能够深度挖掘并释放较小规模模型的潜力。实验表明，一个仅拥有60亿参数的轻量级模型，在搭载GEMS框架后，于特定任务上的表现甚至超越了部分闭源的大型模型。

GEMS：Agent-Native Multimodal Generation with Memory and Skills

那么，GEMS框架究竟是如何实现这一突破的呢？其核心理念在于借鉴并融合了OpenClaw、Claude Code等前沿智能体系统的成功经验，将这些智能体范式的精髓系统性地引入多模态生成任务，旨在从根本上解决现有模型在复杂、开放场景下能力不足的问题。

整个GEMS框架围绕三个不可或缺的核心支柱构建：

Agent Loop（智能体循环）： 该模块引入了一个结构化的多智能体协作与迭代优化流程。它并非单次生成，而是一个动态的、闭环的推理与修正过程。多个智能体角色分工明确，通过持续的交互、评估与反馈，逐步引导生成结果精确地对齐复杂用户指令的深层意图。

Agent Memory（智能体记忆）： GEMS的记忆系统并非简单的对话历史记录。它采用了一种高效的分层压缩策略：完整保留历史交互中的关键事实与决策结果，同时将冗长的思维链推理过程压缩为精炼的、可复用的经验要点。这种设计在显著降低计算与存储开销的同时，为处理长序列任务和实现持续优化提供了清晰、高效的上下文指引。

Agent Skill（智能体技能）： 框架构建了一个模块化、可灵活扩展的专家技能库。当系统判定当前任务需要特定领域的知识或能力时，便可动态加载对应的详细技能指令与高质量示例。这相当于为模型配备了一个“即插即用”的专业工具箱，极大地拓宽了其能力范围，使其能够胜任更专业、更多元的创意生成需求。

实验分析

仅有创新的架构设计是不够的，实际性能表现才是关键。研究团队在涵盖五个主流基准任务和四个实际下游任务的广泛测试集上，对基于不同生成模型的GEMS框架进行了全面评估。

实验结果令人瞩目。在以Z-Image-Turbo为基础模型时，GEMS框架在主流多模态生成任务上的平均性能提升了14.22%。在更具挑战性的下游应用任务中，其性能优势更为明显，超越了此前最优的基线模型达8.92个百分点。这一系列数据强有力地验证了GEMS框架在提升模型能力方面的有效性和出色的泛化性能。

进一步分析

为了深入探究GEMS各个核心模块的具体贡献，研究团队进行了一系列细致的消融实验。

左图清晰地展示了一个性能渐进提升的过程：随着Agent Loop（智能体循环）、Agent Memory（智能体记忆）和Agent Skill（智能体技能）模块被依次集成，模型的综合表现也随之稳步提高。最具说服力的是，在GenEval2评测集上，装备了完整GEMS框架的60亿参数Z-Image-Turbo轻量模型，其性能表现甚至超过了知名的闭源大模型Nano Banana 2。这充分印证了智能体化策略对于激发小模型潜力的巨大价值。

右图则具体对比了记忆模块的不同实现策略。结果表明，将思维链压缩为精炼经验要点的策略，其效果显著优于简单堆叠完整历史对话或完全禁用记忆功能，证明了高效记忆管理的重要性。

此外，团队还深入分析了生成迭代轮次（平均生成/优化次数）与最终生成质量之间的平衡关系。上图表明，GEMS框架能够在更少的平均迭代轮次内达到更高的性能水平，实现了生成效率与输出效果的双重优化。

进一步的消融研究揭示，Memory（记忆）和Skill（技能）模块是提升每次迭代优化质量的关键。它们赋能模型更智能地利用过往经验和领域知识，从而减少了为获得满意结果所需的不必要迭代次数，提升了整体推理效率。

技能加持，生成更有艺术感

除了数据指标的提升，GEMS框架中Agent Skills模块带来的生成质量飞跃是直观可见的。该模块使模型能够根据任务内容自主调用特定技能，从而显著增强生成结果的艺术表现力和创意水平。

以下两个案例对比生动地展示了这一优势：

案例1：山脉日出场景
在未调用技能时，生成的山脉日出图像虽然具备真实性，但光影效果较为平淡，缺乏视觉冲击力和艺术感染力。
而当模型触发了“美学绘画”（Aesthetic Drawing）技能后，画面质感得到显著提升。光影的层次感、对比度和戏剧性大大增强，整体构图与色彩搭配更具美感。

案例2：漂浮的书籍概念
无技能辅助时，生成的图像仅为书本简单悬浮于空中，创意构思相对普通。
一旦调用“创意绘画”（Creative Drawing）技能，画面立刻变得生动且富有想象力：书页仿佛拥有生命般翩翩起舞，与璀璨的星空元素巧妙融合，营造出梦幻而充满故事性的视觉氛围。

通过以上对比，可以直观感受到GEMS的技能模块如何使多模态生成的结果从“符合要求”跃升至“富有创意”和“充满艺术灵魂”的层次。

结语

GEMS的研究工作有力地证实：通过引入智能体化的任务管理与推理策略，能够有效弥补基础生成模型在复杂能力上的固有短板。赋予模型持久的“记忆”能力和可扩展的“技能”库，就如同为一位天赋型画师配备了资深艺术指导和一整套专业工具。即便底层是一个参数规模较小的开源模型，也完全有可能在复杂的多模态生成与理解任务中，激发出媲美乃至超越大型闭源模型的潜力。这项工作为未来多模态人工智能，特别是面向复杂场景的生成式AI的发展，提供了一个极具启发性和实用价值的新方向与技术范式。

论文地址：https://arxiv.org/abs/2603.28088

项目主页：https://gems-gen.github.io/

代码仓库：https://github.com/lcqysl/GEMS

来源:https://www.51cto.com/article/840428.html

上一篇：明日新程连获两轮融资领跑Harness多智能体赛道

下一篇：周鸿祎谈企业AI应用无需盲目投入大模型