当前位置: 首页
AI
小红书AIGC团队提出布局控制新算法InstanceAssemble,入选NIPS2025

小红书AIGC团队提出布局控制新算法InstanceAssemble,入选NIPS2025

热心网友 时间:2025-11-04
转载

这项研究聚焦于图像可控生成技术,主要应用于小红书图文发布等场景中的视觉素材生产需求。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

随着文本到图像生成领域的扩散模型取得显著突破,引入布局控制功能(Layout-to-Image,简称L2I)成为可能的发展方向。

然而,现有布局到图像生成方法在复杂场景中的表现仍不尽如人意:一方面,如何在严格遵循给定布局的同时保持出色的图像质量成为关键挑战;另一方面,在扩散模型逐步去噪的过程中,确保每个目标对象的位置与语义属性不发生偏移同样面临困难。此外,布局控制通常需要支持多模态条件输入(包括文本描述、参考图像等要素),这进一步增加了技术实现的复杂性。

各类技术方案各有所短:无训练方法虽无需调整基础模型参数,但在处理复杂布局时效果明显下降,且存在对超参数敏感、推理速度缓慢等问题;有训练方法通过额外模块注入布局信息,但往往引入大量参数,导致训练成本高昂。在评估体系方面,传统指标也存在明显偏差,难以准确衡量布局对齐程度。

这些挑战与不足表明,要实现稳健高效的布局可控图像生成,亟需推进算法层面的创新突破。

为此,小红书智能创作团队提出了InstanceAssemble创新框架,从模型架构和评估标准两个维度全面应对上述难题,实现了复杂布局条件下的精准图像生成。

方法

InstanceAssemble在架构设计上创新性地引入了级联结构,将全局文本提示与实例级布局条件进行分阶段处理。

具体而言,模型先利用现有DiT架构获取全局图像背景和整体语义语境,再通过全新设计的实例组装注意力模块逐个整合各布局实例信息,实现局部精细化控制。这样的级联设计确保了全局质量与局部对齐两个维度的平衡兼顾,避免了同时处理所有实例可能产生的特征冲突。在实例组装注意力机制中,每个目标实例的注意力计算仅在其对应图像区域内进行,有效防止不同实例间的相互干扰。

这种独立注意力机制使模型能够有效处理重叠区域或微小物体等复杂布局情形,同时通过权重融合机制保持各实例特征,确保画面整体协调统一。

此外,InstanceAssemble采用LoRA模块进行轻量级模型适配。通过在基础扩散模型中注入少量LoRA参数(仅增加基础模型约3%的参数规模),实现了对现有DiT架构文本到图像模型的灵活扩展。LoRA技术的引入使模型在保持原有生成能力的同时,能够高效学习布局控制,无需大规模重训整个模型,并具备良好的兼容性(例如可灵活加载不同风格的LoRA权重)。

最终,该方法还支持多模态的布局输入:每个实例既可通过文本描述指定,也能利用额外的图像信息(如参考图片、深度图、边缘轮廓图等)来丰富内容表示。

效果与对比

为全面评估模型在复杂布局下的性能表现,研究者构建了全新的基准数据集DenseLayout,包含5000张高质量图像和约90000个标注实例(平均每图18个目标对象),专门用于测试高密度布局场景下的生成效果。同时创新性地提出LGS(布局对齐分数)作为新的评估指标,将空间精度和语义一致性相结合,更准确地衡量生成图像对布局指令的满足程度。其中空间精度通过检测目标位置与给定边界框的IoU计算得到,语义一致性则利用视觉问答模型判断颜色、材质、形状等属性匹配度。

在上述严格评估标准下,InstanceAssemble展现出卓越的性能表现。实验结果表明,该方法在DenseLayout基准上的布局对齐指标(mIoU)显著优于现有方案,综合性的LGS评分稳居当前最优水平,同时全局图像质量保持良好。特别是在稠密布局场景下(远超常规训练时的实例密度),InstanceAssemble仍能准确地将每个目标生成在指定位置,并正确呈现其语义属性,验证了模型具备优秀的泛化能力。

而对比较的方法在相同条件下往往出现漏生成、位置紊乱或风格不一致的问题。定性分析结果同样佐证了这一点。

此外,得益于LoRA轻量架构,InstanceAssemble相比其他有训练方案在参数规模和推理耗时上更具优势,在效率与效果之间取得了良好平衡。

应用

InstanceAssemble的设计在兼顾性能的同时,非常注重兼容扩展性。由于采用LoRA作为插件式适配方案,研究者和从业者可以方便地为模型赋予多样化的风格迁移能力。例如,将经过特定画风微调的LoRA模块(如油画风格、3D渲染风格等)加载到InstanceAssemble中,模型即可在保持布局精准对齐的前提下,生成带有对应风格特征的图像。

这种对多种风格LoRA的高度兼容性使得模型能够跨越不同领域,实现跨风格、跨领域的布局图像创作。

综上所述,InstanceAssemble通过其独特的架构和模块设计,实现了精细布局控制与高质量生成效果的有机结合,不仅在学术基准上取得领先表现,也展现出广阔的应用潜力。随着更多样的LoRA模块和多模态信息融入,InstanceAssemble可进一步拓展至智能排版、虚拟内容创作、数据增强等诸多领域,推动布局图像生成技术的发展和落地应用。

最后值得关注的是,小红书智能创作团队正在火热招募人才!该团队以AI及多媒体技术为核心,主要负责小红书发布侧的产品研发,并向公司内部各业务线(包括社区守护、社交互动、直播娱乐、电商运营、商业广告等)提供业界领先的内容创作、内容理解、互动体验等技术能力与解决方案。团队技术方向涵盖多模态AIGC、计算机视觉、语言语音处理、编辑渲染、算法工程等前沿领域。

团队近两年已累积发表30余篇相关领域的顶级会议论文与期刊,在技术上拥有InstantID、Storymaker、FireRedTTS、FireRedASR等知名开源代表作,在业务层面也推出了语音评论区、文字特效等创新功能。

来源:https://www.51cto.com/article/828782.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI 的记忆不是硬盘——从 40 个真实 Bug 说起

AI 的记忆不是硬盘——从 40 个真实 Bug 说起

这是 AI 认知架构实战笔记 系列的第 2 篇 上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看看,当这份灵魂文件真正运转起来之后,现实究竟会给我们带来多少“惊喜”——或者更准确地说,是漏洞。项目名为 WorkBuddy-Configure,已部署在 gitee 和 gitcode 上

时间:2026-04-03 17:56
OpenClaw给每个Agent单独指定workspace

OpenClaw给每个Agent单独指定workspace

OpenClaw中为每个Agent配置独立工作区的最佳实践 在大模型智能体协作平台上,实现多个Agent之间的文件隔离是确保项目管理井然有序的关键需求。如果您正在使用OpenClaw平台,为不同角色的智能体分配专属工作空间可以有效避免文件冲突、权限混乱等问题。本指南将详细介绍在OpenClaw中为每

时间:2026-04-03 17:15
OpenClaw更新操作

OpenClaw更新操作

前言 对于 OpenClaw 的忠实用户而言,每一次版本迭代都意义非凡。新功能密集、改动幅度大是它的显著特点,这固然令人欣喜,但伴随而来的更新操作也时常会遇到一些预料外的状况。本文旨在系统梳理我们在升级过程中遇到的常见问题与解决方案,帮助您在下次更新时更加顺畅,有效规避不必要的麻烦。 一、OpenC

时间:2026-04-03 17:14
openclaw源码

openclaw源码

项目资源与开源社区 对于希望深入研究OpenClaw技术生态的开发者与研究者,以下几个核心的开源仓库提供了关键的切入点和持续更新的资源集合。 首先,OpenClaw项目的主仓库位于: https: github com openclaw openclaw 这里是所有核心代码、文档和官方进展的枢纽,

时间:2026-04-03 17:02
关停 Sora 后 OpenAI 转身收购 TBPN 播客,亲自下场做媒体

关停 Sora 后 OpenAI 转身收购 TBPN 播客,亲自下场做媒体

OpenAI关闭Sora后战略转向:收购TBPN播客,深度布局内容生态 四月初的科技界新闻不断,一则来自科技媒体9to5Mac的报道引发了行业的强烈关注。OpenAI在近期宣布正式收购知名科技商业播客品牌The Browser Pane。这一战略动作紧随其视频应用Sora的停止运营之后,被外界普遍视

时间:2026-04-03 15:58
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程