NeurIPS 2025:小红书开源InstanceAssemble,精准生成复杂可控布局
InstanceAssemble作为一种创新的布局到图像生成方法,继承了基于DiT架构的高质量生成能力,同时实现了精准的布局对齐。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
作为小红书发布的轻量级布局到图像生成框架,InstanceAssemble能够实现精准的空间控制。该框架引入了DenseLayout与布局接地评分(LGS)来进行严格评估,在稀疏和密集布局上均取得了领先的性能。

相关链接

介绍
扩散模型在高质量图像生成方面表现出众,近期布局到图像(L2I)生成凭借位置条件与文本描述实现了精准可控合成,但现有方法性能仍有不足。为此,本研究提出新架构InstanceAssemble,它通过实例组装注意力机制融入布局条件,能利用边界框进行位置控制,还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级LoRA模块,可灵活适配现有基于DiT的文本到图像(T2I)模型。此外,研究还提出了包含5k图像、90k实例的L2I基准Denselayout,以及可解释评估指标布局接地分数(LGS)。实验表明,InstanceAssemble在复杂布局下性能卓越,且与多种风格LoRA模块兼容性强。
方法概述

ActiTok框架的核心在于其独特的行动分词器(Action Tokenizer)和基于Token的规划器(Token-based Planner)。
行动分词器 (Action Tokenizer):
功能:将原始的、连续的高维行动(如机器人的关节角度、游戏手柄的摇杆位置)映射到离散的、低维的“行动词元”序列。实现:通常采用矢量量化变分自编码器(VQ-VAE)或类似技术,学习一个“行动词表”(Action Vocabulary),将连续行动空间“压缩”成有限个有代表性的Token。优势:大幅降低了行动空间的复杂度,使得Agent更容易学习和理解。基于Token的规划器 (Token-based Planner):
功能:在离散的“行动词元”空间中进行搜索和规划,生成一系列Token序列作为行动计划。实现:可以结合强化学习、搜索算法(如MCTS)或大型语言模型(LLM)的推理能力,来预测和选择最优的Token序列。优势:规划过程更高效,且生成的行动计划更具可解释性。行动解码器 (Action Decoder):
功能:将规划器生成的“行动词元”序列,还原为Agent可以执行的原始连续行动指令。实现:与分词器相对应的解码结构,确保Token能准确“翻译”回具体动作。实验结果



结论
InstanceAssemble作为一种创新的布局到图像生成方法,在保持基于DiT架构高质量生成能力的同时,实现了先进的布局对齐。其验证范围广泛,覆盖文本与视觉实例内容,且能适配多样风格LoRAs,具备跨领域泛化能力。此外,还引入新指标与数据集评估复杂布局下的性能。不过,该方法存在需优化之处,如需探索并行策略提升效率,且在极端复杂布局下图像保真度会下降。其强大能力伴随风险,需负责任地部署,推动其在设计等领域发挥积极作用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
全新速腾S上市:以高品质基因开启A+级轿车市场新篇章
在中国A+级轿车市场,速腾家族始终以品质与创新引领潮流。历经二十载深耕,速腾从单一车型逐步发展为覆盖多元需求的差异化产品矩阵,其进化轨迹恰似中国汽车工业高质量发展的缩影。如今,随着全新速腾S的正式登
比亚迪:AI赋能4S售后转型,构建本地化服务新生态
近日,一场聚焦汽车市场发展的行业盛会在广西南宁落下帷幕。由中国汽车流通协会主办,产业协调发展工作委员会承办,广西汽车流通协会协办的“2026汽车市场发展论坛暨2025 - 2026汽车流通行业蓝皮书
从全民养虾到Agent时代,腾讯云的产业落地下注逻辑
升级全栈 AI 能力。作者|连冉编辑|郑玄2026 年,AI 产业的竞争,进入了智能体的「百虾大战」。OpenClaw 掀起的「全民养虾」热潮,让 AI Agent 从技术圈的小众概念,变成了全民热
谷歌黑客帝国成真?服务器挤爆背后AI绝密代码失控
新智元报道编辑:Aeneas 好困【新智元导读】刚刚,谷歌内部AI曝光了!Agent Smith一经推出,就火到一塌糊涂,全体员工集体疯抢,服务器直接被挤爆。现在,三巨头的秘密新模型都集体炸出了,让
谷歌Gemini 3.1发布:毫秒级对话开启实时Agent时代
新智元报道编辑:元宇【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3 1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

