NeurIPS 2025：小红书开源InstanceAssemble，精准生成复杂可控布局

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

NeurIPS 2025：小红书开源InstanceAssemble，精准生成复杂可控布局

热心网友时间：2026-01-07

转载

InstanceAssemble作为一种创新的布局到图像生成方法，继承了基于DiT架构的高质量生成能力，同时实现了精准的布局对齐。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

作为小红书发布的轻量级布局到图像生成框架，InstanceAssemble能够实现精准的空间控制。该框架引入了DenseLayout与布局接地评分(LGS)来进行严格评估，在稀疏和密集布局上均取得了领先的性能。

介绍

扩散模型在高质量图像生成方面表现出众，近期布局到图像（L2I）生成凭借位置条件与文本描述实现了精准可控合成，但现有方法性能仍有不足。为此，本研究提出新架构InstanceAssemble，它通过实例组装注意力机制融入布局条件，能利用边界框进行位置控制，还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级LoRA模块，可灵活适配现有基于DiT的文本到图像（T2I）模型。此外，研究还提出了包含5k图像、90k实例的L2I基准Denselayout，以及可解释评估指标布局接地分数（LGS）。实验表明，InstanceAssemble在复杂布局下性能卓越，且与多种风格LoRA模块兼容性强。

方法概述

ActiTok框架的核心在于其独特的行动分词器（Action Tokenizer）和基于Token的规划器（Token-based Planner）。

行动分词器 (Action Tokenizer)：

功能：将原始的、连续的高维行动（如机器人的关节角度、游戏手柄的摇杆位置）映射到离散的、低维的“行动词元”序列。实现：通常采用矢量量化变分自编码器（VQ-VAE）或类似技术，学习一个“行动词表”（Action Vocabulary），将连续行动空间“压缩”成有限个有代表性的Token。优势：大幅降低了行动空间的复杂度，使得Agent更容易学习和理解。

基于Token的规划器 (Token-based Planner)：

功能：在离散的“行动词元”空间中进行搜索和规划，生成一系列Token序列作为行动计划。实现：可以结合强化学习、搜索算法（如MCTS）或大型语言模型（LLM）的推理能力，来预测和选择最优的Token序列。优势：规划过程更高效，且生成的行动计划更具可解释性。

行动解码器 (Action Decoder)：

功能：将规划器生成的“行动词元”序列，还原为Agent可以执行的原始连续行动指令。实现：与分词器相对应的解码结构，确保Token能准确“翻译”回具体动作。

实验结果

结论

InstanceAssemble作为一种创新的布局到图像生成方法，在保持基于DiT架构高质量生成能力的同时，实现了先进的布局对齐。其验证范围广泛，覆盖文本与视觉实例内容，且能适配多样风格LoRAs，具备跨领域泛化能力。此外，还引入新指标与数据集评估复杂布局下的性能。不过，该方法存在需优化之处，如需探索并行策略提升效率，且在极端复杂布局下图像保真度会下降。其强大能力伴随风险，需负责任地部署，推动其在设计等领域发挥积极作用。

来源:https://www.51cto.com/article/833671.html

上一篇：杨元庆：联想与英伟达合作四年规模将翻四番

下一篇：首个原生语音基准则：大模型落地真实音频场景MultiChallenge