InstanceAssemble - 小红书联合复旦推出的图像生成框架

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

InstanceAssemble - 小红书联合复旦推出的图像生成框架

热心网友时间：2026-04-22

转载

InstanceAssemble是什么想象一下，你手头有一堆描述和位置坐标，然后告诉AI：“把它变成一张图。”接下来发生的事情，就是InstanceAssemble能带来的效果。这是由小红书与复旦大学联合推出的一款布局到图像生成框架，它的核心使命很明确：将用户设定的布局“蓝图”，精准无误地“翻译”

InstanceAssemble是什么

想象一下，你手头有一堆描述和位置坐标，然后告诉AI：“把它变成一张图。”接下来发生的事情，就是InstanceAssemble能带来的效果。这是由小红书与复旦大学联合推出的一款布局到图像生成框架，它的核心使命很明确：将用户设定的布局“蓝图”，精准无误地“翻译”成图像。

框架的创新之处在于一个名为“实例组装注意力”的机制。这使得它能够驾驭从简单到复杂、从稀疏到密集的各种布局挑战。用户只需要提供物体的边界框位置和内容描述（比如“一只坐在沙发上的猫”），AI就能在对应的“框”里，生成语义匹配的图像内容。从技术架构上看，它基于当前主流的扩散变换器，但真正巧妙的是其轻量级适配方式——仅需引入少量额外参数，就能让主流的图像生成模型获得这种精准的控制力，技术门槛和使用成本因此大大降低。

InstanceAssemble的主要功能

那么，这个框架究竟能做什么？概括起来，是以下几个关键能力：

精准布局控制：核心功能。通过指定每个物体的位置（边界框）和内容描述，实现“指哪打哪”式的图像生成，确保物体在画面中不“跑位”。
从简单到复杂的布局生成：无论是画布上孤零零的几个物体，还是元素繁多、关系交错的复杂场景，它都能保持高精度的布局对齐和语义一致性，适应性很强。
多模态内容控制：定义物体内容的方式不仅限于文字。你还可以使用参考图像、深度图、边缘图等多种模态作为输入，这为生成图像的准确性和细节表现力上了“双保险”。
轻量级适配：无需从头训练一个庞然大物般的模型。它以类似“插件”的方式，仅通过少量额外参数（适配Stable Diffusion 3-Medium模型仅需约3.46%的额外参数）就能赋予主流扩散模型布局控制能力，让更多人用得起、用得上。
强大的泛化能力：这是个有意思的点。训练时它只用稀疏布局（实例数≤10）的数据，但在实际应用中，面对更密集的布局（实例数≥10）时，性能依然稳健。这意味着它真正学会了理解布局的逻辑，而非死记硬背。

InstanceAssemble的技术原理

光看效果还不够，背后是什么在支撑这些功能？我们来拆解一下它的技术内核。

扩散模型基础：它的根基是当前最前沿的扩散变换器架构。简单说，就是利用扩散模型强大的图像“幻想”能力，通过逐步去噪的过程，从混沌中“雕刻”出高质量的图像。
实例组装注意力机制：这是实现精准控制的核心创新。
- 布局编码器：它的任务是把用户输入的布局“说明书”——包括边界框和各种内容描述——编码成一系列机器能理解的“实例令牌”。每个令牌都承载了一个物体的位置和语义信息。
- 组装注意力模块：生成图像时，这个模块开始工作。它会将图像的每个局部区域（图像令牌）与相关的“实例令牌”进行对话和交互。关键规则是：每个实例只关注自己边界框内的那部分图像区域。通过注意力机制更新这些区域的特征后，再以加权组装的方式融合回整体图像中，从而确保每个物体都待在它该在的地方，并且样子也对。
- 级联结构：为了保证整体画面的和谐与质量，它采用了两步走策略：先用基础模型理解全局文本提示、把握整体风格，再用专门的布局控制模块来处理每个实例的精细条件，做到全局与局部的平衡。
轻量级适配：为了实现高效部署，它引入了低秩适配技术。你可以理解为，只在原有模型的关键“决策层”（注意力模块）插入几个小巧的可调参数矩阵，而不是改动整个模型。这样一来，既保留了原模型的强大生成能力，又新增了布局控制的“技能”。
评估与基准测试：为了更科学地衡量“布局匹配得有多准”，团队还专门提出了一个新的评估指标——“布局锚定分数”。同时，他们创建了一个包含5000张图像、近9万个实例的“DenseLayout”基准测试集，专门用于挑战和评估模型在复杂密集布局下的性能，这为后续研究设立了清晰的标尺。

InstanceAssemble的项目地址

对技术细节感兴趣，或者想亲自试一试？相关的资源已经开源：

GitHub仓库：所有的代码实现和详细说明都可以在这里找到：https://github.com/FireRedTeam/InstanceAssemble
arXiv技术论文：如果你希望深入理解其背后的算法设计与实验论证，完整的学术论文可供查阅：https://arxiv.org/pdf/2509.16691