当前位置: 首页
AI
NeurIPS 2025:小红书开源InstanceAssemble,精准生成复杂可控布局

NeurIPS 2025:小红书开源InstanceAssemble,精准生成复杂可控布局

热心网友 时间:2026-01-07
转载

InstanceAssemble作为一种创新的布局到图像生成方法,继承了基于DiT架构的高质量生成能力,同时实现了精准的布局对齐。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作为小红书发布的轻量级布局到图像生成框架,InstanceAssemble能够实现精准的空间控制。该框架引入了DenseLayout与布局接地评分(LGS)来进行严格评估,在稀疏和密集布局上均取得了领先的性能。

相关链接

论文:https://arxiv.org/pdf/2509.16691模型:https://huggingface.co/FireRedTeam/InstanceAssemble代码:https://github.com/FireRedTeam/InstanceAssemble

介绍

扩散模型在高质量图像生成方面表现出众,近期布局到图像(L2I)生成凭借位置条件与文本描述实现了精准可控合成,但现有方法性能仍有不足。为此,本研究提出新架构InstanceAssemble,它通过实例组装注意力机制融入布局条件,能利用边界框进行位置控制,还能对文本和额外视觉内容等多模态内容加以控制。该方法借助轻量级LoRA模块,可灵活适配现有基于DiT的文本到图像(T2I)模型。此外,研究还提出了包含5k图像、90k实例的L2I基准Denselayout,以及可解释评估指标布局接地分数(LGS)。实验表明,InstanceAssemble在复杂布局下性能卓越,且与多种风格LoRA模块兼容性强。

方法概述

ActiTok框架的核心在于其独特的行动分词器(Action Tokenizer)和基于Token的规划器(Token-based Planner)。

行动分词器 (Action Tokenizer):

功能:将原始的、连续的高维行动(如机器人的关节角度、游戏手柄的摇杆位置)映射到离散的、低维的“行动词元”序列。实现:通常采用矢量量化变分自编码器(VQ-VAE)或类似技术,学习一个“行动词表”(Action Vocabulary),将连续行动空间“压缩”成有限个有代表性的Token。优势:大幅降低了行动空间的复杂度,使得Agent更容易学习和理解。

基于Token的规划器 (Token-based Planner):

功能:在离散的“行动词元”空间中进行搜索和规划,生成一系列Token序列作为行动计划。实现:可以结合强化学习、搜索算法(如MCTS)或大型语言模型(LLM)的推理能力,来预测和选择最优的Token序列。优势:规划过程更高效,且生成的行动计划更具可解释性。

行动解码器 (Action Decoder):

功能:将规划器生成的“行动词元”序列,还原为Agent可以执行的原始连续行动指令。实现:与分词器相对应的解码结构,确保Token能准确“翻译”回具体动作。

实验结果

结论

InstanceAssemble作为一种创新的布局到图像生成方法,在保持基于DiT架构高质量生成能力的同时,实现了先进的布局对齐。其验证范围广泛,覆盖文本与视觉实例内容,且能适配多样风格LoRAs,具备跨领域泛化能力。此外,还引入新指标与数据集评估复杂布局下的性能。不过,该方法存在需优化之处,如需探索并行策略提升效率,且在极端复杂布局下图像保真度会下降。其强大能力伴随风险,需负责任地部署,推动其在设计等领域发挥积极作用。

来源:https://www.51cto.com/article/833671.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
高通AI研究:用更少文字解决复杂问题的智能思考方法

高通AI研究:用更少文字解决复杂问题的智能思考方法

这项由高通AI研究院主导的突破性研究,于2026年3月以预印本论文形式发布。它直指一个长期困扰AI发展的核心痛点:当我们试图让AI模仿人类“逐步思考”时,它们往往会陷入一种低效的“话痨”模式,产生大量冗余、重复的文本,既拖慢了响应速度,也浪费了宝贵的计算资源。 不妨做个类比:你向一位聪明的学生请教数

时间:2026-05-14 18:46
华中科大团队突破AI空间感技术解决方向感缺失难题

华中科大团队突破AI空间感技术解决方向感缺失难题

你是否曾向AI助手发出过“描述桌子右边有什么”或“找找沙发后面的东西”这样的指令,却得到了令人困惑的回应?这背后的核心原因在于,当前主流的多模态大模型虽然具备出色的物体识别能力,却普遍缺乏对三维空间的真实“感知”。它们如同仅通过二维照片认识世界,难以准确判断物体的相对方位、深度距离以及复杂的遮挡关系

时间:2026-05-14 18:46
摩尔线程携手光轮智能战略合作 共研高置信度仿真数据合成方案

摩尔线程携手光轮智能战略合作 共研高置信度仿真数据合成方案

近日,国内领先的GPU企业摩尔线程与前沿AI公司光轮智能正式宣布达成深度战略合作。双方的核心目标,是共同构建一套高置信度、可规模化的仿真数据合成解决方案。此举被业界广泛解读为,旨在为具身智能(Embodied AI)的长期演进与发展,筑牢一项自主可控的关键性数字基础设施。 具身智能,简而言之,是赋予

时间:2026-05-14 18:46
IBM推出VAREX基准测试评估AI解读政府表格能力

IBM推出VAREX基准测试评估AI解读政府表格能力

这项由IBM Research主导的研究,于2026年3月正式发布于arXiv预印本平台(论文编号:arXiv:2603 15118v1)。研究团队构建了一个名为VAREX的全新评估基准,其核心目标在于系统性地评测各类AI模型在理解与提取政府表格信息上的真实性能。 我们可以将AI模型想象成一位新入职

时间:2026-05-14 18:46
德克萨斯农工大学揭示AI视频生成时空错乱原因

德克萨斯农工大学揭示AI视频生成时空错乱原因

德克萨斯农工大学的研究团队近期取得了一项突破性进展,揭示了当前AI视频生成技术中一个普遍存在却长期被忽略的核心缺陷。你是否也曾感到AI生成的视频“总有些别扭”?比如蜂鸟振翅显得过于缓慢,或者人物动作的节奏如同水下镜头般迟滞——你的直觉没错,问题的根源恰恰在于AI对“时间”的感知完全失准。 研究人员将

时间:2026-05-14 18:46
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程