当前位置: 首页
AI
小红书开源InstanceAssemble:精准还原复杂图像排版的AI方案

小红书开源InstanceAssemble:精准还原复杂图像排版的AI方案

热心网友 时间:2025-12-26
转载

12月26日,小红书联合复旦大学发布了在布局控制生成(Layout-to-Image)领域的一项突破性解决方案——InstanceAssemble。该方案通过创新的“实例组装注意力”机制,成功实现了从简单到复杂、从稀疏到密集布局的精准图像生成。这项研究成果已被NeurIPS 2025接收。

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

近年来,AI绘画技术发展迅猛,从最初的“文字生成图像”逐步迈向“布局控制生成”。后者能够依据用户给出的空间布局约束,生成与之对应的图像。

“布局控制生成”技术的难点之一,在于如何让AI精准地按照用户指定的位置和内容生成图像,常常面临布局对不齐、语义脱节或计算成本过高等问题。

而复旦大学与小红书联合发布的InstanceAssemble新技术,成功实现了对图像中每个物体的精准布局控制,标志着AI绘画进入了“可精准构图”的新阶段。

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

该技术基于当前主流的扩散变换器架构,创造性地提出了“实例拼装注意力”机制。用户只需提供每个物体的边界框位置和内容描述,AI就能在对应位置生成符合语义的图像内容。无论是简单的几个物体,还是密集复杂的场景,InstanceAssemble都能保持高精度的布局对齐和语义一致性。

值得一提的是,该技术还采用轻量级适配方式降低使用门槛。无需重新训练整个模型,仅通过约7100万个参数,就能适配Stable Diffusion3-Medium模型,而适配Flux.1模型更是低至0.84%。

实验中,InstanceAssemble在包含90万个实例的密集布局数据集上表现优异,大幅超越了现有方法。

研究团队为了能更准确地衡量布局与图像的匹配程度,还创建了包含5000张图像和90000个实例的“Denselayout”基准测试集,以及全新的“Layout Grounding Score”评估指标。

实验表明,InstanceAssemble在各种布局条件下均表现优异,即使在训练时仅使用稀疏布局的情况下,也能在密集布局上保持稳健性能。

这项技术已开源,代码和预训练模型可在GitHub获取,为设计、广告和内容创作等领域的应用提供了强大支持。

附上参考地址

小红书开源InstanceAssemble!轻量级布局可控生成框架,复杂多实例图像生成精度再突破

InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention

InstanceAssemble GitHub

来源:https://www.ithome.com/0/908/118.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
特斯拉德州工厂部署14辆无方向盘自动驾驶出租车

特斯拉德州工厂部署14辆无方向盘自动驾驶出租车

特斯拉的机器人出租车,终于从概念驶入了现实。就在最近,其位于德州的超级工厂完成了首批14辆无方向盘Cybercab的部署。这可不是简单的测试车,而是标志着特斯拉酝酿已久的Robotaxi战略,正式迈入了规模化验证的关键一步。 仔细观察这批车辆,你会发现它们与去年10月“We Robot”活动上亮相的

时间:2026-05-18 22:40
魏牌V9X搭载归元S平台引领AI豪华出行新时代

魏牌V9X搭载归元S平台引领AI豪华出行新时代

4月17日,一场以“契约”为核心的技术盛宴在保定拉开帷幕。魏牌归元S技术发布会暨V9X预售发布会,不仅揭开了长城汽车36年造车智慧的集大成之作——归元S平台,也宣告了其首款旗舰车型魏牌V9X以37 18万元起的预售价,正式开启全球征程。这个平台,与其说是一套技术方案,不如说是一次以“用户价值”为锚点

时间:2026-05-18 22:39
DeepSeek估值680亿融资20亿 梁文锋首次回应

DeepSeek估值680亿融资20亿 梁文锋首次回应

本周五,人工智能行业迎来一则关键动态。 据The Information、路透社等多家权威媒体援引知情人士消息,中国AI明星企业深度求索(DeepSeek)正与投资方展开洽谈,计划以约100亿美元估值进行新一轮融资,目标筹集至少3亿美元资金。 从行业渠道获悉,DeepSeek接触投资机构的情况属实,

时间:2026-05-18 22:38
WorkBuddy Tabbit OpenCLI 三角协同高效使用指南

WorkBuddy Tabbit OpenCLI 三角协同高效使用指南

做AI工具调研时,有个现象挺有意思:网上文章要么说Tabbit是OpenClaw的最佳搭档,要么夸OpenCLI是新一代浏览器自动化神器,但很少有人把这三者放在一起讨论。 今天要聊的,正是WorkBuddy、Tabbit和OpenCLI这三者如何协同工作,形成一个高效的闭环。 一、为什么需要三角协同

时间:2026-05-18 22:37
Mythos推动AI进入行动时代从语言理解迈向动手操作

Mythos推动AI进入行动时代从语言理解迈向动手操作

4月8日,Anthropic的一则官宣,在看似平静的AI湖面上投下了一颗深水冲击波。他们发布了Claude Mythos Preview,但紧接着,又以一种近乎“自我封印”的姿态,亲手为这颗冲击波套上了层层枷锁。 这完全不像一场常规的发布会。没有庆祝,没有香槟,也没有宣布全面开放。相反,Anthro

时间:2026-05-18 22:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程