港中大与字节提出DreamOmni3:多模态生成编辑听懂“涂鸦+图文”输入
由港中文与字节跳动联合推出的 DreamOmni3 惊艳亮相。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在人工智能飞速发展的今天,多模态生成与编辑领域成绩斐然,统一生成与编辑模型凭借文本指令就能生成精彩内容,展现出强大性能。然而,语言在精准定位编辑区域、捕捉视觉细节方面存在天然短板,难以满足创作者日益精细的需求。在此背景下,港中文与字节联手推出的 DreamOmni3 惊艳亮相。它创新性地解锁了“涂鸦 + 图文”联合输入模式,直面数据创建与框架设计难题,为多模态生成与编辑带来了全新思路,有望开启这一领域更为精彩的篇章。

相关内容

介绍
近期,统一生成与编辑模型凭借文本指令展现出卓越性能,但语言难以精准定位编辑区域与捕捉视觉细节。为此,研究提出涂鸦式编辑与生成任务,借助图形用户界面融合文本、图像与自由涂鸦,实现更灵活创作,并推出 DreamOmni3 应对数据创建与框架设计两大挑战。其数据合成管道涵盖涂鸦编辑与生成,定义多项细分任务,基于 DreamOmni2 数据集构建训练数据。框架设计上,摒弃易受多涂鸦、图像与指令影响的二元掩码,采用联合输入方案,将原始与涂鸦图像输入模型,通过颜色区分区域、统一编码定位,实现精准编辑。实验表明 DreamOmni3 表现出色,模型与代码将开源。
方法概述

DreamOmni3的训练数据构建及框架概述。DreamOmni3训练数据构建及框架概述:
(a) 论文创建基于涂鸦的编辑训练数据。对于涂鸦和多模态指令式编辑,使用Referseg定位编辑对象,并将相应的涂鸦粘贴到源图像和参考图像上,从而创建训练对。对于涂鸦和指令式编辑,省略参考图像。对于涂鸦式编辑,我们使用专用模型将编辑对象转换为抽象草图,并将其粘贴回源图像。对于图像融合,从参考图像中裁剪对象,并将其粘贴到源图像的相应位置,从而构建训练对。
(b) 基于涂鸦的生成训练数据创建方式与编辑类似,只是源图像被替换为空白画布。
(c) DreamOmni3基于DreamOmni2的框架,引入了涂鸦输入的联合输入方案。还对源图像和涂鸦图像应用了相同的编码方案,从而确保更好的像素对齐,并与之前的图像和语言指令编辑完全兼容。
实验结果


游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
GitLab创始人借力AI抗癌:ChatGPT在现实世界中的真实用途
Sid 这个案例最震撼我的,不是“AI 参与抗癌”这几个字本身。而是它让我第一次很清楚地感觉到:AI 真正的用途,可能从来都不是回答问题。而是进入那些原本只有专家团队才能推进的复杂现实,把前面的认知
Claude已会点外卖!揭秘AI批量替代创业公司的未来危机
说句心里话,我确实不太待见 Anthropic(Claude 背后那家公司),但这并不妨碍它依然是目前全球最顶尖、最牛掰的 AI 公司,没有之一。这个世界就是这么现实:能力强弱和是非对错,那是两码事
黄仁勋站台的抱抱脸机器人卖爆了,背后公司竟来自中国
henry 发自 凹非寺量子位 | 公众号 QbitAI还记得Hugging Face去年推出的桌面机器人Reachy Mini吗?在刚发布的时候,量子位曾第一时间报道过这只身高28cm、体重1 5
上海人工智能实验室发布白皮书:超节点技术赋能智算与AI发展
2026年3月29日,由上海人工智能实验室(上海AI实验室)发起并主办的第二届浦江AI学术年会开幕。浦江AI学术年会期间,由上海AI实验室DeepLink团队发布了《超节点技术体系白皮书》(以下简称
AI泡沫危机:当前行业过热与未来理性回归分析
OpenAI此刻正在艰难变现。Sam Altman曾将广告称为最后手段,但ChatGPT如今已开始插入广告;曾被寄予厚望的购物功能宣告失败,Sora视频产品也被关停。故事讲不下去了。 过去24小时,
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

