智源发布OmniGen扩散模型框架:统一图像生成无需繁杂插件
多模态模型领域的统一图像生成,终于有了一个真正落地的方案。智源研究院最近开源的OmniGen模型,就打破了这种局面。一句话总结它的核心价值:一个模型,搞定所有图像生成任务。
它最大的特点,是能优雅地搞定几乎所有的图像生成任务:文生图、图像编辑、基于角色的生成、基于视觉条件的生成……通通不在话下。而且,它的架构极其简化,不需要像其他模型那样,为了完成复杂任务而依赖一堆额外的插件(比如ControlNet或IP-Adapter)。用户只需要一个“指令”,就能驱动它完成从简单到复杂的各类生成需求。
更有意思的是,得益于这种统一的训练方式,模型的能力可以在不同任务之间进行知识迁移。这意味着,它不仅能很好地完成“学过的”任务,还能应对那些从未见过的任务和场景。让人兴奋的是,研究团队还探索了图像生成领域的推理能力和思维链机制,这也是目前大语言模型浪潮中一个很火的方向。
下面这张图演示了一个非常直观的多步流水线操作:先文本生成图像,再编辑其中的某个元素,之后根据某张图的人体姿态生成重绘,最后从另一张图里提取一个物体跟新图融合在一起——整个过程,一个模型全包了。

AI生图插件操作繁琐
说实话,过去几年里,像Midjourney、Stable Diffusion这样的文生图模型已经非常惊艳了。但问题在于,它们大多是“专有模型”——只能根据文本生成图片。一旦用户的需求变得复杂、灵活、精细,比如“我想要这个人的姿态,但穿那件衣服”,那工作量就瞬间上来了:得先找个姿态检测器从参考图里提取姿态,再加载对应的ControlNet插件,然后还得把特征提取出来输入到模型里……整个流程又长又碎。
如果只是简单的人物姿态还算好办。要是想从一张合照里生成某个特定人物的新图,那流程就更折腾了:先得把人物从合照里裁剪出来,保证结果图里只包含目标人物。像InstantID这类方法,还得额外用人脸检测器提取面部信息,再用面部编码器提取特征输入模型,一个模块都不能少。
本质问题是:不同的生成任务需要的插件和操作各不相同。这套复杂、琐碎、冗长的工作流,不仅训练成本高,应用起来也让人头大。更尴尬的是,即便这么折腾,有时候也难以满足一些更天然的需求——比如根据多张照片里的不同实体,合成一张全新的图像。
相比之下,文本生成领域里,以ChatGPT为代表的大语言模型,只靠一句人类指令就能完成各种任务。这就让人忍不住想问一句:图像生成领域,能不能也搞一个“通才”?一个模型,支持多种输入,集成多项能力,只靠自然语言指令,就把所有生成任务都办了?
OmniGen,就是对这个问题的回答。
它集成了文生图、图像编辑、角色一致性生成、视觉条件生成等一大批基础任务,并且能基于任意多模态的文图指令直接完成任务,不需要任何额外的插件和操作。
强大通用能力
OmniGen把多项能力集成在一个模型里,包括但不限于:
- 文本到图像生成
- 指代表达生成
- 通用图像条件生成
- 图像编辑
- 经典计算机视觉任务(图像去噪、边缘检测、姿态估计等)
- 上下文学习能力
下面我们挑几个能力具体看看效果。
2.1 文本到图像生成
最基础的能力自然不用说,文生图是它的基本功。

2.2 指代表达生成
这个能力是OmniGen的一个亮点。大家熟悉的InstantID、Pulid这类模型,可以实现“角色一致性生成”——输入一张单个对象的图像,生成基于这个对象的新图。但OmniGen不仅能做到这一点,它还有更高级的能力:指代表达生成。直白地说,就是它能从一张包含多个对象的图像里,精准识别指令所指代的那个目标,然后生成新的图像。
比如,一张照片里有好几个人,你直接说“生成这个人穿红衣服的图”,模型就能从多人中锁定目标,直接出图,完全不需要额外裁剪或面部检测。

更多样例如下:

2.3 通用图像条件生成
这个能力的想象力空间很大。类似ControlNet,OmniGen可以根据明确的显式条件生成图像,但它更厉害的地方在于,它自己就具备完成经典视觉任务的能力(比如人体姿态估计、深度估计)。
换句话说,一个OmniGen模型就能走完整个ControlNet流程:先用它对原图提取视觉条件,再基于这些条件生成图像,不需要额外引入任何处理器。而且,它还能进一步简化中间步骤:直接输入原图,加一句指令“Follow the human pose of this image, generate a new image:…”,它就能根据原图人物姿态一键生成新图。

2.4 图像编辑
OmniGen的图像编辑能力也很扎实,而且它可以在一次运行里同时执行多条编辑指令。比如下面这个例子:

2.5 更多能力
OmniGen还展现了一定的“推理”能力。当指令不是非常显式的,而是需要模型去做理解和推断时,它也能应对。比如,指令要求“删除图中能装水的物品”,模型会正确理解并定位到图中那个杯子,然后把它删掉:

此外,它还有一定程度的“上下文学习”能力。比如,给它输入一个“皇后象棋分割”的示例(输入一张图,输出分割结果),它就能参照这个示例去分割另一张新图里的对应物体:

思维链(Chain-of-Thought)在大语言模型领域已经证明了它的价值。研究团队受到人类绘画过程的启发——从空白画布开始,一步一步地迭代生成——尝试在图像生成领域也引入类似的方法。初步的微调实验显示,模型确实能够模拟人类行为,一步步生成图片。当然,这还只是初步探索,更成熟的应用留给后续研究。

最终,OmniGen的能力清单远不止上面这些,还包括基础的图像去噪、边缘提取等。模型权重和代码已经开源,大家可以自己去探索更多玩法。
最大程度舍弃额外模块
OmniGen的核心设计原则非常清晰:简洁,且有效。
为此,研究团队最大程度地舍弃了各种额外模块。整个模型的基本架构非常干净:一个Transformer模型加上一个VAE模块,总参数量3.8B。其中,Transformer继承自Phi3-mini模型,但为了适配图像数据,图像内部改用了双向注意力机制。整体架构如下:

为了实现强大的通用性和泛化能力,大规模且多样化的训练数据是必须的。但问题在于,目前图像生成领域还没有一个通用的数据集。于是,研究团队自己动手,构建了首个大规模、多样化的统一图像生成数据集,命名为X2I——意为“Anything to Image”。这个数据集将不同任务的数据格式统一重组,包含约1亿张图像,计划在未来审查完毕后开源。下面这张图是X2I数据集的一些示例:

OmniGen的范式,用一个统一模型来应对所有图像生成任务,不仅让各种下游任务的执行变得更简单,也方便在此基础上叠加各种能力来满足更通用的需求。目前,它的技术报告、模型权重和代码都已经开源。
当然,作为一个统一图像生成的初步尝试,OmniGen还有很大的提升空间。智源研究院表示,未来会进一步改进模型的基本能力,拓展更多有趣的功能。而且微调代码也已经发布,用户可以自行设计微调任务,赋予模型更多个性化的能力——OmniGen的输入形式非常灵活,给了大家充分的创作空间。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本
水利工程师用WorkBuddy写洪水报告效率提升3倍
WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太
日志服务数据加工规则洞察仪表盘使用指南
数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1
基于RFID的固定资产管理系统技术架构与工程实践
固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5
WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-02 12:28
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:26
2026-07-02 12:26
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

