OmniGen统一图像生成模型支持文生图编辑与姿态检测
说实话,现在市面上的图像生成模型确实不少,各有各的绝活。但OmniGen算是少数让人眼前一亮的工作之一。它来自北京市人工智能研究院,主打一个“统一”——一个模型,包揽文生图、主题驱动生成、身份保留、图像编辑、图像条件生成等任务。更关键的是,它不需要你额外设载任何插件,也不用操心什么预处理步骤。你只需
说实话,现在市面上的图像生成模型确实不少,各有各的绝活。但OmniGen算是少数让人眼前一亮的工作之一。它来自北京市人工智能研究院,主打一个“统一”——一个模型,包揽文生图、主题驱动生成、身份保留、图像编辑、图像条件生成等任务。更关键的是,它不需要你额外设载任何插件,也不用操心什么预处理步骤。你只需要给一段文本提示,模型自己就能从输入图像里识别出关键特征,比如想要的对象、人体姿势、深度映射——一步到位,省心省力。
概述
OmniGen的设计思路很直接:一个模型,根据多模态提示,生成各种图像。它简单、灵活,而且容易上手。作者已经把推理代码公开了,方便大家去探索更多可能性。
细想一下,现有的图像生成模型,要实现理想效果,往往得走一大串流程:加装ControlNet、IP-Adapter、Reference-Net这些额外网络模块,还得先做人脸检测、姿势估计、裁剪等预处理。这实在太繁琐了。未来的图像生成范式应该更简单、更灵活——直接通过任意的多模态指令生成图像,不需要任何额外插件和操作。这就像一个专门干图像生成的GPT。
当然,受限于资源,OmniGen还有改进空间。但团队会持续优化它,也希望这个工作能启发更多通用的图像生成模型。更重要的是,你可以轻松地微调OmniGen,不用为特定任务专门设计网络结构。准备好数据,跑个脚本就行。这意味着想象力将不再受限——每个人都能构造任何图像生成任务,玩出一些非常有趣、奇妙甚至富有创意的事情。

OmniGen 能做什么?
那OmniGen到底能干啥?一句话:它从文本到图像、主题驱动、身份保留、图像编辑到图像条件生成,几乎包圆了。而且全程不需要额外插件或操作。你只需要用文本提示,模型就能自动识别输入图像中的特征——是哪个对象、什么姿势、深度如何,它自己判断。
下面是它的功能演示:你可以通过OmniGen灵活控制图像生成。

引用表情生成
输入多幅图像,用简单通用的语言引用图像中的对象,OmniGen就能自动识别每幅图像里需要的对象,并生成新图像。整个过程不需要进行图像裁剪或人脸检测等额外操作。

方法

OmniGen 的框架
文本被标记为token,输入图像通过VAE转换为嵌入。OmniGen可以接受自由形式的多模态提示,并通过整流方法生成图像。

OmniGen 模型训练数据示例
所有任务的输入被标准化为任意交错的图像文本序列格式,用作模型的提示。占位符|image_i|表示提示中第i个图像的位置。

(a)GRIT-Entity数据集的构建过程说明:使用实例分割和重绘方法来获取大量数据。(b)构建网络图像数据集时使用的交叉验证策略说明:对于人物A和人物B的合影,从人物A和人物B的单张照片中抽取几张图像,并询问MLLM他们是否出现在合影中。只有当人物A和人物B的“是”比例都达到特定阈值时,才会保留合影。然后使用标记为“是”的单张图像与相应的组图像构建数据对。
更多结果展示

文本生成图像的结果

主题驱动生成的结果
OmniGen可以根据参考图像中的对象生成新图像。当参考图像包含多个对象时,它可以根据文本指令自动识别需要引用的对象。

OmniGen在不同图像生成任务中的表现。
OmniGen在传统视觉任务上的表现。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OmniGen统一图像生成模型支持文生图编辑与姿态检测要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点AI应用对IT基础设施提出更高算力、实时数据等要求,传统架构难以支撑。Evenness公司CEOEveLogunova-Parker提出系统架构优化与基础设施扩展策略,帮助企业实现AI应用落地。该内容源自2025年5月20日InformationWeek线上研讨会。
CES2023三大趋势:元宇宙从技术评估转向实际应用,涵盖社交、医疗等场景;软件定义汽车使车辆像智能手机般可个性化、实时响应,带来增值服务;可持续发展面临能耗与碳排放挑战,需借助数字孪生、物联网优化能效。
Twitter宣布基础API免费访问于2月9日终止,开发者仅有一周缓冲期,但未公布具体收费标准。支持者认为此举可打击垃圾账号,反对者担忧损害合法自动化工具、学术研究及第三方应用。此前已有多款客户端因API被封停服。
针对全球超十亿残障人士面临的数字障碍,现有无障碍标准对实体设备及互联系统覆盖不足,合规不等于良好体验。提出六大设计原则:与残障人士共创、为极端用户设计、多感官冗余、一致设计语言、完整体验旅程、兼顾功能与美观,旨在打造真正包容的互联产品。
- 日榜
- 周榜
- 月榜
热点快看
