GPT-4o生图实测:20余场景示例与缺陷整理
GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理,都有了质的飞跃。从凌晨ChatGPT放出更新后,实测下来的感受是:光影、文字、细节,全都栩栩如生。 而且,通过对话就能进一步修改。遮挡关系、倒影之类的处理,相当到位。 生成图片的质量,已经可以直接用于科普插画。比如绘制分光三棱镜,效果
GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理,都有了质的飞跃。从凌晨ChatGPT放出更新后,实测下来的感受是:光影、文字、细节,全都栩栩如生。
而且,通过对话就能进一步修改。遮挡关系、倒影之类的处理,相当到位。
生成图片的质量,已经可以直接用于科普插画。比如绘制分光三棱镜,效果相当专业。
更让人惊喜的是,多轮对话中的一致性问题也解决得不错。比如说,生成了分光三棱镜后,继续要求画成书册风格,就能稳稳接住上下文。
只能说,OpenAI的箱子里,确实还有干货。下面来细致看看,这次更新到底突破了哪些边界。
文本渲染绝佳
一图胜千言。简单理解就是,你可以让模型根据对话内容直接生成一张带有精准文字的图片。比如,让它根据你给的菜单内容,画一个菜单(文字是单独给出的)。
再比如,让它画一张婚礼邀请卡——同样,文字部分可以精确控制。
多轮生成很棒
这套图像生成是GPT-4o的原生功能,最大的亮点在于:可以通过对话逐步完善图像,而且内容一致性保持得非常好。
比如,把一个橘猫放到《魔兽世界》的场景里——细节、光影都融合得很自然。
甚至,还能要求它生成PNG透明背景的版本,直接用于后续合成。
指令遵循很强
生成图像时,4o对复杂指令的理解能力非常突出。它可以处理包含10到20个不同物体的场景,并且对物体与特征、物体与物体之间的关系,绑定得很紧密,从而实现对画面的精准控制。
举个例子:让它画一个酒杯,里面只有一滴红酒。Prompt大致是"show me a wine glass with only the tiniest drop of red wine in it."——结果里那滴酒的细节和光影质感相当到位。
再比如,让它画一头看不见的大象。Prompt大概意思是:我们需要证明这里有一头看不见的大象,考虑大象在环境中会做什么、留下什么痕迹,但大象本身完全不出现。这种抽象概念,4o也能处理得像模像样。
还让它画了一张撸猫指南——4步照片指南,从手法到步骤,清晰又自然。
上下文关联
如果很清楚自己要什么风格,可以直接上传参考图片让ChatGPT参考。比如给一些风格插画,然后要求它生成一个三角形轮子的自行车——风格能完美延续。
作为炉石玩家,让它生成一张奥特曼的专属卡片——结果太真实了。GPT觉得奥特曼上不了传说,种族直接给归类为"战吼"(特别能逼逼)。然后,再要求做个实体版,稀有度变成了普通,技能变成了嘲讽……
贯通现实知识
4o绘图的一大独特优势是,能够直接从大模型中获取现实世界知识,生成与现实相符的图像。比如,可以直接生成一张专业水准的鸡尾酒配方图:每杯酒前面放一张手写卡片,上面写着配方。
再比如,制作一款披萨的教程图——意大利厨师指导制作正宗意式辣香肠披萨,所有步骤和设备都符合现实常识。
还有,让它画一个有关动量定理和冲量定理的infographic图——物理概念、公式、图示,全都准确无误。
甚至,让它画一个肯德基的简体中文菜单,其中有一个套餐叫"V我50"——这种融合了网络流行梗的知识,也能准确呈现。
风格多样
4o模型可以轻松驾驭各种视觉风格。比如用莫奈的风格画一只猫——印象派的笔触和色彩,拿捏得很到位。
再比如,幻想风格的海豚在地铁车厢中穿梭——要求逼真的水下场景,气泡和水流细节都要模拟得准确,结果确实惊艳。
还有,"山姆奥特曼正在采棉花"这种略带调侃的梗,生成的图像颇有纪录片的范儿。
一些限制
当然,模型也并非完美无缺。目前主要存在以下问题:
- 长图像的剪裁问题
- 有时会生成幻觉内容
- 难以准确渲染超过20个不同概念
- 多语言文本渲染,尤其是非拉丁文字(比如中文),不够准确
- 对特定部分要求编辑时,偶尔会出现bug
- 密集文本下,效果不够理想
另外,出于安全考虑,很多内容不允许生成。比如让生成米老鼠大战皮卡丘的钞票——会被直接拒绝。
最后
客观来说,OpenAI这次更新的图像生成能力确实非常棒。目前这项功能已经通过ChatGPT & Sora向Plus、Pro、Team和免费用户推出,替代DALL·E成为默认图像生成器。企业版和Edu用户也将很快更新,API也会在数周内更新。
所以,别小瞧OpenAI,箱子里确实是有货的。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:GPT-4o生图实测:20余场景示例与缺陷整理要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LusionAI基于稳定扩散技术,免费生成高质量图片,完全支持个人和商业用途,无版权风险。操作极其简便,输入描述即可快速获得细节和风格匹配的作品,非常适合日常创作,无需注册,生成速度快,性价比很高。
TTSLabs为Twitch主播提供AI驱动的文字转语音功能,支持自定义捐赠播报的声音、音效及脏话过滤。桌面应用处理速度快于实时,与Streamlabs等平台无缝衔接,观众可通过指南了解可用选项。核心亮点包括高度自定义语音、AI生成自然音效及深度集成。
flowlist io是一款AI任务管理工具,能将用户的碎片化想法及情绪化输入直接转化为结构化项目名称和可执行任务,支持拖放排序、跨项目移动与任务拆分,帮助用户快速理清下一步行动,极大提升任务管理效率。
MyLikenessAI是一个肖像许可平台,艺术家可通过它授权肖像给AI公司并获取收益,生成式AI公司可免费集成引擎合规调用肖像,企业能在获得明确同意后安全地将AI生成形象投入商业用途。
- 日榜
- 周榜
- 月榜
热点快看
