数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

GPT-4o生图实测：20余场景示例与缺陷整理

AI热点日报时间：2026-07-04

热点解读

GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理，都有了质的飞跃。从凌晨ChatGPT放出更新后，实测下来的感受是：光影、文字、细节，全都栩栩如生。而且，通过对话就能进一步修改。遮挡关系、倒影之类的处理，相当到位。生成图片的质量，已经可以直接用于科普插画。比如绘制分光三棱镜，效果

GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理，都有了质的飞跃。从凌晨ChatGPT放出更新后，实测下来的感受是：光影、文字、细节，全都栩栩如生。

而且，通过对话就能进一步修改。遮挡关系、倒影之类的处理，相当到位。

生成图片的质量，已经可以直接用于科普插画。比如绘制分光三棱镜，效果相当专业。

更让人惊喜的是，多轮对话中的一致性问题也解决得不错。比如说，生成了分光三棱镜后，继续要求画成书册风格，就能稳稳接住上下文。

只能说，OpenAI的箱子里，确实还有干货。下面来细致看看，这次更新到底突破了哪些边界。

文本渲染绝佳

一图胜千言。简单理解就是，你可以让模型根据对话内容直接生成一张带有精准文字的图片。比如，让它根据你给的菜单内容，画一个菜单（文字是单独给出的）。

再比如，让它画一张婚礼邀请卡——同样，文字部分可以精确控制。

多轮生成很棒

这套图像生成是GPT-4o的原生功能，最大的亮点在于：可以通过对话逐步完善图像，而且内容一致性保持得非常好。

比如，把一个橘猫放到《魔兽世界》的场景里——细节、光影都融合得很自然。

甚至，还能要求它生成PNG透明背景的版本，直接用于后续合成。

指令遵循很强

生成图像时，4o对复杂指令的理解能力非常突出。它可以处理包含10到20个不同物体的场景，并且对物体与特征、物体与物体之间的关系，绑定得很紧密，从而实现对画面的精准控制。

举个例子：让它画一个酒杯，里面只有一滴红酒。Prompt大致是"show me a wine glass with only the tiniest drop of red wine in it."——结果里那滴酒的细节和光影质感相当到位。

再比如，让它画一头看不见的大象。Prompt大概意思是：我们需要证明这里有一头看不见的大象，考虑大象在环境中会做什么、留下什么痕迹，但大象本身完全不出现。这种抽象概念，4o也能处理得像模像样。

还让它画了一张撸猫指南——4步照片指南，从手法到步骤，清晰又自然。

上下文关联

如果很清楚自己要什么风格，可以直接上传参考图片让ChatGPT参考。比如给一些风格插画，然后要求它生成一个三角形轮子的自行车——风格能完美延续。

作为炉石玩家，让它生成一张奥特曼的专属卡片——结果太真实了。GPT觉得奥特曼上不了传说，种族直接给归类为"战吼"（特别能逼逼）。然后，再要求做个实体版，稀有度变成了普通，技能变成了嘲讽……

贯通现实知识

4o绘图的一大独特优势是，能够直接从大模型中获取现实世界知识，生成与现实相符的图像。比如，可以直接生成一张专业水准的鸡尾酒配方图：每杯酒前面放一张手写卡片，上面写着配方。

再比如，制作一款披萨的教程图——意大利厨师指导制作正宗意式辣香肠披萨，所有步骤和设备都符合现实常识。

还有，让它画一个有关动量定理和冲量定理的infographic图——物理概念、公式、图示，全都准确无误。

甚至，让它画一个肯德基的简体中文菜单，其中有一个套餐叫"V我50"——这种融合了网络流行梗的知识，也能准确呈现。

风格多样

4o模型可以轻松驾驭各种视觉风格。比如用莫奈的风格画一只猫——印象派的笔触和色彩，拿捏得很到位。

再比如，幻想风格的海豚在地铁车厢中穿梭——要求逼真的水下场景，气泡和水流细节都要模拟得准确，结果确实惊艳。

还有，"山姆奥特曼正在采棉花"这种略带调侃的梗，生成的图像颇有纪录片的范儿。

一些限制

当然，模型也并非完美无缺。目前主要存在以下问题：

长图像的剪裁问题
有时会生成幻觉内容
难以准确渲染超过20个不同概念
多语言文本渲染，尤其是非拉丁文字（比如中文），不够准确
对特定部分要求编辑时，偶尔会出现bug
密集文本下，效果不够理想

另外，出于安全考虑，很多内容不允许生成。比如让生成米老鼠大战皮卡丘的钞票——会被直接拒绝。

最后

客观来说，OpenAI这次更新的图像生成能力确实非常棒。目前这项功能已经通过ChatGPT & Sora向Plus、Pro、Team和免费用户推出，替代DALL·E成为默认图像生成器。企业版和Edu用户也将很快更新，API也会在数周内更新。

所以，别小瞧OpenAI，箱子里确实是有货的。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：GPT-4o生图实测：20余场景示例与缺陷整理要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/MultimodalLargeModel/2025032667513.html

ai 人工智能

上一篇：联想HoloBoard沉浸式未来黑板，助推教育智能化转型

下一篇：模型特征蒸馏的深层知识转移挑战与局限

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周人工智能电子贺卡在线定制服务 02 / 本周TaleWiz：激发孩子想象力，创作阅读自己的故事 03 / 本周强大且高质量的免费AI图片生成器推荐使用Lusion AI 04 / 本周TTSLabs为Twitch主播定制AI语音文字转语音功能 05 / 本周flowlist.io AI助手轻松管理任务清单

01 / 本月人工智能电子贺卡在线定制服务 02 / 本月TaleWiz：激发孩子想象力，创作阅读自己的故事 03 / 本月强大且高质量的免费AI图片生成器推荐使用Lusion AI 04 / 本月TTSLabs为Twitch主播定制AI语音文字转语音功能 05 / 本月flowlist.io AI助手轻松管理任务清单

热点快看

07-04 18:34人工智能电子贺卡在线定制服务 07-04 18:34TaleWiz：激发孩子想象力，创作阅读自己的故事 07-04 18:34强大且高质量的免费AI图片生成器推荐使用Lusion AI 07-04 18:34TTSLabs为Twitch主播定制AI语音文字转语音功能 07-04 18:33flowlist.io AI助手轻松管理任务清单

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别