数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

官方最新消息ChatGPT文生图功能现已正式弃用DALL·E模型了吗

AI热点日报时间：2026-07-04

热点解读

昨晚OpenAI对ChatGPT的文生图能力做了一次关键升级。准确地说，这更像一次 "小革命 "——以前生成图像离不开DALL-E这座桥，现在ChatGPT自己就能画了，而且是直接画。新能力最核心的变化是：生成的图片更 "懂你 "。什么叫懂？就是你让它画一只戴眼镜的猫，它不会直接给你一只穿衣服的猫，而是

昨晚OpenAI对ChatGPT的文生图能力做了一次关键升级。

准确地说，这更像一次"小革命"——以前生成图像离不开DALL-E这座桥，现在ChatGPT自己就能画了，而且是直接画。

新能力最核心的变化是：生成的图片更"懂你"。什么叫懂？就是你让它画一只戴眼镜的猫，它不会直接给你一只穿衣服的猫，而是先想想，再画出那副眼镜该在什么位置、什么款式。说白了，是理解力提升了，不再是"按指令机械拼贴"。

还有一点很实用——细节不满意，直接改。告诉它哪个地方要调整，它就能精准修改，不用推倒重来。

官方直播里演示了两个例子。一张是两位研究人员和奥特曼的合影，让ChatGPT转成动画风格——结果确实干净利落。另一个是让ChatGPT生成的图片上嵌文字，比如加上"Feel The AGI"的字样，也顺利完成了。

看了一圈介绍文章，感觉多少有吹捧成分。所以昨天下午忙完后，自己动手测了一轮。

问题来了：怎么测出不同模型之间的真实差距？

我先让Qwen代写了一个提示词：

想象一个赛博朋克风的场景，霓虹灯闪烁，高楼大厦林立，楼体上挂着巨大的广告屏，悬浮车穿行，无人机盘旋，天上挂着一轮紫色月亮，路人穿着科技感十足的服饰。从高处俯瞰整座城市，画面要高清、细节越多越好。

写完后，同时发给ChatGPT和即梦AI。

不到20秒，GPT出图了。两种结果摆在一起看，各有各的赛博朋克味道，但在细节上确实各有侧重。

整体评价？两张图清晰度都有点不过关。但即梦AI这边，细节修复和超清功能可以直接点，操作上更顺手，效果立竿见影。

GPT这边就有点力不从心了。让它生成高清版本，它又重新画了一张，依然没达到预期。

图释：左，ChatGPT；右，即梦AI

从清晰度控制这个维度看，GPT确实还有提升空间。不过它也有自己的亮点，比如调整尺寸时，你告诉它要1:1的图，它会给你两个方案，还反问一句：你觉得哪个更好？你更倾向哪种？

重复试了好几组提示词，结果依然如此。

接着测它的另一个新能力："世界知识"功能。官方说，有了这个能力，AI在生成图像时会考虑现实世界里的细节，比如地理位置、文化背景、物理规律这些。说白了，画雪山不会冒出热带植物，画古代场景不会突然冒出一部手机。

为了验证，我又让Qwen写了一个提示词：

生成一张图，用两个站在滑板上的人互相推对方的动作，来解释牛顿第三定律。要求画面直观，能清楚展示作用力和反作用力的关系。

结果怎么说呢？像那么回事。图中确实展示了两个人在滑板上互相推开的状态，还加了箭头和英文注解。但仔细一看，总觉得像是"图像版PPT"。

又试了几轮，分别生乘人的头部骨骼和全身骨骼。满分10分的话，最多给6分——因为眼下字节、腾讯的文生图模型，这些也都能做到。

图释：左，ChatGPT；右，即梦AI

Sam Altman对这次更新评价非常高，用了"难以相信这是AI生成的"这种话，说大家会喜欢，期待用户用它做更多创意内容。同时还强调，会尽量避免生成冒犯性内容，把创作自由和控制权交给用户。至于怎么平衡自由和责任，他说会观察实际使用情况、听取各方意见。其实这些漂亮话大家都听惯了。

为什么不继续用DALL-E了？

相比之下，比目前的生成能力更值得关注的，是OpenAI为什么决定用新模型取代DALL-E。

要知道，DALL-E是2021年1月发布的，一个做了快四年的老模型，按理说应该持续迭代让它更强才是。但问题出在它的核心架构上——自回归模型。

什么叫自回归模型？简单说，就是利用自身历史数据来预测未来。放在图像生成里，它会把图像拆成一个个token，像写作文一样，一个token一个token地生成。你让它画猫，得先画头、再画眼睛、鼻子——按顺序来，不能跳步。

这种模式的优点是细节好，缺点是速度慢，而且前面一旦画错，后面就很难调整。

替代方案是非自回归模型。

核心思路变了。新模型会先理解整张图的结构和细节——像学生先听完老师讲题目，把框架搭好，再一点点填充。还是画猫，它会先勾勒出猫的外形，再细化毛发、眼睛这些细节。

技术上，它采用一套特殊的编码-解码架构。编码器负责"读题"，理解你输入的文字；解码器负责"作答"，根据文字生成图像。

好处也很明显：第一，不再逐像素生成，效率更高；第二，整体表现更强，尤其在复杂场景里，能更自然地处理多个物体之间的关系，生成的图片更逼真。比如要画一张桌子，上面有杯子、书本、台灯，非自回归模型能更合理地处理物体位置和光影关系，画面不会乱七八糟。

对复杂文字指令的理解也更准了，基本能做到图文对应、逻辑自洽。

还有一个特点：灵活性好。它可以融入多模态场景，比如塞进ChatGPT 4.0里，不仅能看图，还能结合音频或已有图片，生成更多样化的内容。

OpenAI的这一步，其实是看到了行业变化

今年春节时，DeepSeek发布了文生图模型Janus-Pro，用的就是非自回归框架。其中的Janus-Pro-7B在GenEval准确率上达到80%，直接超过DALL-E 3的61%。

查了一下，这种非自回归模型最早在2018年ICLR会议上被提出，起初用在神经机器翻译领域，目标就是加速推理。从论文综述看，微软在2022年5月做了进一步研究。而国内从2023年开始，阿里、科大讯飞、昆仑万维、云从科技等企业已经陆续引入这项技术。

说到底，OpenAI这一步本质是一场"自我革命"——看见国内在这条路上跑得飞快，终于开始反思自己了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：官方最新消息ChatGPT文生图功能现已正式弃用DALL·E模型了吗要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/MultimodalLargeModel/2025032603167.html

ai 人工智能

上一篇：AI模型训练的进化之路：从SFT到RFT

下一篇：MLPerf训练性能测试榜单发布浪潮信息刷新多项纪录

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Daetama数据科学完整准备工作系统指南与精选学习资源汇总 02 / 本周AI驱动配音平台 Speakmulti 03 / 本周Umi-OCR图片转文字识别软件 04 / 本周用AI生成你最爱的画家或艺术运动风格绘画 05 / 本周创一AI短视频脚本工具，专为创作者与编导设计

01 / 本月Daetama数据科学完整准备工作系统指南与精选学习资源汇总 02 / 本月AI驱动配音平台 Speakmulti 03 / 本月Umi-OCR图片转文字识别软件 04 / 本月用AI生成你最爱的画家或艺术运动风格绘画 05 / 本月创一AI短视频脚本工具，专为创作者与编导设计

热点快看

07-04 19:00Daetama数据科学完整准备工作系统指南与精选学习资源汇总 07-04 19:00AI驱动配音平台 Speakmulti 07-04 18:59Umi-OCR图片转文字识别软件 07-04 18:59用AI生成你最爱的画家或艺术运动风格绘画 07-04 18:59创一AI短视频脚本工具，专为创作者与编导设计

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别