Stable Diffusion 3震撼发布，20亿参数Medium模型率先开源，开启图像生成新纪元

AI热点日报时间：2026-05-30

热点解读

StableDiffusion3Medium模型（20亿参数）发布，采用多模态扩散Transformer（MMDiT）架构和修正流公式，在图像质量、文本遵循度及排版能力上超越现有模型。未来还将开源40亿和80亿参数版本，适用于艺术创作、广告设计、游戏开发等场景。

前言

Stability AI 一直是开源图像生成领域的重要推动者，近期他们再次带来了突破性进展。2025年6月12日，Stable Diffusion 3 的 Medium 模型正式发布，参数量为20亿。从已公布的成果来看，它在图像质量、文本指令遵循度以及文字排版能力方面，均展现出超越现有模型的优异表现。可以确定的是，这并非终点——未来还将陆续开源40亿和80亿参数的版本，以满足不同应用场景的需求。

技术特点

Stable Diffusion 3 本次最突出的亮点在于采用了一套全新架构——多模态扩散Transformer，简称 MMDiT。与之前的版本相比，这套架构在设计思路上发生了根本性变化。

关键改进体现在两个方面：

独立的权重集。 通俗来说，就是为图像和文字分别配备了专属的“处理核心”。它们各自在独立空间中进行运算，同时又能够相互影响。这一设计直接提升了模型对复杂文本指令的理解能力，也让最终的图文匹配度更高。
双向信息流。 信息不再只是单向地从文本流向图像。MMDiT 允许图像与文本的 token 之间进行双向通信。模型不仅能根据文字生成图像，反过来也能理解图像中的信息，并据此微调生成过程。这种深度交互，正是提升图像质量和文本遵循度的关键因素。

除了架构创新，Stable Diffusion 3 还采用了名为 修正流 的公式。该方法在训练时将数据与噪声连接成一条直线轨迹，从而简化了推断路径。带来的好处非常直接：只需更少的采样步骤，就能生成高质量图像。配合新的 轨迹采样调度，模型在训练过程中对中间环节的预测能力也得到显著增强。

性能表现

Stability AI 进行了大量对比测试，对手包括 DALL·E 3、Midjourney v6、Ideogram v1 以及其他主流开源模型。结果充分说明，Stable Diffusion 3 在三个维度上表现尤为突出：

文本遵循度： 它能更精准地将文字描述转化为图像细节，生成的画面与提示词之间的匹配度非常高。
图像质量： 在视觉质感上更胜一筹，细节更丰富，艺术感更强。
排版能力： 这是一个许多模型都难以攻克的难点，但 Stable Diffusion 3 处理得相当出色，生成的文字图像美观且清晰易读。

在实际运行中，80亿参数的版本可以在 RTX 4090 上流畅运行，生成一张 1024x1024 的图像大约需要34秒。为了降低硬件门槛，Stability AI 计划后续推出 40亿和 80亿参数的多个版本，这确实照顾到了不同用户的实际需求。

应用场景

这套模型的适用范围非常广泛，几乎覆盖了所有需要图像生成的领域：

艺术创作： 艺术家可以借此快速探索各种风格，激发灵感，辅助创作实验。
广告设计： 设计师能根据创意需求，快速生成符合要求的广告素材，极大提升工作效率。
游戏开发： 从场景、人物到道具，游戏开发者可借助它快速填充视觉内容，增强作品的沉浸感。
影视制作： 在影视预可视化、场景设计等环节，它也能提供高效的视觉支撑。

总结

Stable Diffusion 3 的发布，确实在文本到图像生成领域迈出了坚实的一步。全新的 MMDiT 架构、扎实的生成效果，加上开源带来的生态潜力，使其毫无悬念地成为目前最值得关注的开源图像生成模型之一。随着技术演进和更多参数版本的释放，它能为各行业带来的价值，值得持续期待。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Stable Diffusion 3震撼发布，20亿参数Medium模型率先开源，开启图像生成新纪元要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2024061315368.html

ai 人工智能

上一篇：腾讯会议声链功能解决开会最怕的啸叫问题

下一篇：即梦AI餐厅菜单摄影图提示词让AI先判断再输出

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周如何用Notion AI装修管理手册做预算控制与施工追踪 02 / 本周Claude写长文小标题提示词避免反复修改的技巧 03 / 本周Anthropic完成650亿美元融资发布Claude Opus 4.8估值近万亿 04 / 本周通义万相大面积泼墨色彩碰撞抽象画创作指南 05 / 本周深度解析参数Token上下文窗口长度与温度

01 / 本月如何用Notion AI装修管理手册做预算控制与施工追踪 02 / 本月Claude写长文小标题提示词避免反复修改的技巧 03 / 本月Anthropic完成650亿美元融资发布Claude Opus 4.8估值近万亿 04 / 本月通义万相大面积泼墨色彩碰撞抽象画创作指南 05 / 本月深度解析参数Token上下文窗口长度与温度

热点快看

05-30 22:57如何用Notion AI装修管理手册做预算控制与施工追踪 05-30 22:56Claude写长文小标题提示词避免反复修改的技巧 05-30 22:56Anthropic完成650亿美元融资发布Claude Opus 4.8估值近万亿 05-30 22:55通义万相大面积泼墨色彩碰撞抽象画创作指南 05-30 22:55深度解析参数Token上下文窗口长度与温度

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别