Diffusion Transformer(扩散变换器)
Diffusion Transformer是一种结合扩散模型与Transformer架构的生成模型,通过将传统U-Net替换为Transformer来提升视觉生成质量与可扩展性。OpenAI的Sora视频生成模型正是基于此技术,使其成为AI生成领域的热点方向。
一句话解释
Diffusion Transformer是一种将扩散模型中的去噪网络从传统的U-Net替换为Transformer架构的生成模型,专门用于图像、视频等视觉内容的创建。它把图片或视频帧切分成小块(patch),然后像处理文本序列一样用Transformer捕捉全局依赖,从而在保真度和可控性上显著超越早期扩散模型。
为什么会被关注
因为OpenAI在2024年发布的视频生成模型Sora正式采用了Diffusion Transformer架构,一举将生成视频的时长、连贯性和真实感提升到了新高度。该架构还展现出优异的可扩展性——增大模型参数量和数据量后效果持续提升,让业界看到了通向通用视觉生成的一条清晰路径。
此外,早期扩散模型在分辨率提升时会出现细节扭曲,而Transformer的自注意力机制能更好处理长距离依赖,使高分辨率生成更加稳定,因此研究者、创作者和科技公司都密切关注这一技术路线。
核心逻辑
传统扩散模型逐像素或逐卷积核去噪,而Diffusion Transformer先将输入图像或视频分解为固定大小的patch,再通过线性投影得到token序列。在每一步去噪过程中,Transformer的多个自注意力层对全部token进行联合建模,捕获不同区域之间的空间或时间关联。
训练时,模型学习预测噪声并在反向扩散中逐步还原纯净内容。为了处理不同分辨率和时长,该架构还会在token中加入位置编码和时间步嵌入,确保模型能理解空间布局与去噪进度。这种设计让模型能像理解文本一样理解视觉信息,生成效果更细腻、更符合常识。
常见场景
最典型的场景是文生视频工具(如Sora),用户输入一段文字描述即可获得连贯、符合物理规律的短视频。其次在图像生成领域,支持更高分辨率(如2K甚至4K)的生成,且能通过修改patch排列实现任意尺寸、非正方形的构图。
在可控生成方面,研究者利用Transformer的注意力可解释性,定制区域编辑(如改变画面中某个物体的颜色或位置),同时保持背景不变。此外,该架构也正在被探索用于3D内容生成、医学影像合成等对全局一致性要求高的场景。
容易混淆的点
Diffusion Transformer并非“扩散模型+Transformer”的简单拼凑——它特指在去噪过程中用Transformer替代U-Net,而不仅是将Transformer用于条件控制。同时需注意它与DiT(Diffusion Transformer的经典实现)的关系:DiT是具体化架构,而本词是更广泛的技术类别。
另外,不要把它和自回归生成(如GPT系列)混淆:Diffusion Transformer仍属于扩散过程,每一步是去噪而非预测下一个词;虽然都用Transformer,但训练目标和推理流程完全不同。最后,Sora并非唯一实现,诸多开源项目(如Hugging Face的DiT、Stable Diffusion 3局部引入的MMDiT)也采用了类似思想。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词DiT(Diffusion Transformer)是一种基于Transformer架构的扩散模型,它用Transformer替代了传统的U-Net,在图像生成、视频生成等任务中展现出强大的扩展性和高质量输出能力,成为Sora等前沿模型的基础架构。
Sora是OpenAI开发的文生视频扩散模型,能够根据用户的文本指令生成长达一分钟的高质量、连贯视频,标志着AI在理解和模拟物理世界方面取得重大突破。
Transformer是一种革命性的神经网络架构,它通过“自注意力”机制并行处理序列数据,彻底改变了自然语言处理领域,并成为GPT、BERT等大模型以及扩散模型的核心基础。
扩散模型是一种通过逐步去除噪声来生成数据(如图像、音频)的生成式AI模型。它模仿了物理中的扩散过程,先将数据“打散”成噪声,再学习如何逆向“重建”出清晰、高质量的内容。

