Diffusion Transformer（扩散变换器）

本次查询Diffusion TransformerAI 热词解释结果

中文解释扩散变换器

热词类型模型架构

常见场景文本到视频生成 / 高分辨率图像合成 / 可控内容创作

一句话解释

Diffusion Transformer是一种将扩散模型中的去噪网络从传统的U-Net替换为Transformer架构的生成模型，专门用于图像、视频等视觉内容的创建。它把图片或视频帧切分成小块（patch），然后像处理文本序列一样用Transformer捕捉全局依赖，从而在保真度和可控性上显著超越早期扩散模型。

为什么会被关注

因为OpenAI在2024年发布的视频生成模型Sora正式采用了Diffusion Transformer架构，一举将生成视频的时长、连贯性和真实感提升到了新高度。该架构还展现出优异的可扩展性——增大模型参数量和数据量后效果持续提升，让业界看到了通向通用视觉生成的一条清晰路径。

此外，早期扩散模型在分辨率提升时会出现细节扭曲，而Transformer的自注意力机制能更好处理长距离依赖，使高分辨率生成更加稳定，因此研究者、创作者和科技公司都密切关注这一技术路线。

核心逻辑

传统扩散模型逐像素或逐卷积核去噪，而Diffusion Transformer先将输入图像或视频分解为固定大小的patch，再通过线性投影得到token序列。在每一步去噪过程中，Transformer的多个自注意力层对全部token进行联合建模，捕获不同区域之间的空间或时间关联。

训练时，模型学习预测噪声并在反向扩散中逐步还原纯净内容。为了处理不同分辨率和时长，该架构还会在token中加入位置编码和时间步嵌入，确保模型能理解空间布局与去噪进度。这种设计让模型能像理解文本一样理解视觉信息，生成效果更细腻、更符合常识。

常见场景

最典型的场景是文生视频工具（如Sora），用户输入一段文字描述即可获得连贯、符合物理规律的短视频。其次在图像生成领域，支持更高分辨率（如2K甚至4K）的生成，且能通过修改patch排列实现任意尺寸、非正方形的构图。

在可控生成方面，研究者利用Transformer的注意力可解释性，定制区域编辑（如改变画面中某个物体的颜色或位置），同时保持背景不变。此外，该架构也正在被探索用于3D内容生成、医学影像合成等对全局一致性要求高的场景。

容易混淆的点

Diffusion Transformer并非“扩散模型+Transformer”的简单拼凑——它特指在去噪过程中用Transformer替代U-Net，而不仅是将Transformer用于条件控制。同时需注意它与DiT（Diffusion Transformer的经典实现）的关系：DiT是具体化架构，而本词是更广泛的技术类别。

另外，不要把它和自回归生成（如GPT系列）混淆：Diffusion Transformer仍属于扩散过程，每一步是去噪而非预测下一个词；虽然都用Transformer，但训练目标和推理流程完全不同。最后，Sora并非唯一实现，诸多开源项目（如Hugging Face的DiT、Stable Diffusion 3局部引入的MMDiT）也采用了类似思想。

来源：AI 热词解释频道整理

Diffusion Transformer Sora DiT 扩散模型 Transformer

上一篇：Rectified Flow 整流流：让AI生成图像更快的直线路径

下一篇：Latent Diffusion