Latent Diffusion
潜在扩散模型(Latent Diffusion Models)通过将扩散过程转移到压缩的潜在空间,大幅降低计算成本,成为Stable Diffusion等主流图像生成工具的基石。
一句话解释
Latent Diffusion是一种在压缩的潜在空间(而非原始像素空间)中执行扩散过程的生成模型,它先用编码器将图像压缩为低维潜在表示,再通过去噪生成新内容,最后用解码器还原为图像。
为什么会被关注
传统扩散模型直接在像素空间操作,需要极高的计算资源和内存,难以部署。Latent Diffusion通过引入潜在空间压缩,将计算复杂度降低数个数量级,使得普通人也能在消费级GPU上快速生成高分辨率图像。
它还是Stable Diffusion、Midjourney等热门工具的核心引擎,让AI绘画从实验室走进大众视野。此外,该技术对视频生成、3D建模等领域的效率提升同样显著,因此备受开发者与创作者关注。
核心逻辑
Latent Diffusion包含两个阶段:首先用预训练的VAE(变分自编码器)将图像编码为低维潜在特征图,保留关键语义信息的同时压缩尺寸。然后在潜在空间进行前向加噪和反向去噪训练,学习如何从噪声恢复出有意义的潜在表示。
推理时,随机采样一个潜在噪声,通过去噪网络(通常是U-Net)逐步去除噪声,同时可加入文本或图像条件引导生成方向。最后用VAE解码器将潜在表示还原为清晰图像,整个过程可控且高效。
常见场景
最广泛应用是AI图像生成与编辑,如Stable Diffusion系列、DALL·E 3等工具,用户输入文本即可生成符合描述的图片。也用于图像修复、超分辨率、风格迁移等任务,只需修改条件输入即可。
在视频领域,Latent Diffusion被扩展用于逐帧生成或插帧,代表模型如Stable Video Diffusion。3D内容生成中,可将潜在扩散与神经辐射场结合,从文本或单张图片生成三维模型。
容易混淆的点
Latent Diffusion常被误认为就是Stable Diffusion。实际上Stable Diffusion是Latent Diffusion的一个具体实现,包含特定的VAE与文本编码器配置,而Latent Diffusion是一种更通用的模型架构。
另一个混淆点是“潜在空间”与“像素空间”。有人以为Latent Diffusion是在特征空间直接生成最终图像,其实它生成的是压缩的潜在表示,最终还需解码器映射回像素空间,两者并非同一维度。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Stable Diffusion是一种开源的潜在扩散模型,能够根据文本描述生成高质量的图像。它通过将图像生成过程分解为逐步去除噪声的步骤,实现了从随机噪声到目标图像的转换。
VAE(Variational Autoencoder)是一种将自编码器与概率建模结合的生成模型。它不仅能把复杂数据压缩到低维空间,还能从这个空间中采样生成全新的、合理的样本,广泛应用于图像生成、异常检测和分子设计等场景。
扩散模型是一种通过逐步去除噪声来生成数据(如图像、音频)的生成式AI模型。它模仿了物理中的扩散过程,先将数据“打散”成噪声,再学习如何逆向“重建”出清晰、高质量的内容。

