扩散模型:从噪声中“生长”出图像的AI魔法
扩散模型是一种通过逐步去除噪声来生成数据(如图像、音频)的生成式AI模型。它模仿了物理中的扩散过程,先将数据“打散”成噪声,再学习如何逆向“重建”出清晰、高质量的内容。
一句话解释
扩散模型是一种生成式人工智能模型,其核心思想是模仿物理扩散的逆过程:先给数据(如图片)逐步添加噪声直到变成完全随机噪声,然后训练一个神经网络学习如何从噪声中一步步“去噪”,最终重建或生成全新的数据。
为什么会被关注
自2020年左右在图像生成质量上超越生成对抗网络后,扩散模型迅速成为AIGC领域的绝对主流。以Stable Diffusion、Midjourney、DALL-E 2/3为代表的应用引爆了AI绘画和创意产业,让普通人也能通过文字描述生成高质量图像。其生成细节丰富、可控性强、训练相对稳定,推动了从静态图像到视频、3D模型生成的技术演进。
核心逻辑:正向扩散与逆向重建
模型训练分两个阶段:正向扩散过程,系统化地将一张真实图片通过数百步添加高斯噪声,最终变成纯噪声;逆向重建过程,是模型学习的核心,即训练一个神经网络(通常是U-Net)预测每一步所添加的噪声,并学习如何从纯噪声开始,一步步减去预测的噪声,最终还原出清晰的图像。在生成时,只需从一个随机噪声开始,调用学习好的逆向过程,就能“去噪”出一张全新的图片。
常见应用场景
1. 文生图与创意设计:用户输入文本提示词,模型生成符合描述的图像,广泛应用于艺术创作、广告设计、游戏资产制作。
2. 图像编辑与修复:实现智能修图、老照片修复、图像扩展、风格迁移等,如“替换图中某个物体”或“改变图片风格”。
3. 科学模拟与生成:在药物研发中用于生成分子结构,在气象学中用于生成天气预测图,为科学研究提供新工具。
4. 视频与音频生成:技术正扩展至时序数据领域,用于生成连贯视频、动画以及音乐、语音等音频内容。
容易混淆的点
与生成对抗网络混淆:GANs通过生成器和判别器“对抗”训练,而扩散模型是学习确定的去噪步骤,通常训练更稳定,生成多样性更好。
与自回归模型混淆:像GPT那样逐个像素预测的模型不同,扩散模型在隐空间并行处理所有像素,效率更高。理解“潜在扩散模型”是关键:如Stable Diffusion,它并非直接在像素空间操作,而是先将图像压缩到更小的隐空间进行扩散和去噪,极大降低了计算成本,这才是其能普及的技术关键。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词DALL-E是OpenAI开发的文本到图像生成模型,能够根据用户输入的自然语言描述,创造出高度匹配且富有创意的图像。它代表了AI在理解复杂概念并将其视觉化方面的重大突破,极大地降低了图像创作的门槛。
AIGC(人工智能生成内容)是指利用人工智能技术自动或辅助生成文本、图像、音频、视频等内容。它正从辅助工具演变为独立的内容生产者,深刻改变着内容产业的创作模式与效率。
Stable Diffusion是一种开源的潜在扩散模型,能够根据文本描述生成高质量的图像。它通过将图像生成过程分解为逐步去除噪声的步骤,实现了从随机噪声到目标图像的转换。

