
打破次元壁:深入解析扩散模型 (Diffusion Models) 的核心公式
11 分钟阅读
如果我们说大语言模型 (LLM) 赋予了 AI 逻辑和常识,那么**扩散模型 (Diffusion Models)** 则彻底赋予了 AI 无尽的想象力。过去这几年中,从 Midjourney 到 Stable Diffusion,AIGC 在视觉生成领域的爆发令人瞠目结舌。
要理解扩散模型,我们需要将其拆分为两个由非平衡热力学启发的物理过程:**前向扩散(Forward Diffusion)** 和 **反向去噪(Reverse Diffusion)**。
### 1. 前向过程:让秩序归于混沌
在物理学中,一滴墨水滴入水中会自然而然地扩散,最终变成均匀的灰色液体。扩散模型的前向过程与之完全一致:
我们拿来一张清晰的、高分辨率的真实蝴蝶照片(记作 $x_0$),在设定的时间步长 $t$ (通常 $T=1000$) 内,不断向图像中注入微小的、服从高斯分布的白噪声。
随着步长递增,结构被一点点破坏,图像逐渐变得模糊。当走到最后一步 $x_T$ 时,原始的蝴蝶照片已经变成了一块完全是由纯高斯噪声构成的“雪花屏”(完全的混沌)。
有趣的是,这个过程是一个**可被直接解析计算的马尔可夫链**:我们可以通过公式,一步到位地算出任意时间步 $t$ 的噪声图样,而不需要老老实实做一千次循环。
### 2. 反向过程:从混沌中雕琢秩序 (U-Net 的舞台)
如果前向过程是加噪,那么我们训练 AI 模型的目的,就是让它学会**逆转时光**。
我们给神经网络看一张经过 $t$ 步破坏的模糊图片,以及当前的步长提示词 $t$,要求它预测出:“在这一步,我们到底加了怎样的噪声?”。
这里挑大梁的网络架构,就是经典的 **U-Net**(带有交叉注意力机制)。
* **空间压缩与拉伸**:U-Net 先像漏斗一样将高维图像特征压缩合并,再像金字塔一样把它拉伸回原分辨率。在各个相同维度层中间加入了名为 Skip-Connection 的短接线,以保留细节的纹理。
* **语言与画笔的结合(Cross-Attention)**:模型之所以能听懂 “一只色彩斑斓的蝴蝶在花朵上”,是因为引入了 **Cross-Attention 层**。文本经过 CLIP 模型转换成特征向量,这些向量像是指挥棒一样,在 U-Net 还原噪声的每一步中,不断地施加定向的引导力。
### 3. Latent Space (潜空间):让 GPU 不再燃烧
早期像素级的扩散模型由于要在极高的维度矩阵上进行降噪计算,极其耗费算力。Stable Diffusion 的突破在于将这两轮过程搬到了一个被压缩了 64 倍的“潜空间”(Latent Space)中进行。
我们先用一个名为 VAE 的自编码器,把巨大的原图压缩成体积小得多的潜特征;所有的加噪和 U-Net 预测都在这个迷你宇宙中光速完成;等去噪出完美的潜特征后,再让 VAE 把它解码回肉眼可见的绚丽图像。这便是为何今天连普通消费级显卡,也能在几秒内跑出一张大作的根本原因。
