科技学习日记

如果我们说大语言模型 (LLM) 赋予了 AI 逻辑和常识，那么**扩散模型 (Diffusion Models)** 则彻底赋予了 AI 无尽的想象力。过去这几年中，从 Midjourney 到 Stable Diffusion，AIGC 在视觉生成领域的爆发令人瞠目结舌。要理解扩散模型，我们需要将其拆分为两个由非平衡热力学启发的物理过程：**前向扩散（Forward Diffusion）** 和 **反向去噪（Reverse Diffusion）**。 ### 1. 前向过程：让秩序归于混沌在物理学中，一滴墨水滴入水中会自然而然地扩散，最终变成均匀的灰色液体。扩散模型的前向过程与之完全一致：我们拿来一张清晰的、高分辨率的真实蝴蝶照片（记作 $x_0$），在设定的时间步长 $t$ (通常 $T=1000$) 内，不断向图像中注入微小的、服从高斯分布的白噪声。随着步长递增，结构被一点点破坏，图像逐渐变得模糊。当走到最后一步 $x_T$ 时，原始的蝴蝶照片已经变成了一块完全是由纯高斯噪声构成的“雪花屏”（完全的混沌）。有趣的是，这个过程是一个**可被直接解析计算的马尔可夫链**：我们可以通过公式，一步到位地算出任意时间步 $t$ 的噪声图样，而不需要老老实实做一千次循环。

### 2. 反向过程：从混沌中雕琢秩序 (U-Net 的舞台) 如果前向过程是加噪，那么我们训练 AI 模型的目的，就是让它学会**逆转时光**。我们给神经网络看一张经过 $t$ 步破坏的模糊图片，以及当前的步长提示词 $t$，要求它预测出：“在这一步，我们到底加了怎样的噪声？”。这里挑大梁的网络架构，就是经典的 **U-Net**（带有交叉注意力机制）。 * **空间压缩与拉伸**：U-Net 先像漏斗一样将高维图像特征压缩合并，再像金字塔一样把它拉伸回原分辨率。在各个相同维度层中间加入了名为 Skip-Connection 的短接线，以保留细节的纹理。 * **语言与画笔的结合（Cross-Attention）**：模型之所以能听懂 “一只色彩斑斓的蝴蝶在花朵上”，是因为引入了 **Cross-Attention 层**。文本经过 CLIP 模型转换成特征向量，这些向量像是指挥棒一样，在 U-Net 还原噪声的每一步中，不断地施加定向的引导力。 ### 3. Latent Space (潜空间)：让 GPU 不再燃烧早期像素级的扩散模型由于要在极高的维度矩阵上进行降噪计算，极其耗费算力。Stable Diffusion 的突破在于将这两轮过程搬到了一个被压缩了 64 倍的“潜空间”（Latent Space）中进行。我们先用一个名为 VAE 的自编码器，把巨大的原图压缩成体积小得多的潜特征；所有的加噪和 U-Net 预测都在这个迷你宇宙中光速完成；等去噪出完美的潜特征后，再让 VAE 把它解码回肉眼可见的绚丽图像。这便是为何今天连普通消费级显卡，也能在几秒内跑出一张大作的根本原因。

打破次元壁：深入解析扩散模型 (Diffusion Models) 的核心公式