科技学习日记

当我们在追逐 Transformer 和各种注意力算法时，很容易忽视一个极其冰冷残酷的物理现实：**AI 如今是一场地地道道的硬件工业游戏。** 没有英伟达（NVIDIA）的 GPU，没有 H100 里面密密麻麻的晶体管和 HBM 高带宽显存，软件上再精妙的代码也只是图纸。 ### “显存墙” (Memory Wall) 的致命制约很多人误以为训练大模型，最缺的是计算单元（CUDA Cores 或 Tensor Cores）来进行矩阵乘法。然而现实情况是，现代 GPU 进行数学计算的速度往往远高于它从内存条读取数据的速度。我们把成千上万亿规模的模型参数、优化器状态和激活值都存放在显存中。大模型每生成一个词（Token），显卡都需要把庞大全量参数从显存（HBM）中完整搬运至片上 SRAM 计算域中进行一遍乘法运算。这个巨大的 IO 数据吞吐鸿沟，被称为**“显存墙” (Memory Wall)**。也就是说，由于存取频发太高，GPU 很多时候都在“站着干等数据运过来”。这就是为什么过去我们要用 8-bit quantization （量化）甚至最近的 4-bit 量化技术。量化的本质不是为了计算更快，而是为了直接把庞大的 FP16 数据强行压缩一半或四分之一的体积，以成倍减轻显卡存取的噩梦级负担。 ### MoE（Mixture of Experts）混合专家架构的奇袭随着对模型能力的要求永无止境，想要训练出万亿级别的参数，光靠烧钱买显存不仅成本惊人，而且计算延迟无法忍受。于是，**MoE（混合专家）架构**重新走上了神坛。它的核心思想是**“稀疏激活”（Sparse Activation）**。过去我们每调用一次模型，这几百亿的参数都会被通电运算一遍（稠密模型）。而在 MoE 架构中，神经网络中被插入了一层叫作“门控网络（Gating Network）”的路由器。 * 我们把庞大的网络拆分成 8 个平行的“专家网络”（Experts）。 * 门控网络就像一个智能的交通督导员。当用户输入一句关于编程问题的指令时，门控网络通过快速计算，发现只需激活“逻辑专家”和“代码专家”。 * 于是，其他 6 个专家在这一轮计算中完全“休眠”不消耗任何算力。这就造就了一个性能奇迹：假设某巨头宣称其模型是 1400 亿参数级别，但它实际上是由 8 个小型专家拼凑的。因为每轮对话只需激活 2 个专家，在推理的时候它占用的计算频宽仅仅相当于 350 亿参数的小模型。 **算力的物理疆界往往逼迫出最伟大的工程智慧。** 正是这种从芯片 IO 到稀疏算法的全链路压榨，才让千亿参数真正走进了千家万户。

算力即权力：大模型背后的 GPU、显存墙与 MoE 架构