算力即权力:大模型背后的 GPU、显存墙与 MoE 架构
9 分钟阅读
当我们在追逐 Transformer 和各种注意力算法时,很容易忽视一个极其冰冷残酷的物理现实:**AI 如今是一场地地道道的硬件工业游戏。** 没有英伟达(NVIDIA)的 GPU,没有 H100 里面密密麻麻的晶体管和 HBM 高带宽显存,软件上再精妙的代码也只是图纸。
### “显存墙” (Memory Wall) 的致命制约
很多人误以为训练大模型,最缺的是计算单元(CUDA Cores 或 Tensor Cores)来进行矩阵乘法。然而现实情况是,现代 GPU 进行数学计算的速度往往远高于它从内存条读取数据的速度。
我们把成千上万亿规模的模型参数、优化器状态和激活值都存放在显存中。大模型每生成一个词(Token),显卡都需要把庞大全量参数从显存(HBM)中完整搬运至片上 SRAM 计算域中进行一遍乘法运算。
这个巨大的 IO 数据吞吐鸿沟,被称为**“显存墙” (Memory Wall)**。
也就是说,由于存取频发太高,GPU 很多时候都在“站着干等数据运过来”。这就是为什么过去我们要用 8-bit quantization (量化)甚至最近的 4-bit 量化技术。量化的本质不是为了计算更快,而是为了直接把庞大的 FP16 数据强行压缩一半或四分之一的体积,以成倍减轻显卡存取的噩梦级负担。
### MoE(Mixture of Experts)混合专家架构的奇袭
随着对模型能力的要求永无止境,想要训练出万亿级别的参数,光靠烧钱买显存不仅成本惊人,而且计算延迟无法忍受。于是,**MoE(混合专家)架构**重新走上了神坛。
它的核心思想是**“稀疏激活”(Sparse Activation)**。
过去我们每调用一次模型,这几百亿的参数都会被通电运算一遍(稠密模型)。而在 MoE 架构中,神经网络中被插入了一层叫作“门控网络(Gating Network)”的路由器。
* 我们把庞大的网络拆分成 8 个平行的“专家网络”(Experts)。
* 门控网络就像一个智能的交通督导员。当用户输入一句关于编程问题的指令时,门控网络通过快速计算,发现只需激活“逻辑专家”和“代码专家”。
* 于是,其他 6 个专家在这一轮计算中完全“休眠”不消耗任何算力。
这就造就了一个性能奇迹:假设某巨头宣称其模型是 1400 亿参数级别,但它实际上是由 8 个小型专家拼凑的。因为每轮对话只需激活 2 个专家,在推理的时候它占用的计算频宽仅仅相当于 350 亿参数的小模型。
**算力的物理疆界往往逼迫出最伟大的工程智慧。** 正是这种从芯片 IO 到稀疏算法的全链路压榨,才让千亿参数真正走进了千家万户。