混合专家模型MoE：用更少的计算撬动更大的模型

MoE的核心思想：模型由多个专家子网络组成，每次推理只激活少数几个。总参数量大但计算量小。

工作原理

门控网络根据输入决定激活哪些专家。Mixtral 8x7B有8个专家每次只激活2个。总参数量47B但计算量相当于12B密集模型。

参数量大意味着知识容量大。计算量小意味着推理速度快。Mixtral 8x7B性能接近Llama-2 70B但推理速度快6倍。

需要把所有专家权重加载到显存中。vLLM对MoE有良好支持，通过张量并行把不同专家分片到不同GPU。

Mixtral 8x7B是MoE里程碑。DeepSeek-V3用了更细粒度的MoE设计。MoE是大模型规模扩展的正确方向。