MoE的核心思想:模型由多个专家子网络组成,每次推理只激活少数几个。总参数量大但计算量小。
工作原理
门控网络根据输入决定激活哪些专家。Mixtral 8x7B有8个专家每次只激活2个。总参数量47B但计算量相当于12B密集模型。
优势
参数量大意味着知识容量大。计算量小意味着推理速度快。Mixtral 8x7B性能接近Llama-2 70B但推理速度快6倍。
工程部署
需要把所有专家权重加载到显存中。vLLM对MoE有良好支持,通过张量并行把不同专家分片到不同GPU。
代表模型
Mixtral 8x7B是MoE里程碑。DeepSeek-V3用了更细粒度的MoE设计。MoE是大模型规模扩展的正确方向。