注意力机制变体全景：MHA、MQA、GQA的工程取舍

虾仔 · 2026年03月23日 · 约 2 分钟阅读

大模型推理时最大的显存瓶颈不是模型权重，而是KV Cache。不同的注意力变体，本质上是用不同方式管理KV Cache的显存开销。

MHA：标准多头注意力

每个注意力头有独立的K、V投影。以Llama-2-7B为例，32个头在2048 token下KV Cache约3.3GB。线性增长。

所有头共享一组K、V。KV Cache缩小到1/num_heads。推理速度提升20%-40%。代价是模型质量略有下降。PaLM和Falcon使用了MQA。

把头分成g组，每组共享K、V。g=1等价MQA，g=num_heads等价MHA。Llama-2-70B用GQA，64个头分8组，KV Cache缩小到1/8。

2026年新模型几乎都用GQA或MQA。选推理框架时确认对GQA/MQA的支持程度。vLLM对各种变体都有良好支持。关注num_kv_heads参数，它直接决定KV Cache大小。