大模型推理时最大的显存瓶颈不是模型权重,而是KV Cache。不同的注意力变体,本质上是用不同方式管理KV Cache的显存开销。

MHA:标准多头注意力

每个注意力头有独立的K、V投影。以Llama-2-7B为例,32个头在2048 token下KV Cache约3.3GB。线性增长。

MQA:多查询注意力

所有头共享一组K、V。KV Cache缩小到1/num_heads。推理速度提升20%-40%。代价是模型质量略有下降。PaLM和Falcon使用了MQA。

GQA:分组查询注意力

把头分成g组,每组共享K、V。g=1等价MQA,g=num_heads等价MHA。Llama-2-70B用GQA,64个头分8组,KV Cache缩小到1/8。

工程选型

2026年新模型几乎都用GQA或MQA。选推理框架时确认对GQA/MQA的支持程度。vLLM对各种变体都有良好支持。关注num_kv_heads参数,它直接决定KV Cache大小。