Transformer架构精讲：从自注意力到GPT的演进之路

不懂Transformer就不要说自己懂大模型。2017年Google提出这个架构，彻底改变了AI领域的格局。

自注意力机制

核心思想：序列中的每个位置都能"看到"其他所有位置，根据相关性分配注意力权重。每个token通过三个线性变换得到Q、K、V。Q和K的点积衡量相关性，softmax归一化后作为权重对V做加权求和。

除以根号d_k是为了防止点积值过大导致softmax梯度消失。

单个注意力头只能学习一种关注模式。多头注意力把Q、K、V投影到多个低维子空间，每个子空间独立计算注意力。一个头关注语法结构，另一个头关注语义关系。

自注意力本身不包含位置信息。原始Transformer用正弦/余弦函数，GPT用可学习的绝对位置编码。现代模型用RoPE旋转位置编码，在长序列表现上明显更优。

GPT只用了Decoder部分，创新在于训练范式——自回归预训练加下游微调。这个范式开启了大模型时代。

理解注意力复杂度O(n²)就明白为什么长上下文难。理解KV Cache就明白推理显存为什么大。理解位置编码限制就明白超长文本为什么会退化。架构知识不是为了面试，而是为了在工程中做出正确决策。