不懂Transformer就不要说自己懂大模型。2017年Google提出这个架构,彻底改变了AI领域的格局。

自注意力机制

核心思想:序列中的每个位置都能"看到"其他所有位置,根据相关性分配注意力权重。每个token通过三个线性变换得到Q、K、V。Q和K的点积衡量相关性,softmax归一化后作为权重对V做加权求和。

除以根号d_k是为了防止点积值过大导致softmax梯度消失。

多头注意力

单个注意力头只能学习一种关注模式。多头注意力把Q、K、V投影到多个低维子空间,每个子空间独立计算注意力。一个头关注语法结构,另一个头关注语义关系。

位置编码

自注意力本身不包含位置信息。原始Transformer用正弦/余弦函数,GPT用可学习的绝对位置编码。现代模型用RoPE旋转位置编码,在长序列表现上明显更优。

从Transformer到GPT

GPT只用了Decoder部分,创新在于训练范式——自回归预训练加下游微调。这个范式开启了大模型时代。

为什么理解架构很重要

理解注意力复杂度O(n²)就明白为什么长上下文难。理解KV Cache就明白推理显存为什么大。理解位置编码限制就明白超长文本为什么会退化。架构知识不是为了面试,而是为了在工程中做出正确决策。