Transformer 缩放点积注意力完整解析:QKV、多头、Mask、交叉注意力
前言2017 年《Attention Is All You Need》提出的 Transformer 彻底颠覆 NLP 领域而缩放点积注意力是整套架构的核心基石。无论是 BERT、GPT还是当下各类大模型所有语义建模、长依赖捕捉能力都源于注意力机制。很多初学者被 QKV、缩放因子、掩码、多头、交叉注意力等概念割裂无法串联完整逻辑。本文结合生活化类比 实例推导从底层动机到完整计算流程一次性梳理全部核心知识点适合入门学习与面试复习。一、注意力机制诞生背景静态词向量存在致命缺陷词嵌入Embedding会将单词映射为固定维度向量但每个词仅拥有唯一静态语义无法根据上下文区分多义词。举典型多义词Bankfishing by the bank— 河岸money in the bank— 银行无注意力机制时模型存储的Bank向量恒定不变无法区分两种场景语义。注意力核心目标依托上下文动态修正词向量让同一个词在不同语境生成专属语义表达。二、单头缩放点积注意力完整计算流程以句子a spicy Sichuan hotpot为实例目标让hotpot自动融合spicy、Sichuan的修饰信息完整运算分为三大步骤。2.1 生成 Q查询、K键、V值三组向量每个 Token 通过三组独立可学习权重矩阵做线性投影得到分工完全不同的三组向量QQuery 查询当前 Token 发起检索提问。hotpot的 Q 等价于提问句子中哪些词是用来修饰我的KKey 键所有 Token 对外暴露自身属性标签。spicy、Sichuan的 K 会标识自身为修饰类词汇。VValue 值承载 Token 真实语义内容。spicy存储 “麻辣风味”Sichuan存储 “川式地域特征”。2.2 相似度打分 缩放 Softmax 归一化目标 Token 的 Q 与全部 Token 的 K 执行点积运算数值越高代表语义关联越强除以 dk​​ 缩放向量数值缓解高维向量点积数值爆炸问题Softmax 归一化将原始分数转换为总和等于 1 的概率权重。最终权重分布hotpot对spicy、Sichuan分配高权重虚词a权重极低。2.3 加权求和更新上下文向量使用权重对所有 Token 的 V 向量加权求和得到语义增量 ΔEΔEhotpot​0.4×Vspicy​0.4×VSichuan​0.2×Va​更新规则新上下文嵌入 原始词嵌入 ΔE经过计算后hotpot不再是单纯代表 “锅” 的泛化向量自带麻辣、四川两大上下文特征实现语境感知。2.4 标准缩放点积注意力核心公式Attention(Q,K,V)softmax(dk​​QKT​)V极简三步记忆计算关联度 → 归一化概率权重 → 加权提取语义三、深度拆解为什么必须拆分 Q、K、V不少读者疑惑直接使用原始词向量做点积是否可行这里用简历类比直观区分三者职责表格向量核心职责生活化类比K键标识自身语法、属性标签简历岗位标签形容词、地域修饰词V值存储完整真实语义信息简历项目经历麻辣、川味等特征若不拆分 QKV直接使用完整语义向量计算相似度spicy的辣味语义与hotpot的实体语义差异巨大相似度分数偏低模型无法识别修饰关系。 拆分后实现解耦K 专门学习词语匹配关系V 完整保留语义内容互不干扰大幅提升模型捕捉语言依赖的能力。记忆口诀Q 问路K 指路V 带路。权重决定听谁的乘 V 决定提取什么信息。四、缩放因子 ÷dk​​ 的核心作用高维空间下Q、K 向量维度越高点积结果数值会急剧膨胀。 若不做缩放直接送入 Softmax输出权重会趋近独热编码one-hot仅一个权重接近 1其余无限趋近 0。极端权重分布会直接造成梯度消失反向传播时梯度信号微弱模型参数无法正常迭代更新。缩放因子用于压缩数值区间让权重分布更平滑保障训练过程稳定收敛。五、Mask 掩码防止模型训练 “偷看未来 Token”文本生成任务如 GPT 续写存在时序约束预测第 N 个词时仅能使用前 N-1 个前文信息不能提前看到后续未生成内容。掩码实现逻辑将目标 Token 之后所有位置的注意力分数强制赋值为 −∞经过 Softmax 计算后权重直接变为 0模型无法获取后文信息。场景区分训练阶段开启因果掩码遮挡序列后文 Token推理生成阶段逐 Token 输出不存在未来文本无需掩码。六、多头注意力多并行专家捕捉复杂语言关系单头注意力仅能捕捉单一维度词语关系如形容词修饰名词但自然语言存在指代、因果、语法、情感等多重复杂关联。例句The museum refused the sculpture because it was pricey句中代词it存在歧义单头注意力难以分辨指代博物馆或雕塑。多头注意力原理多头注意力等价于多组独立并行的注意力专家每个头配备专属、、投影矩阵从不同子空间解析文本关系一头捕捉指代、一头解析语法、一头提取情感。 所有注意力头独立计算语义增量后拼接融合全部视角信息得到全面完整的上下文表征。七、自注意力 vs 交叉注意力GPT 与翻译模型架构分水岭7.1 自注意力Self-AttentionQ、K、V 全部来源于同一段文本序列内部 Token 互相检索关联。 GPT 系列为 Decoder-only 架构全程仅使用单向掩码自注意力仅完成文本续写任务依靠海量数据涌现翻译、推理、问答等衍生能力。7.2 交叉注意力Cross-AttentionQ 取自目标序列K、V 取自另一组独立源序列多用于 Encoder-Decoder 机器翻译架构。 翻译场景举例英文 Token 作为 Q检索中文原文对应的 K、V建立双语词汇映射关系。八、全文核心知识点总结注意力机制解决静态词向量无法区分多义词的痛点实现上下文动态语义建模QKV 本质是向量版键值检索Q 负责查询匹配K 负责标识属性V 负责输出语义dk​​缩放因子平滑权重分布避免训练梯度消失Mask 掩码实现时序约束阻止生成任务中模型偷看未来 Token多头注意力通过多子空间并行同时捕捉指代、语法、因果等复杂语言关系自注意力适用于单序列建模GPT交叉注意力用于跨序列映射机器翻译。

相关新闻