SheepNav
新上线今天0 投票

Transformer 真的需要三个投影吗?QKV 变体系统研究

Transformer 架构中的 Query、Key、Value (QKV) 注意力机制是核心组件,但三个投影是否都必不可少?一篇被 ICML 2026 接收的论文对此进行了系统研究。

研究动机

标准 Transformer 使用三个独立的线性投影矩阵分别生成 Q、K、V。然而,这种设计的冗余度一直未被充分探索。减少投影数量有望降低内存占用和计算开销,尤其适合边缘设备部署。

三种投影共享策略

研究者提出了三种约束变体:

  • Q-K=V:共享 Key 和 Value 投影(K 和 V 使用相同矩阵)
  • Q=K-V:共享 Query 和 Key 投影
  • Q=K=V:单一投影,三个全部共享

后两种会导致注意力图对称,因此引入了二维位置编码来实现非对称注意力。

关键发现

实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)和语言建模(300M 和 1.2B 参数模型,在 10B token 上训练)。结果表明:

  • Q-K=V 效果最佳:在语言建模中,仅造成 3.1% 的困惑度退化,但实现了 50% 的 KV 缓存缩减
  • Q=K-V 和 Q=K=V 性能下降明显:因为破坏了注意力的方向性。
  • 与分组注意力 (GQA/MQA) 互补:Q-K=V 与 GQA-4 结合可减少 87.5% 缓存,与 MQA 结合减少 96.9%,使设备端推理成为可能。

原理分析

研究者认为 Q-K=V 有效的原因在于:Key 和 Value 可以共享相似的表示空间,且注意力操作本质上是低秩的,因此减少一个投影不会显著损失质量。而 Q=K-V 会破坏 Query 与 Key 的角色差异,导致注意力方向性丧失。

意义与展望

这项工作系统刻画了投影共享作为注意力中权重绑定的一种形式,直接带来可量化的推理内存收益。对于大模型在资源受限设备上的部署,Q-K=V 提供了一种简单有效的优化手段。代码已开源。

小结:Transformer 的三个投影并非铁律,适当共享投影(尤其是 K 和 V)可以在几乎不损失性能的前提下大幅降低内存需求,这为高效推理提供了新思路。

延伸阅读

  1. 贝叶斯充分表示:监督学习中的信息保留与损失函数的关系
  2. 自我蒸馏策略梯度:让语言模型自己教自己,强化学习的新突破
  3. 利用梯度优化与多组注意力神经网络实现逆临界实验设计
查看原文