新上线今天0 投票
Transformer 真的需要三个投影吗?QKV 变体系统研究
Transformer 架构中的 Query、Key、Value (QKV) 注意力机制是核心组件,但三个投影是否都必不可少?一篇被 ICML 2026 接收的论文对此进行了系统研究。
研究动机
标准 Transformer 使用三个独立的线性投影矩阵分别生成 Q、K、V。然而,这种设计的冗余度一直未被充分探索。减少投影数量有望降低内存占用和计算开销,尤其适合边缘设备部署。
三种投影共享策略
研究者提出了三种约束变体:
- Q-K=V:共享 Key 和 Value 投影(K 和 V 使用相同矩阵)
- Q=K-V:共享 Query 和 Key 投影
- Q=K=V:单一投影,三个全部共享
后两种会导致注意力图对称,因此引入了二维位置编码来实现非对称注意力。
关键发现
实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)和语言建模(300M 和 1.2B 参数模型,在 10B token 上训练)。结果表明:
- Q-K=V 效果最佳:在语言建模中,仅造成 3.1% 的困惑度退化,但实现了 50% 的 KV 缓存缩减。
- Q=K-V 和 Q=K=V 性能下降明显:因为破坏了注意力的方向性。
- 与分组注意力 (GQA/MQA) 互补:Q-K=V 与 GQA-4 结合可减少 87.5% 缓存,与 MQA 结合减少 96.9%,使设备端推理成为可能。
原理分析
研究者认为 Q-K=V 有效的原因在于:Key 和 Value 可以共享相似的表示空间,且注意力操作本质上是低秩的,因此减少一个投影不会显著损失质量。而 Q=K-V 会破坏 Query 与 Key 的角色差异,导致注意力方向性丧失。
意义与展望
这项工作系统刻画了投影共享作为注意力中权重绑定的一种形式,直接带来可量化的推理内存收益。对于大模型在资源受限设备上的部署,Q-K=V 提供了一种简单有效的优化手段。代码已开源。
小结:Transformer 的三个投影并非铁律,适当共享投影(尤其是 K 和 V)可以在几乎不损失性能的前提下大幅降低内存需求,这为高效推理提供了新思路。