新上线1个月前0 投票

Transformer 真的需要三个投影吗？QKV 变体系统研究

Transformer 架构中的 Query、Key、Value (QKV) 注意力机制是核心组件，但三个投影是否都必不可少？一篇被 ICML 2026 接收的论文对此进行了系统研究。

研究动机

标准 Transformer 使用三个独立的线性投影矩阵分别生成 Q、K、V。然而，这种设计的冗余度一直未被充分探索。减少投影数量有望降低内存占用和计算开销，尤其适合边缘设备部署。

三种投影共享策略

研究者提出了三种约束变体：

Q-K=V：共享 Key 和 Value 投影（K 和 V 使用相同矩阵）
Q=K-V：共享 Query 和 Key 投影
Q=K=V：单一投影，三个全部共享

后两种会导致注意力图对称，因此引入了二维位置编码来实现非对称注意力。

关键发现

实验覆盖了合成任务、视觉任务（MNIST、CIFAR、TinyImageNet、异常检测）和语言建模（300M 和 1.2B 参数模型，在 10B token 上训练）。结果表明：

Q-K=V 效果最佳：在语言建模中，仅造成 3.1% 的困惑度退化，但实现了 50% 的 KV 缓存缩减。
Q=K-V 和 Q=K=V 性能下降明显：因为破坏了注意力的方向性。
与分组注意力 (GQA/MQA) 互补：Q-K=V 与 GQA-4 结合可减少 87.5% 缓存，与 MQA 结合减少 96.9%，使设备端推理成为可能。

原理分析

研究者认为 Q-K=V 有效的原因在于：Key 和 Value 可以共享相似的表示空间，且注意力操作本质上是低秩的，因此减少一个投影不会显著损失质量。而 Q=K-V 会破坏 Query 与 Key 的角色差异，导致注意力方向性丧失。

意义与展望

这项工作系统刻画了投影共享作为注意力中权重绑定的一种形式，直接带来可量化的推理内存收益。对于大模型在资源受限设备上的部署，Q-K=V 提供了一种简单有效的优化手段。代码已开源。

小结：Transformer 的三个投影并非铁律，适当共享投影（尤其是 K 和 V）可以在几乎不损失性能的前提下大幅降低内存需求，这为高效推理提供了新思路。

延伸阅读

相关资讯

Hugging Face Has a Deepfake Nudes Problem

Cursor makes its biggest India push yet ahead of SpaceX acquisition with localized pricing

An Integrated Deep Learning and Statistical Framework for Whole-Network Gene--Environment Association with Leaf Vascular Architecture

Hierarchical Grading in Large Language Models