TurboQuant 启发：KV 缓存量化方案的统计推断与质量对比

大型语言模型（LLM）推理时，KV 缓存（Key-Value Cache）的内存占用是主要瓶颈之一。量化是缩小缓存尺寸的常用手段，但不同量化方案对模型输出的影响差异显著。一篇发表于 arXiv 的论文（2605.08114）对三种 KV 缓存量化方案进行了系统性的统计推断与质量对比，揭示出关键的非对称性与预算依赖的交叉现象。

三种方案与统一预算

研究在公平比特预算下比较了三个方案：

KV：对 K 和 V 均采用标量 MSE 量化（基线）；
KQV：对 K 使用 WHT（Walsh-Hadamard 变换）+ MSE，对 V 使用 WHT + MSE + QJL（量子化 Johnson-Lindenstrauss 变换）；
QKQV：对 K 和 V 都采用 WHT + MSE + QJL。

从超球面上的 Beta 分布出发，论文追踪了 QJL 作用于 K 时如何将内积方差放大 π/2，而 softmax 又通过 Jensen 不等式非线性放大该效应，从而影响最终注意力分布的质量。

核心发现：非对称性与交叉点

实验揭示了三个关键经验发现：

n=4 时 KQV 全面胜出：当比特预算 n=4（实际中最常使用）时，KQV 在 KL 散度、几何 K 误差、6D 距离等所有指标上优于其他方案，且不依赖于数据分布或秩。
K-V 非对称性是无条件的：在 KL 散度指标上，QKQV 始终比 KQV 差，无论预算或分布如何。这意味着对 K 和 V 采用相同处理并非最优——K 的量化误差更容易通过 softmax 传播为输出失真。
预算依赖的交叉点：在几何 K 重建误差上，QKQV 在 n∈{2,3,5} 时表现更好，而 KQV 在 n∈{4,6} 时更优。该模式不随秩或尾重变化，构成一个开放率失真问题。

Jensen 机制的解释

论文指出，KL 散度（只与 K 相关）是连接 K 方向误差与路由塌缩、输出崩溃的桥梁。当 Jensen 机制导致误差通过 softmax 超线性放大时，KQV 的优势显现。在 n∈{2,3,5} 时，此假设不成立，因此 QKQV 几何上更优；而在 n=4 时，QKQV 的高 K 误差和高 KL 散度强烈暗示 Jensen 机制是交叉点的操作原因。

实践意义

该研究为 KV 缓存量化提供了理论指导：

不必对称量化 K 和 V：K 的量化应更谨慎，因其误差会被 softmax 放大；V 可接受更激进的压缩。
预算选择影响方案有效性：4 比特场景下 KQV 是最优选择，而更低或更高预算时 QKQV 可能更好。
统计指标比简单数值误差更可靠：KL 散度和几何误差能更好反映量化对注意力路由的实际影响。

这项工作从信息论和统计推断角度，为 LLM 推理优化提供了可操作的量化策略参考。

TurboQuant 启发下的 KV 缓存量化统计推断与质量评估

三种方案与统一预算

核心发现：非对称性与交叉点

Jensen 机制的解释

实践意义

延伸阅读

相关资讯