新上线今天0 投票
TurboQuant 启发下的 KV 缓存量化统计推断与质量评估
大型语言模型(LLM)推理时,KV 缓存(Key-Value Cache)的内存占用是主要瓶颈之一。量化是缩小缓存尺寸的常用手段,但不同量化方案对模型输出的影响差异显著。一篇发表于 arXiv 的论文(2605.08114)对三种 KV 缓存量化方案进行了系统性的统计推断与质量对比,揭示出关键的非对称性与预算依赖的交叉现象。
三种方案与统一预算
研究在公平比特预算下比较了三个方案:
- KV:对 K 和 V 均采用标量 MSE 量化(基线);
- KQV:对 K 使用 WHT(Walsh-Hadamard 变换)+ MSE,对 V 使用 WHT + MSE + QJL(量子化 Johnson-Lindenstrauss 变换);
- QKQV:对 K 和 V 都采用 WHT + MSE + QJL。
从超球面上的 Beta 分布出发,论文追踪了 QJL 作用于 K 时如何将内积方差放大 π/2,而 softmax 又通过 Jensen 不等式非线性放大该效应,从而影响最终注意力分布的质量。
核心发现:非对称性与交叉点
实验揭示了三个关键经验发现:
- n=4 时 KQV 全面胜出:当比特预算 n=4(实际中最常使用)时,KQV 在 KL 散度、几何 K 误差、6D 距离等所有指标上优于其他方案,且不依赖于数据分布或秩。
- K-V 非对称性是无条件的:在 KL 散度指标上,QKQV 始终比 KQV 差,无论预算或分布如何。这意味着对 K 和 V 采用相同处理并非最优——K 的量化误差更容易通过 softmax 传播为输出失真。
- 预算依赖的交叉点:在几何 K 重建误差上,QKQV 在 n∈{2,3,5} 时表现更好,而 KQV 在 n∈{4,6} 时更优。该模式不随秩或尾重变化,构成一个开放率失真问题。
Jensen 机制的解释
论文指出,KL 散度(只与 K 相关)是连接 K 方向误差与路由塌缩、输出崩溃的桥梁。当 Jensen 机制导致误差通过 softmax 超线性放大时,KQV 的优势显现。在 n∈{2,3,5} 时,此假设不成立,因此 QKQV 几何上更优;而在 n=4 时,QKQV 的高 K 误差和高 KL 散度强烈暗示 Jensen 机制是交叉点的操作原因。
实践意义
该研究为 KV 缓存量化提供了理论指导:
- 不必对称量化 K 和 V:K 的量化应更谨慎,因其误差会被 softmax 放大;V 可接受更激进的压缩。
- 预算选择影响方案有效性:4 比特场景下 KQV 是最优选择,而更低或更高预算时 QKQV 可能更好。
- 统计指标比简单数值误差更可靠:KL 散度和几何误差能更好反映量化对注意力路由的实际影响。
这项工作从信息论和统计推断角度,为 LLM 推理优化提供了可操作的量化策略参考。