eOptShrinkQ：2.2 bits近无损KV缓存压缩方法

Transformer 推理过程中，键值（KV）缓存的大小随序列长度线性增长，成为长上下文部署的主要瓶颈。近日，一篇来自 arXiv 的论文提出了一种名为 eOptShrinkQ 的新型压缩方法，将随机矩阵理论引入 KV 缓存压缩，在近乎无损的前提下将缓存压缩至约 2.2 bits 每项，并在多项基准测试中超越现有方法。

核心发现：KV 缓存的双重结构

研究人员发现，Transformer 注意力头中的 KV 缓存天然可分解为两部分：一个低秩的“共享上下文”成分和一个满秩的“逐词残差”。这一结构恰好可以用“尖峰随机矩阵模型”（spiked random matrix model）精确描述。共享上下文捕获了跨 token 的公共信息，而残差则包含每个 token 的独特细节，且其坐标具有“薄壳性质”（thin shell property）——即能量在各维度上均匀分布。

两阶段压缩流水线

基于上述发现，eOptShrinkQ 设计了一个两阶段流程：

最优奇异值收缩（eOptShrink）：利用随机矩阵理论中的 BBP 相变（BBP phase transition），自动确定共享上下文的秩，并对奇异值进行最优收缩，从而干净地分离出低秩结构。这一步不仅提取了主要信息，还恢复了残差的各向同性——这是后续标量量化的关键前提。
残余量化（TurboQuant）：对去噪后的残差，使用近期提出的近最优逐向量标量量化器 TurboQuant 进行压缩。由于第一步恢复了各向同性，量化过程不再需要专门处理异常值或修正内积偏差，从而将节省的比特用于提升重建质量。

理论保证与实验验证

论文从随机矩阵理论出发，提供了三个关键的理论保证：

自动秩选择：通过 BBP 相变阈值，无需手动调参即可确定低秩成分的维数。
近零内积偏差：去噪后的残差在理论上保证内积偏差几乎为零。
坐标离域性：残差的能量均匀分布，确保量化失真接近理论最优。

实验在 Llama-3.1-8B 和 Ministral-8B 两个模型上进行了全面验证：

逐层指标：在每头 MSE 和内积保真度上，eOptShrinkQ 在同等质量下比 TurboQuant 每项节省近 1 bit。
长文本基准：在 LongBench（16 个任务）上，eOptShrinkQ 在约 2.2 bits 每项时性能优于 TurboQuant 在 3.0 bits 时的表现。
多针检索：在需要精确回忆的检索任务中，2.2 bits 的 eOptShrinkQ 接近甚至超过未压缩的 FP16 基线，表明谱去噪本身可能对检索密集型任务起到有益的正则化作用。

行业意义

这项工作的价值在于将严谨的数学理论与工程压缩需求结合。传统的 KV 缓存压缩方法往往依赖启发式异常值处理或逐层调参，而 eOptShrinkQ 提供了一套理论指导的自动化方案。随着大模型上下文窗口不断扩展，近乎无损的 2-bit 级别压缩有望大幅降低推理成本，使长序列应用（如文档分析、多轮对话）更加实用。

eOptShrinkQ：通过最优谱去噪与量化实现近乎无损的KV缓存压缩

核心发现：KV 缓存的双重结构

两阶段压缩流水线

理论保证与实验验证

行业意义

延伸阅读

相关资讯