SheepNav
新上线今天0 投票

eOptShrinkQ:通过最优谱去噪与量化实现近乎无损的KV缓存压缩

Transformer 推理过程中,键值(KV)缓存的大小随序列长度线性增长,成为长上下文部署的主要瓶颈。近日,一篇来自 arXiv 的论文提出了一种名为 eOptShrinkQ 的新型压缩方法,将随机矩阵理论引入 KV 缓存压缩,在近乎无损的前提下将缓存压缩至约 2.2 bits 每项,并在多项基准测试中超越现有方法。

核心发现:KV 缓存的双重结构

研究人员发现,Transformer 注意力头中的 KV 缓存天然可分解为两部分:一个低秩的“共享上下文”成分和一个满秩的“逐词残差”。这一结构恰好可以用“尖峰随机矩阵模型”(spiked random matrix model)精确描述。共享上下文捕获了跨 token 的公共信息,而残差则包含每个 token 的独特细节,且其坐标具有“薄壳性质”(thin shell property)——即能量在各维度上均匀分布。

两阶段压缩流水线

基于上述发现,eOptShrinkQ 设计了一个两阶段流程:

  1. 最优奇异值收缩(eOptShrink):利用随机矩阵理论中的 BBP 相变(BBP phase transition),自动确定共享上下文的秩,并对奇异值进行最优收缩,从而干净地分离出低秩结构。这一步不仅提取了主要信息,还恢复了残差的各向同性——这是后续标量量化的关键前提。
  2. 残余量化(TurboQuant):对去噪后的残差,使用近期提出的近最优逐向量标量量化器 TurboQuant 进行压缩。由于第一步恢复了各向同性,量化过程不再需要专门处理异常值或修正内积偏差,从而将节省的比特用于提升重建质量。

理论保证与实验验证

论文从随机矩阵理论出发,提供了三个关键的理论保证:

  • 自动秩选择:通过 BBP 相变阈值,无需手动调参即可确定低秩成分的维数。
  • 近零内积偏差:去噪后的残差在理论上保证内积偏差几乎为零。
  • 坐标离域性:残差的能量均匀分布,确保量化失真接近理论最优。

实验在 Llama-3.1-8BMinistral-8B 两个模型上进行了全面验证:

  • 逐层指标:在每头 MSE 和内积保真度上,eOptShrinkQ 在同等质量下比 TurboQuant 每项节省近 1 bit。
  • 长文本基准:在 LongBench(16 个任务)上,eOptShrinkQ 在约 2.2 bits 每项时性能优于 TurboQuant 在 3.0 bits 时的表现。
  • 多针检索:在需要精确回忆的检索任务中,2.2 bits 的 eOptShrinkQ 接近甚至超过未压缩的 FP16 基线,表明谱去噪本身可能对检索密集型任务起到有益的正则化作用。

行业意义

这项工作的价值在于将严谨的数学理论与工程压缩需求结合。传统的 KV 缓存压缩方法往往依赖启发式异常值处理或逐层调参,而 eOptShrinkQ 提供了一套理论指导的自动化方案。随着大模型上下文窗口不断扩展,近乎无损的 2-bit 级别压缩有望大幅降低推理成本,使长序列应用(如文档分析、多轮对话)更加实用。

延伸阅读

  1. 当安全几何结构崩塌:智能体防护模型在微调中的脆弱性
  2. 生成、过滤、控制、重放:LLM强化学习中的推演策略全面综述
  3. Agentic AI 结合混合专家与 LLM,实现 6G 网络智能优化
查看原文