稀疏前缀缓存:为混合与循环大模型推理提速的新方法
大语言模型(LLM)的推理延迟优化一直是业界关注的核心问题,其中 前缀缓存(Prefix Caching) 是一种被广泛采用的关键技术。传统方法假设每个 token 的键值(Key/Value)都需要密集缓存,以便在共享前缀的请求之间复用计算结果。然而,随着 状态空间模型(State-Space Models, SSM) 和混合架构的兴起,这一假设正面临根本性挑战。
问题:不对称的缓存需求
在自回归 Transformer 中,每个 token 都需要存储完整的键值对(KV Cache),缓存规模随序列长度线性增长。而 SSM 的循环层(Recurrent Layer)具有不同的特性:它可以从一个单一的隐藏状态恢复,无需保留完整的 token 历史。这种不对称性创造了一个全新的设计空间——介于“完全不缓存”和“密集缓存”之间。
方案:稀疏检查点缓存
来自俄罗斯的研究团队(Mikhail Shirokikh 与 Sergey Nikolenko)在最新论文中提出了 稀疏前缀缓存(Sparse Prefix Caching) 方法。其核心思想是:在稀疏的检查点位置存储精确的循环状态,当缓存命中时,从最深的已存储检查点恢复,并精确重算剩余的 token 后缀。
该方法形式化为一个 检查点放置优化问题:给定重叠深度的分布,通过一个精确的 O(NM) 动态规划算法,找到最优的检查点位置集合。这里的“重叠深度”指的是两个请求共享前缀的长度分布。
实验:帕累托前沿的改进
在真实数据集(QuALITY 和 System Prompts)上的测试表明,分布感知的缓存策略 在所有固定预算基线中占据帕累托前沿的支配地位。与最强的启发式方法(块缓存)相比,该方法在匹配或超越其性能的同时,通常使用更少的检查点。尤其在低缓存预算下,当重叠分布高度非均匀时,增益最为显著。
适用范围与优势
该方法最适合 多个请求共享一个较大但不完全相同的前缀 的场景,例如针对同一份长文档提出不同问题。它保持精确输出,不改变循环计算本身,也不需要新的循环更新内核。对于混合模型(Hybrid Models),它可以与现有的 KV 缓存压缩技术结合使用。
行业意义
随着 Mamba、RWKV 等线性注意力或循环架构逐渐进入生产部署,传统的 KV 缓存优化方法需要重新审视。稀疏前缀缓存提供了一种轻量级、理论支撑强且易于集成的优化方案,尤其适合长上下文和文档问答等实际场景。
未来,该技术有望与推理系统(如 vLLM、TensorRT-LLM)中的调度策略深度结合,进一步降低重复计算开销,提升吞吐量。

