稀疏前缀缓存：混合循环LLM推理优化新方法

大语言模型（LLM）的推理延迟优化一直是业界关注的核心问题，其中 前缀缓存（Prefix Caching） 是一种被广泛采用的关键技术。传统方法假设每个 token 的键值（Key/Value）都需要密集缓存，以便在共享前缀的请求之间复用计算结果。然而，随着 状态空间模型（State-Space Models, SSM） 和混合架构的兴起，这一假设正面临根本性挑战。

问题：不对称的缓存需求

在自回归 Transformer 中，每个 token 都需要存储完整的键值对（KV Cache），缓存规模随序列长度线性增长。而 SSM 的循环层（Recurrent Layer）具有不同的特性：它可以从一个单一的隐藏状态恢复，无需保留完整的 token 历史。这种不对称性创造了一个全新的设计空间——介于“完全不缓存”和“密集缓存”之间。

方案：稀疏检查点缓存

来自俄罗斯的研究团队（Mikhail Shirokikh 与 Sergey Nikolenko）在最新论文中提出了 稀疏前缀缓存（Sparse Prefix Caching） 方法。其核心思想是：在稀疏的检查点位置存储精确的循环状态，当缓存命中时，从最深的已存储检查点恢复，并精确重算剩余的 token 后缀。

该方法形式化为一个 检查点放置优化问题：给定重叠深度的分布，通过一个精确的 O(NM) 动态规划算法，找到最优的检查点位置集合。这里的“重叠深度”指的是两个请求共享前缀的长度分布。

实验：帕累托前沿的改进

在真实数据集（QuALITY 和 System Prompts）上的测试表明，分布感知的缓存策略 在所有固定预算基线中占据帕累托前沿的支配地位。与最强的启发式方法（块缓存）相比，该方法在匹配或超越其性能的同时，通常使用更少的检查点。尤其在低缓存预算下，当重叠分布高度非均匀时，增益最为显著。

适用范围与优势

该方法最适合 多个请求共享一个较大但不完全相同的前缀 的场景，例如针对同一份长文档提出不同问题。它保持精确输出，不改变循环计算本身，也不需要新的循环更新内核。对于混合模型（Hybrid Models），它可以与现有的 KV 缓存压缩技术结合使用。

行业意义

随着 Mamba、RWKV 等线性注意力或循环架构逐渐进入生产部署，传统的 KV 缓存优化方法需要重新审视。稀疏前缀缓存提供了一种轻量级、理论支撑强且易于集成的优化方案，尤其适合长上下文和文档问答等实际场景。

未来，该技术有望与推理系统（如 vLLM、TensorRT-LLM）中的调度策略深度结合，进一步降低重复计算开销，提升吞吐量。

稀疏前缀缓存：为混合与循环大模型推理提速的新方法

问题：不对称的缓存需求

方案：稀疏检查点缓存

实验：帕累托前沿的改进

适用范围与优势

行业意义

延伸阅读

相关资讯