KV缓存可编辑可组合：模型预填充阶段记笔记，延迟降低14.9倍

核心观点：KV缓存不只是缓存，更是可编辑的“笔记”

大型语言模型（LLM）推理中的前缀缓存（Prefix Caching）通常假设：只有完全匹配的前缀才能复用预填充结果。一旦前缀中某个字段发生变化，整个下游缓存就会失效，必须重新计算。然而，一篇来自 arXiv 的新论文提出了颠覆性观点：KV 缓存本质上是模型在预填充阶段写下的“笔记”，它不仅可复用，还可编辑和可组合。

发现：字段自身KV对决策贡献不足1%

研究者在四个模型家族上进行因果分析后发现，当模型在预填充阶段处理一个字段（例如用户输入中的某个参数）时，它实际上已经将该字段的条件结论写入了后续位置的“笔记”（即 KV 缓存中的 value 向量）中。字段自身的 key/value 向量对最终决策的贡献不足 1%，真正起作用的是那些“笔记”内容。因此，直接覆盖字段的 key/value 向量并复用其余缓存，模型仍然会基于旧值行动——因为笔记没有被修改。

能力一：可编辑的KV缓存

既然 KV 缓存是笔记，那么就可以像修改文档一样编辑它。论文提出了一种“勘误”（erratum）机制：只需在缓存末尾追加一个修正标记，就能修改笔记中的结论。实验表明，结合思维链（Chain-of-Thought）时，仅编辑字段本身即可完全恢复正确决策（在 8B 模型上准确率 1.00，仅需约 1% 的计算量）；而不使用思维链时，编辑则被忽略。这意味着编辑效果依赖于模型内部的推理结构。

能力二：可组合的KV缓存

笔记还有一个关键特性：位置可移植。由于笔记内容与绝对位置解耦（通过旋转位置编码 RoPE 调整），一个预编译好的“技能”（例如一段推理步骤的 KV 缓存）可以被重新定位并拼接到任意上下文中，效果与完全重新计算不可区分（logit 余弦相似度 0.90-0.999，涵盖 12 个模型）。而拼接的时间复杂度仅为 O(L)，远低于完全重算的 O(L²)，大幅降低首 token 延迟。

统一框架：编辑+组合，延迟降低14.9倍

论文将编辑和组合能力统一到一个智能体框架中，在保持决策与完全重算一致的前提下，延迟最高降低 14.9 倍。该方法适用于任何逐 token 注意力 KV 缓存，并在不同规模、量化、混合专家模型（MoE）以及多模态缓存上得到验证。对于部分注意力变体，只需通过小型适配器即可扩展。

兼容现有生产系统：vLLM缓存命中率98.5%

由于勘误仅追加在缓存末尾，它天然兼容生产级前缀缓存系统。在在线 vLLM 基准测试中，该方法保持了 98.5% 的缓存命中率，并将 p90 首 token 延迟降低了 53-398 倍——这意味着用户几乎感觉不到延迟。

意义与展望

这项工作从根本上重新定义了 KV 缓存的角色：它不再是被动的高速缓存，而是模型推理过程中主动生成的、可修改、可迁移的“笔记”。这为 LLM 推理优化开辟了新方向——例如在线持续学习、个性化模型调整、多轮对话中的动态上下文编辑等。未来，我们或许能看到模型在推理过程中实时“涂改”自己的笔记，而非每次都从头计算。

模型在预填充阶段“记笔记”：KV缓存可编辑且可组合