模型在预填充阶段“记笔记”:KV缓存可编辑且可组合
核心观点:KV缓存不只是缓存,更是可编辑的“笔记”
大型语言模型(LLM)推理中的前缀缓存(Prefix Caching)通常假设:只有完全匹配的前缀才能复用预填充结果。一旦前缀中某个字段发生变化,整个下游缓存就会失效,必须重新计算。然而,一篇来自 arXiv 的新论文提出了颠覆性观点:KV 缓存本质上是模型在预填充阶段写下的“笔记”,它不仅可复用,还可编辑和可组合。
发现:字段自身KV对决策贡献不足1%
研究者在四个模型家族上进行因果分析后发现,当模型在预填充阶段处理一个字段(例如用户输入中的某个参数)时,它实际上已经将该字段的条件结论写入了后续位置的“笔记”(即 KV 缓存中的 value 向量)中。字段自身的 key/value 向量对最终决策的贡献不足 1%,真正起作用的是那些“笔记”内容。因此,直接覆盖字段的 key/value 向量并复用其余缓存,模型仍然会基于旧值行动——因为笔记没有被修改。
能力一:可编辑的KV缓存
既然 KV 缓存是笔记,那么就可以像修改文档一样编辑它。论文提出了一种“勘误”(erratum)机制:只需在缓存末尾追加一个修正标记,就能修改笔记中的结论。实验表明,结合思维链(Chain-of-Thought)时,仅编辑字段本身即可完全恢复正确决策(在 8B 模型上准确率 1.00,仅需约 1% 的计算量);而不使用思维链时,编辑则被忽略。这意味着编辑效果依赖于模型内部的推理结构。
能力二:可组合的KV缓存
笔记还有一个关键特性:位置可移植。由于笔记内容与绝对位置解耦(通过旋转位置编码 RoPE 调整),一个预编译好的“技能”(例如一段推理步骤的 KV 缓存)可以被重新定位并拼接到任意上下文中,效果与完全重新计算不可区分(logit 余弦相似度 0.90-0.999,涵盖 12 个模型)。而拼接的时间复杂度仅为 O(L),远低于完全重算的 O(L²),大幅降低首 token 延迟。
统一框架:编辑+组合,延迟降低14.9倍
论文将编辑和组合能力统一到一个智能体框架中,在保持决策与完全重算一致的前提下,延迟最高降低 14.9 倍。该方法适用于任何逐 token 注意力 KV 缓存,并在不同规模、量化、混合专家模型(MoE)以及多模态缓存上得到验证。对于部分注意力变体,只需通过小型适配器即可扩展。
兼容现有生产系统:vLLM缓存命中率98.5%
由于勘误仅追加在缓存末尾,它天然兼容生产级前缀缓存系统。在在线 vLLM 基准测试中,该方法保持了 98.5% 的缓存命中率,并将 p90 首 token 延迟降低了 53-398 倍——这意味着用户几乎感觉不到延迟。
意义与展望
这项工作从根本上重新定义了 KV 缓存的角色:它不再是被动的高速缓存,而是模型推理过程中主动生成的、可修改、可迁移的“笔记”。这为 LLM 推理优化开辟了新方向——例如在线持续学习、个性化模型调整、多轮对话中的动态上下文编辑等。未来,我们或许能看到模型在推理过程中实时“涂改”自己的笔记,而非每次都从头计算。