随机KV路由：自适应跨层缓存共享降低Transformer推理内存

快讯：随机KV路由——一种新的深度维度缓存优化策略

Transformer大模型在自回归生成时，需要缓存每一层的Key-Value（KV）状态来避免重复计算。然而，KV缓存的内存占用巨大，是推理成本的主要来源之一。现有工作多沿时间轴（序列长度方向）进行压缩或驱逐，但来自Apple和Google的研究团队在arXiv最新论文中提出：深度方向（层数维度）同样存在巨大的优化空间，且正交于时间轴方法。

核心洞察：跨层缓存共享为何可行？

先前研究已表明，并非每一层的KV缓存都同等重要——许多层之间存在冗余。然而，直接让不同层共享缓存会面临实践挑战：要么降低吞吐，要么增加首Token延迟（TTFT）。该团队发现，直接丢弃某一层的缓存反而是一种无损优化，关键在于训练时让模型适应这种缺失。

方法：随机跨层注意力

论文提出一种极其简洁的训练策略：随机跨层注意力（Random Cross-Layer Attention）。在训练过程中，每一层以一定概率选择使用自身层的KV状态，或跳转到前面某一层的KV状态。这种随机机制迫使模型学会在不同层之间灵活“路由”注意力，从而对部署时未知的缓存裁剪策略具有鲁棒性。

具体而言，训练时每一层独立决定是否“借用”前驱层的缓存。例如，第L层可以随机选择使用第L-1层甚至更早层的KV结果。这本质上是让模型在训练阶段就暴露于“缓存不完整”的环境中，从而在推理时自然支持任意深度的缓存共享模式。

效果：性能保持甚至提升，内存显著下降

在多种模型家族（包括不同规模）上的实验表明：

预训练阶段引入该方法，模型能自然习得层间缓存共享能力，推理时可直接丢弃部分层的缓存而几乎不损失准确率。
微调阶段引入同样有效，尤其适合对已有模型进行低成本优化。
对于数据受限场景下的大模型，该方法还表现出类似正则化的效果：不仅减少了缓存占用，有时还能提升下游任务性能。

行业意义：推理成本再降一维

当前KV缓存优化主要聚焦于时间轴（如MQA、GQA、KV压缩、窗口注意力等）。而这项工作开辟了深度轴的新方向，且方法极其轻量——无需修改模型架构，仅需在训练中注入随机性。

可以预见，未来推理优化将同时从时间与深度两个维度发力：例如，结合GQA（减少头数）与随机KV路由（减少层数），有望将KV缓存需求降低一个数量级。这对于推动大模型在长上下文、高并发场景下的实际部署具有重要意义。

小结

随机KV路由提供了一种可部署、无信息丢失的深度方向缓存共享方案。它通过训练时的随机注意力机制，让模型自适应地容忍缓存缺失，从而在推理时灵活裁剪层缓存。该工作已在arXiv公开（arXiv:2604.22782），代码预计后续发布。对于关注LLM推理效率的研究者和工程师而言，这是一个值得跟踪的方向。

随机KV路由：实现自适应的跨层缓存共享，大幅降低Transformer推理内存

快讯：随机KV路由——一种新的深度维度缓存优化策略

核心洞察：跨层缓存共享为何可行？

方法：随机跨层注意力

效果：性能保持甚至提升，内存显著下降

行业意义：推理成本再降一维

小结

延伸阅读

相关资讯