随机KV路由:实现自适应的跨层缓存共享,大幅降低Transformer推理内存
快讯:随机KV路由——一种新的深度维度缓存优化策略
Transformer大模型在自回归生成时,需要缓存每一层的Key-Value(KV)状态来避免重复计算。然而,KV缓存的内存占用巨大,是推理成本的主要来源之一。现有工作多沿时间轴(序列长度方向)进行压缩或驱逐,但来自Apple和Google的研究团队在arXiv最新论文中提出:深度方向(层数维度)同样存在巨大的优化空间,且正交于时间轴方法。
核心洞察:跨层缓存共享为何可行?
先前研究已表明,并非每一层的KV缓存都同等重要——许多层之间存在冗余。然而,直接让不同层共享缓存会面临实践挑战:要么降低吞吐,要么增加首Token延迟(TTFT)。该团队发现,直接丢弃某一层的缓存反而是一种无损优化,关键在于训练时让模型适应这种缺失。
方法:随机跨层注意力
论文提出一种极其简洁的训练策略:随机跨层注意力(Random Cross-Layer Attention)。在训练过程中,每一层以一定概率选择使用自身层的KV状态,或跳转到前面某一层的KV状态。这种随机机制迫使模型学会在不同层之间灵活“路由”注意力,从而对部署时未知的缓存裁剪策略具有鲁棒性。
具体而言,训练时每一层独立决定是否“借用”前驱层的缓存。例如,第L层可以随机选择使用第L-1层甚至更早层的KV结果。这本质上是让模型在训练阶段就暴露于“缓存不完整”的环境中,从而在推理时自然支持任意深度的缓存共享模式。
效果:性能保持甚至提升,内存显著下降
在多种模型家族(包括不同规模)上的实验表明:
- 预训练阶段引入该方法,模型能自然习得层间缓存共享能力,推理时可直接丢弃部分层的缓存而几乎不损失准确率。
- 微调阶段引入同样有效,尤其适合对已有模型进行低成本优化。
- 对于数据受限场景下的大模型,该方法还表现出类似正则化的效果:不仅减少了缓存占用,有时还能提升下游任务性能。
行业意义:推理成本再降一维
当前KV缓存优化主要聚焦于时间轴(如MQA、GQA、KV压缩、窗口注意力等)。而这项工作开辟了深度轴的新方向,且方法极其轻量——无需修改模型架构,仅需在训练中注入随机性。
可以预见,未来推理优化将同时从时间与深度两个维度发力:例如,结合GQA(减少头数)与随机KV路由(减少层数),有望将KV缓存需求降低一个数量级。这对于推动大模型在长上下文、高并发场景下的实际部署具有重要意义。
小结
随机KV路由提供了一种可部署、无信息丢失的深度方向缓存共享方案。它通过训练时的随机注意力机制,让模型自适应地容忍缓存缺失,从而在推理时灵活裁剪层缓存。该工作已在arXiv公开(arXiv:2604.22782),代码预计后续发布。对于关注LLM推理效率的研究者和工程师而言,这是一个值得跟踪的方向。