SheepNav
新上线今天0 投票

LKV:端到端学习注意力头预算与Token选择,革新LLM KV缓存淘汰策略

背景:长上下文推理的“内存墙”困境

大型语言模型(LLM)在处理长文本时,Key-Value(KV)缓存的内存占用随序列长度线性增长,成为性能瓶颈。现有压缩方法依赖启发式规则:启发式预算分配基于统计先验而非任务目标,导致资源错配;启发式Token选择则依赖查询-键交互或静态归纳偏置(如注意力下沉)。这些方法缺乏对任务目标的端到端优化,限制了压缩效率。

LKV:将KV压缩转化为可微分优化问题

来自中国科学院等机构的研究者提出 LKV(Learned KV Eviction),将KV缓存淘汰建模为端到端可微优化问题。LKV包含两个核心组件:

  • LKV-H:学习任务优化的全局预算,为每个注意力头动态分配保留的KV槽位数,而非使用统一的压缩率。
  • LKV-T:在不实例化注意力矩阵的前提下,推导出每个Token的内在重要性分数,实现独立的Token筛选。

这一设计绕过了所有启发式代理,严格将压缩行为与任务目标对齐。

关键结果:15%缓存保留即可实现近无损性能

LongBenchRULER 两个长上下文基准测试中,LKV在高压缩率下均达到当前最优水平。特别地,在LongBench上,仅保留15%的KV缓存即可实现近无损性能。分析表明,学习到的预算分配是保真度的主导因素,数据驱动的分配策略是克服手工启发式局限性的关键。

行业意义:从“手工调参”到“数据驱动”的范式转变

LKV的工作展示了将压缩策略本身作为可学习模块的潜力。传统方法中,工程师需要针对不同模型和任务手工调整压缩率或选择策略,而LKV通过端到端学习自动适应任务需求。这不仅提升了压缩效率,也为未来LLM推理优化提供了新思路:让模型学会如何“遗忘”,而非依赖固定的规则。

随着长上下文应用(如文档分析、多轮对话、代码库理解)的普及,KV缓存管理已成为LLM部署的关键挑战。LKV的端到端学习框架为突破内存瓶颈提供了可扩展的解决方案,值得关注其后续在实际推理引擎中的集成与落地。

延伸阅读

  1. 从树冠到碰撞:混合预测框架识别树木相关交通事故风险因素
  2. Toeplitz MLP Mixer:低复杂度、高信息保留的序列模型新架构
  3. ESA卫星遥测异常检测:层级集成管道新方法
查看原文