LKV：端到端学习KV缓存淘汰，15%缓存实现近无损性能

背景：长上下文推理的“内存墙”困境

大型语言模型（LLM）在处理长文本时，Key-Value（KV）缓存的内存占用随序列长度线性增长，成为性能瓶颈。现有压缩方法依赖启发式规则：启发式预算分配基于统计先验而非任务目标，导致资源错配；启发式Token选择则依赖查询-键交互或静态归纳偏置（如注意力下沉）。这些方法缺乏对任务目标的端到端优化，限制了压缩效率。

LKV：将KV压缩转化为可微分优化问题

来自中国科学院等机构的研究者提出 LKV（Learned KV Eviction），将KV缓存淘汰建模为端到端可微优化问题。LKV包含两个核心组件：

LKV-H：学习任务优化的全局预算，为每个注意力头动态分配保留的KV槽位数，而非使用统一的压缩率。
LKV-T：在不实例化注意力矩阵的前提下，推导出每个Token的内在重要性分数，实现独立的Token筛选。

这一设计绕过了所有启发式代理，严格将压缩行为与任务目标对齐。

关键结果：15%缓存保留即可实现近无损性能

在 LongBench 和 RULER 两个长上下文基准测试中，LKV在高压缩率下均达到当前最优水平。特别地，在LongBench上，仅保留15%的KV缓存即可实现近无损性能。分析表明，学习到的预算分配是保真度的主导因素，数据驱动的分配策略是克服手工启发式局限性的关键。

行业意义：从“手工调参”到“数据驱动”的范式转变

LKV的工作展示了将压缩策略本身作为可学习模块的潜力。传统方法中，工程师需要针对不同模型和任务手工调整压缩率或选择策略，而LKV通过端到端学习自动适应任务需求。这不仅提升了压缩效率，也为未来LLM推理优化提供了新思路：让模型学会如何“遗忘”，而非依赖固定的规则。

随着长上下文应用（如文档分析、多轮对话、代码库理解）的普及，KV缓存管理已成为LLM部署的关键挑战。LKV的端到端学习框架为突破内存瓶颈提供了可扩展的解决方案，值得关注其后续在实际推理引擎中的集成与落地。

LKV：端到端学习注意力头预算与Token选择，革新LLM KV缓存淘汰策略

背景：长上下文推理的“内存墙”困境

LKV：将KV压缩转化为可微分优化问题

关键结果：15%缓存保留即可实现近无损性能

行业意义：从“手工调参”到“数据驱动”的范式转变

延伸阅读

相关资讯