SheepNav
新上线今天0 投票

扩散语言模型共享前缀的KV缓存新突破:BiCache实现高吞吐服务

背景与挑战

在大语言模型(LLM)服务中,共享前缀的键值(KV)缓存是提升吞吐量的关键技术。然而,这一技术在扩散语言模型(DLM)上遭遇了根本性挑战。DLM采用双向注意力机制,这意味着任何token的更新都会动态改变整个上下文及其对应的KV值。因此,LLM中假设KV计算后不变的缓存策略直接应用于DLM,会导致模型准确率急剧下降至近乎零。

核心观察与创新

来自韩国研究团队(Younghun Go等人)在arXiv上发表的论文《Enabling KV Caching of Shared Prefix for Diffusion Language Models》中,首次系统分析了DLM中共享前缀KV的可复用性。他们的关键发现是:

  • 浅层网络中,共享前缀的KV保持稳定且可复用
  • 浅层的深度取决于每个请求中共享前缀token的比例。

基于这一观察,团队提出了BiCache(双向前缀缓存)——首个专为DLM设计的共享前缀KV缓存技术。BiCache能够动态识别安全复用共享前缀KV的层深度,从而消除冗余计算。

性能表现

实验结果显示,与现有技术相比,BiCache在不牺牲准确率(准确率差异仅0-1.8%)的前提下,将服务吞吐量提升了36.3%至98.3%。这一突破意味着DLM的高吞吐服务成为可能,为扩散模型在对话、生成等实时交互场景的落地扫清了关键障碍。

行业意义

扩散语言模型(如Diffusion-LM、SSD-LM等)因其生成质量和多样性受到关注,但其双向注意力机制带来的计算瓶颈一直限制着实际部署。BiCache的出现直击痛点,通过智能缓存策略显著降低计算开销,有望推动DLM从研究走向工业级应用。这一工作也提醒我们:为LLM优化的基础设施技术,未必能直接迁移到新兴模型架构,需要针对模型特性进行重新设计。

总结

BiCache通过动态层感知的共享前缀缓存,解决了DLM中KV缓存准确率崩溃的问题,实现了高吞吐服务。这项研究不仅为DLM的高效推理提供了实用方案,也为后续缓存策略研究提供了新思路。

延伸阅读

  1. 我试了试 Siri AI,到目前为止它真的能用了
  2. 没有传统VC基金,贾斯汀·欧内斯特如何向Anthropic、SpaceX等热门前沿公司投入近4亿美元
  3. 通用汽车:电动车电池可缓解AI数据中心的能源饥渴
查看原文