扩散语言模型KV缓存新突破：BiCache提升吞吐量98%

背景与挑战

在大语言模型（LLM）服务中，共享前缀的键值（KV）缓存是提升吞吐量的关键技术。然而，这一技术在扩散语言模型（DLM）上遭遇了根本性挑战。DLM采用双向注意力机制，这意味着任何token的更新都会动态改变整个上下文及其对应的KV值。因此，LLM中假设KV计算后不变的缓存策略直接应用于DLM，会导致模型准确率急剧下降至近乎零。

核心观察与创新

来自韩国研究团队（Younghun Go等人）在arXiv上发表的论文《Enabling KV Caching of Shared Prefix for Diffusion Language Models》中，首次系统分析了DLM中共享前缀KV的可复用性。他们的关键发现是：

浅层网络中，共享前缀的KV保持稳定且可复用；
浅层的深度取决于每个请求中共享前缀token的比例。

基于这一观察，团队提出了BiCache（双向前缀缓存）——首个专为DLM设计的共享前缀KV缓存技术。BiCache能够动态识别安全复用共享前缀KV的层深度，从而消除冗余计算。

性能表现

实验结果显示，与现有技术相比，BiCache在不牺牲准确率（准确率差异仅0-1.8%）的前提下，将服务吞吐量提升了36.3%至98.3%。这一突破意味着DLM的高吞吐服务成为可能，为扩散模型在对话、生成等实时交互场景的落地扫清了关键障碍。

行业意义

扩散语言模型（如Diffusion-LM、SSD-LM等）因其生成质量和多样性受到关注，但其双向注意力机制带来的计算瓶颈一直限制着实际部署。BiCache的出现直击痛点，通过智能缓存策略显著降低计算开销，有望推动DLM从研究走向工业级应用。这一工作也提醒我们：为LLM优化的基础设施技术，未必能直接迁移到新兴模型架构，需要针对模型特性进行重新设计。

总结

BiCache通过动态层感知的共享前缀缓存，解决了DLM中KV缓存准确率崩溃的问题，实现了高吞吐服务。这项研究不仅为DLM的高效推理提供了实用方案，也为后续缓存策略研究提供了新思路。

扩散语言模型共享前缀的KV缓存新突破：BiCache实现高吞吐服务

背景与挑战

核心观察与创新

性能表现

行业意义

总结

延伸阅读

相关资讯