Latent Cache Flow: 模型间通信无需文本，速度提升8.5倍

研究背景：文本通信的瓶颈

当前 LLM 智能体之间的通信依赖于文本，这一过程涉及将发送方模型的状态进行自回归解码，再由接收方模型重新编码，导致显著的延迟和信息损失。为突破这一瓶颈，Cache-to-Cache (C2C) 等方法尝试直接交换 KV 缓存，通过学习适配器将发送方的键值矩阵映射到接收方。然而，C2C 的适配器体积庞大、训练成本高昂，且只能逐 token 翻译，要求双方上下文完全一致，这在实际智能体通信中几乎无法满足。

LCF 方法：高效压缩与异构上下文处理

针对上述问题，研究者提出了 Latent Cache Flow (LCF)。其核心创新在于两点：

联合压缩翻译：LCF 将键（Keys）和值（Values）进行联合翻译与压缩，使得适配器规模仅为 C2C 的 4%（约 13 MB vs 956 MB），大幅降低了存储和训练开销。
上下文差异处理：LCF 适配器并非翻译整个缓存，而是仅传输目标模型尚未拥有的“新信息摘要”，从而有效应对双方上下文不同的场景。

实验表现：精度与速度双提升

在共享上下文设置下，13 MB 的 LCF 适配器 的准确率超过了 956 MB 的 C2C 适配器；而在上下文不同的场景中，LCF 相比传统文本通信方式，准确率提升 23%，速度提升 8.5 倍。

意义与展望

LCF 提出了一种轻量级、高效的模型间直接通信方案，有望替代冗长的文本交互，为多智能体协作、分布式推理等场景提供新的技术路径。不过，目前该研究仍处于早期阶段，更大规模模型和更复杂任务上的表现有待进一步验证。

Latent Cache Flow：无需文本的模型间通信新范式

研究背景：文本通信的瓶颈

LCF 方法：高效压缩与异构上下文处理

实验表现：精度与速度双提升

意义与展望

延伸阅读

相关资讯