SheepNav
新上线今天0 投票

Latent Cache Flow:无需文本的模型间通信新范式

研究背景:文本通信的瓶颈

当前 LLM 智能体之间的通信依赖于文本,这一过程涉及将发送方模型的状态进行自回归解码,再由接收方模型重新编码,导致显著的延迟和信息损失。为突破这一瓶颈,Cache-to-Cache (C2C) 等方法尝试直接交换 KV 缓存,通过学习适配器将发送方的键值矩阵映射到接收方。然而,C2C 的适配器体积庞大、训练成本高昂,且只能逐 token 翻译,要求双方上下文完全一致,这在实际智能体通信中几乎无法满足。

LCF 方法:高效压缩与异构上下文处理

针对上述问题,研究者提出了 Latent Cache Flow (LCF)。其核心创新在于两点:

  • 联合压缩翻译:LCF 将键(Keys)和值(Values)进行联合翻译与压缩,使得适配器规模仅为 C2C 的 4%(约 13 MB vs 956 MB),大幅降低了存储和训练开销。
  • 上下文差异处理:LCF 适配器并非翻译整个缓存,而是仅传输目标模型尚未拥有的“新信息摘要”,从而有效应对双方上下文不同的场景。

实验表现:精度与速度双提升

在共享上下文设置下,13 MB 的 LCF 适配器 的准确率超过了 956 MB 的 C2C 适配器;而在上下文不同的场景中,LCF 相比传统文本通信方式,准确率提升 23%,速度提升 8.5 倍

意义与展望

LCF 提出了一种轻量级、高效的模型间直接通信方案,有望替代冗长的文本交互,为多智能体协作、分布式推理等场景提供新的技术路径。不过,目前该研究仍处于早期阶段,更大规模模型和更复杂任务上的表现有待进一步验证。

延伸阅读

  1. LLM何时需要推理?熵相变视角下的动态系统解读
  2. MedExpMem: Adapting Experience Memory for Differential Diagnosis
  3. Manifold Representation Forgetting:一种基于流形表示遗忘的近似机器反学习新方法
查看原文