新上线今天0 投票
Latent Cache Flow:无需文本的模型间通信新范式
研究背景:文本通信的瓶颈
当前 LLM 智能体之间的通信依赖于文本,这一过程涉及将发送方模型的状态进行自回归解码,再由接收方模型重新编码,导致显著的延迟和信息损失。为突破这一瓶颈,Cache-to-Cache (C2C) 等方法尝试直接交换 KV 缓存,通过学习适配器将发送方的键值矩阵映射到接收方。然而,C2C 的适配器体积庞大、训练成本高昂,且只能逐 token 翻译,要求双方上下文完全一致,这在实际智能体通信中几乎无法满足。
LCF 方法:高效压缩与异构上下文处理
针对上述问题,研究者提出了 Latent Cache Flow (LCF)。其核心创新在于两点:
- 联合压缩翻译:LCF 将键(Keys)和值(Values)进行联合翻译与压缩,使得适配器规模仅为 C2C 的 4%(约 13 MB vs 956 MB),大幅降低了存储和训练开销。
- 上下文差异处理:LCF 适配器并非翻译整个缓存,而是仅传输目标模型尚未拥有的“新信息摘要”,从而有效应对双方上下文不同的场景。
实验表现:精度与速度双提升
在共享上下文设置下,13 MB 的 LCF 适配器 的准确率超过了 956 MB 的 C2C 适配器;而在上下文不同的场景中,LCF 相比传统文本通信方式,准确率提升 23%,速度提升 8.5 倍。
意义与展望
LCF 提出了一种轻量级、高效的模型间直接通信方案,有望替代冗长的文本交互,为多智能体协作、分布式推理等场景提供新的技术路径。不过,目前该研究仍处于早期阶段,更大规模模型和更复杂任务上的表现有待进一步验证。