模糊窗口注意力（BLA）：线性复杂度新机制，效率提升8倍

Transformer 语言模型中的 Softmax 注意力操作在序列长度上具有二次复杂度，并且以 KV 缓存形式不断增长的状态大小成为长上下文场景的瓶颈。为克服这一限制，研究者提出了多种具有线性复杂度和有限状态大小的替代架构，如状态空间模型（SSM）、线性注意力（LA）和有界记忆控制注意力（ABC）。尽管这些线性模型在语言困惑度上接近 Transformer，但在需要检索或回忆特定信息的任务上仍显不足。

本文提出了一种名为 模糊窗口注意力（Blurry Window Attention, BLA） 的新型 ABC 方法，其灵感来源于 SSM。BLA 存储一个频率窗口，通过使用狄利克雷核进行插值来重建模糊的 KV 历史。BLA 可被理解为滑动窗口注意力（SWA）的泛化（取决于狄利克雷核的分辨率），或是门控槽注意力（GSA）的特例（其中衰减因子由狄利克雷核实现）。论文详细描述了 BLA 的理论基础和高效实现。

在 多查询关联回忆（MQAR） 合成任务上，BLA 的状态效率比 SWA 提升了 8 倍，并与流行的线性注意力模型相当。在 RegBench 合成任务中，在所测试的线性模型中，只有 BLA 和 SWA 随着状态大小的增加而提升性能。

核心贡献

新型注意力机制：BLA 通过频域插值实现有限记忆的注意力，兼顾效率与检索能力。
理论统一：将 SWA 和 GSA 纳入同一框架，揭示了不同模型间的联系。
高效实现：利用狄利克雷核的快速计算特性，确保实际运行效率。

行业背景与意义

当前，长上下文处理是大模型落地的关键挑战之一。从 Mamba 到 RWKV，线性注意力模型正在快速迭代。BLA 的提出为“如何在不牺牲检索能力的前提下实现线性复杂度”提供了新思路。其性能在 MQAR 和 RegBench 上的表现表明，BLA 在需要精确回忆的任务中优于纯线性模型，同时保持计算效率。

未来展望

BLA 的频域视角可能启发更多基于信号处理的注意力变体。若能在实际语言建模任务中验证其优势，BLA 有望成为长上下文场景的重要工具。

模糊窗口注意力：一种新型线性复杂度注意力机制

核心贡献

行业背景与意义

未来展望

延伸阅读

相关资讯