新上线今天0 投票
模糊窗口注意力:一种新型线性复杂度注意力机制
Transformer 语言模型中的 Softmax 注意力操作在序列长度上具有二次复杂度,并且以 KV 缓存形式不断增长的状态大小成为长上下文场景的瓶颈。为克服这一限制,研究者提出了多种具有线性复杂度和有限状态大小的替代架构,如状态空间模型(SSM)、线性注意力(LA)和有界记忆控制注意力(ABC)。尽管这些线性模型在语言困惑度上接近 Transformer,但在需要检索或回忆特定信息的任务上仍显不足。
本文提出了一种名为 模糊窗口注意力(Blurry Window Attention, BLA) 的新型 ABC 方法,其灵感来源于 SSM。BLA 存储一个频率窗口,通过使用狄利克雷核进行插值来重建模糊的 KV 历史。BLA 可被理解为滑动窗口注意力(SWA)的泛化(取决于狄利克雷核的分辨率),或是门控槽注意力(GSA)的特例(其中衰减因子由狄利克雷核实现)。论文详细描述了 BLA 的理论基础和高效实现。
在 多查询关联回忆(MQAR) 合成任务上,BLA 的状态效率比 SWA 提升了 8 倍,并与流行的线性注意力模型相当。在 RegBench 合成任务中,在所测试的线性模型中,只有 BLA 和 SWA 随着状态大小的增加而提升性能。
核心贡献
- 新型注意力机制:BLA 通过频域插值实现有限记忆的注意力,兼顾效率与检索能力。
- 理论统一:将 SWA 和 GSA 纳入同一框架,揭示了不同模型间的联系。
- 高效实现:利用狄利克雷核的快速计算特性,确保实际运行效率。
行业背景与意义
当前,长上下文处理是大模型落地的关键挑战之一。从 Mamba 到 RWKV,线性注意力模型正在快速迭代。BLA 的提出为“如何在不牺牲检索能力的前提下实现线性复杂度”提供了新思路。其性能在 MQAR 和 RegBench 上的表现表明,BLA 在需要精确回忆的任务中优于纯线性模型,同时保持计算效率。
未来展望
BLA 的频域视角可能启发更多基于信号处理的注意力变体。若能在实际语言建模任务中验证其优势,BLA 有望成为长上下文场景的重要工具。