高斯混合注意力:用概率潜路由实现线性时间序列混合
Transformer 架构中的标准点积注意力机制,因其密集的 token 间交互模式,在扩展到长上下文时面临计算瓶颈。一篇发表于 arXiv 的新论文提出 高斯混合注意力(Gaussian Mixture Attention, GMA),通过概率潜路由替代显式的成对查询-键比较,实现线性时间序列混合。
核心思想:从成对比较到潜路由
GMA 的核心创新在于引入 $K$ 个可学习的高斯混合组件,将查询和键映射到这些组件上的后验“责任”向量。这里的“责任”表示每个 token 属于某个潜在路由组件的概率。两个 token 的亲和度由它们在责任空间中的重叠隐式定义,而非直接计算点积。值则通过一个 $K$ 槽的潜在记忆进行写入和读取。
这种方法巧妙地利用了矩阵乘法的结合律:GMA 不需要构造 $N \times N$ 的亲和矩阵,而是维护两个责任矩阵,其存储和计算复杂度为 $\mathcal{O}(NK)$,其中 $K$ 是固定的组件数量。相比标准注意力的 $\mathcal{O}(N^2)$ 复杂度,GMA 实现了线性缩放。
模型变体与实现
论文提出了 双向(bidirectional) 和 因果(causal) 两种变体。双向 GMA 适用于分类等非自回归任务,因果 GMA 则适用于语言建模等自回归生成任务。研究者设计了端到端可微的高斯混合组件参数化方法,并分析了责任调制梯度结构、约束非负低秩亲和性解释以及局部路由稳定性。
实验表现:线性记忆与竞争性能
实验结果表明,GMA 在长上下文分类任务上与注意力基线性能相当,同时保持固定的线性记忆缩放。在 WikiText-103 语言建模任务上,因果 GMA 优于测试的线性/随机特征注意力变体,但在当前实现中仍落后于优化后的因果 SDPA(标准点积注意力)和 Mamba 状态空间模型。
对学习到的责任向量进行分析显示,GMA 广泛使用了所有组件,并与表面形式的 token 类别存在中等程度对齐。这表明 GMA 是一种概率性、可解释、固定 K 的线性时间注意力替代方案,而非针对优化后的 softmax 注意力或状态空间模型的通用替代品。
行业意义
长上下文处理是当前大语言模型领域的核心挑战之一。GMA 提供了一种兼顾效率与可解释性的新思路:通过概率路由实现线性复杂度,同时保留注意力机制的部分特性。虽然目前性能尚未超越顶尖方法,但其理论框架和初步结果展示了在保持线性扩展的同时实现类似注意力行为的可能性,为未来序列混合器设计开辟了新方向。