SheepNav
新上线今天0 投票

Prism Transformer:渐进式多头注意力机制,突破Transformer结构瓶颈

Transformer架构中的多头注意力机制通常在每个层均分隐藏维度,导致所有头共享相同的子空间维度(dh = dmodel/h)。这种均匀分配被视为一种结构性瓶颈:早期层的头因维度受限,难以捕捉复杂的高维上下文模式。为此,研究者提出了 Prism Transformer,一种新型架构,用渐进式头调度替代静态均匀配置。通过逐层单调增加头的数量,Prism Transformer 自然形成了从局部到全局的表征层次:早期层使用更少但更宽的“头”来捕捉复杂的局部组合模式,而深层则部署大量窄头,将这些模式分解为专门的语言特征。关键在于,这种结构变化是参数中性和计算中性的,不引入任何训练或推理开销,保持了与标准Transformer相同的权重矩阵和FLOP预算。

在三种模型规模(124M、354M、757M参数)上,Prism Transformer 持续优于均匀基线,验证损失降低,并在多个零样本下游基准(包括PIQA、HellaSwag、ARC-Easy和WinoGrande)上取得增益。实验表明,非均匀子空间分配能够释放标准Transformer预算内的潜在容量,使模型能力得到更有效的利用。

核心创新点

  • 渐进式头调度:头数随层数增加,早期层头少维度高,深层多头维度低,形成层次化表征。
  • 零额外开销:不增加参数或计算量,仅改变注意力头的分配方式。
  • 一致性能提升:在多种规模下验证,证明非均匀分配的有效性。

行业意义

这一工作挑战了Transformer中“均匀分配”的默认假设,为改进注意力机制提供了新思路。它不依赖额外数据或计算资源,即可提升模型性能,对资源受限场景尤为实用。未来,Prism Transformer 有望与稀疏注意力、混合专家模型等技术结合,进一步推动高效Transformer的发展。

延伸阅读

  1. 多重中介者之咒:激活修补中隐藏的交互效应
  2. 几何感知傅里叶神经算子:破解周期域上三次非线性薛定谔方程的共振难题
  3. 不可观测状态与受限决策时点下的马尔可夫赌博机学习
查看原文