Prism Transformer：渐进式多头注意力提升Transformer性能

Transformer架构中的多头注意力机制通常在每个层均分隐藏维度，导致所有头共享相同的子空间维度（dh = dmodel/h）。这种均匀分配被视为一种结构性瓶颈：早期层的头因维度受限，难以捕捉复杂的高维上下文模式。为此，研究者提出了 Prism Transformer，一种新型架构，用渐进式头调度替代静态均匀配置。通过逐层单调增加头的数量，Prism Transformer 自然形成了从局部到全局的表征层次：早期层使用更少但更宽的“头”来捕捉复杂的局部组合模式，而深层则部署大量窄头，将这些模式分解为专门的语言特征。关键在于，这种结构变化是参数中性和计算中性的，不引入任何训练或推理开销，保持了与标准Transformer相同的权重矩阵和FLOP预算。

在三种模型规模（124M、354M、757M参数）上，Prism Transformer 持续优于均匀基线，验证损失降低，并在多个零样本下游基准（包括PIQA、HellaSwag、ARC-Easy和WinoGrande）上取得增益。实验表明，非均匀子空间分配能够释放标准Transformer预算内的潜在容量，使模型能力得到更有效的利用。

核心创新点

渐进式头调度：头数随层数增加，早期层头少维度高，深层多头维度低，形成层次化表征。
零额外开销：不增加参数或计算量，仅改变注意力头的分配方式。
一致性能提升：在多种规模下验证，证明非均匀分配的有效性。

行业意义

这一工作挑战了Transformer中“均匀分配”的默认假设，为改进注意力机制提供了新思路。它不依赖额外数据或计算资源，即可提升模型性能，对资源受限场景尤为实用。未来，Prism Transformer 有望与稀疏注意力、混合专家模型等技术结合，进一步推动高效Transformer的发展。

Prism Transformer：渐进式多头注意力机制，突破Transformer结构瓶颈

核心创新点

行业意义

延伸阅读

相关资讯