SheepNav
新上线今天0 投票

无归一化Transformer初始化时的亚临界信号传播研究

无归一化Transformer的初始化稳定性:亚临界信号传播的深层影响

近期,一项关于Transformer模型初始化阶段信号传播的研究在arXiv上发布,标题为《Subcritical Signal Propagation at Initialization in Normalization-Free Transformers》。该研究通过引入**平均偏雅可比范数(APJN)**作为衡量梯度跨层放大的指标,深入探讨了无归一化Transformer在初始化时的行为特性。

研究核心:APJN与信号传播

**平均偏雅可比范数(APJN)**是本研究的关键工具,它量化了梯度在神经网络层间的放大程度。研究团队将APJN分析扩展到具有双向注意力和置换对称输入令牌配置的Transformer模型,通过推导激活统计量和APJN跨层的递推关系,建立了理论框架。

理论预测显示,注意力机制会改变APJN在深度较大时的渐近行为,这一预测与在深度视觉Transformer中测量的APJN数据相匹配。

关键发现:从残差网络到Transformer的临界性图景

研究揭示了从残差网络(ResNets)到Transformer的临界性图景的延续:

  • 预层归一化(pre-LayerNorm)架构表现出APJN的幂律增长。
  • 将LayerNorm替换为逐元素类$\tanh$非线性的Transformer则呈现拉伸指数型APJN增长,表明后者处于亚临界状态

亚临界状态意味着模型在初始化时信号传播较弱,可能导致训练不稳定,需要更精细的调参。

实际应用:Dynamic Tanh与Dynamic erf Transformer的敏感性分析

研究将理论应用于Dynamic Tanh(DyT)Dynamic erf(Derf) Transformer架构,解释了为什么这些架构对初始化和优化选择更为敏感。具体来说:

  • 由于亚临界信号传播,这些模型在训练初期可能面临梯度消失或爆炸的风险。
  • 因此,它们需要仔细的调优以确保训练稳定性,例如通过调整初始化参数或优化器设置。

研究意义与行业背景

在AI行业快速发展的背景下,Transformer模型已成为自然语言处理和计算机视觉等领域的核心架构。然而,训练深度Transformer常面临稳定性挑战,尤其是当移除LayerNorm等归一化层以追求更高效或更简单的设计时。本研究:

  • 提供了理论工具(APJN)来量化初始化阶段的信号传播。
  • 揭示了无归一化Transformer的亚临界行为,为模型设计提供了重要参考。
  • 强调了在开发新架构时,考虑初始化稳定性的必要性,以避免训练失败或性能下降。

小结

这项研究通过APJN分析,深化了对无归一化Transformer初始化行为的理解,指出亚临界信号传播可能导致训练敏感性增加。对于AI研究者和工程师而言,这提醒我们在创新模型架构时,需平衡性能与稳定性,并借助理论工具如APJN来指导设计和调优过程。随着Transformer模型的不断演进,此类基础研究将助力构建更鲁棒、高效的AI系统。

延伸阅读

  1. 小规模模型行为蒸馏实验:一项三阶段负面结果研究
  2. DBGL:面向不规则医疗时间序列分类的衰减感知二分图学习
  3. 多项式扩展秩适应:通过高阶交互增强低秩微调能力
查看原文