AdamW训练中权重尺度参数为何先升后降?Weibull框架给出三力分解
一篇最新的预印本研究揭示了Transformer模型在AdamW优化器训练过程中,其权重分布中的Weibull尺度参数λ为何会呈现先增长、过冲、再松弛的独特动态。该研究来自Tiexin Ding,论文《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》为理解深度学习训练动力学提供了新的理论视角。
背景:Weibull框架为何重要?
此前研究已发现,Transformer模型的权重分布可以用双参数Weibull分布很好地拟合,其中尺度参数λ反映了权重的整体量级。然而,λ在训练中并非单调变化,而是先迅速上升,超过最终稳定值,再缓慢回落。这种现象背后的驱动力一直缺乏系统解释。
核心发现:三力分解模型
研究者从AdamW更新规则出发,对权重范数的平方进行了一阶动力学分解,识别出三种主要作用力:
- 对齐力(Alignment Force):衡量权重与自适应更新方向之间的相关性。它主导了λ的上升阶段,贡献了**88%至94%**的绝对力预算(基于四个随机种子的实验),并且对移除极端权重(super-weight)保持稳健。
- 注入力(Injection Force):来自自适应步长的大小,与梯度历史相关。
- 衰减力(Decay Force):来自解耦的权重衰减(decoupled weight decay),持续将权重向零拉回。
当λ接近峰值时,对齐力与衰减力趋于平衡,从而解释了从增长到松弛的转变。这些力直接驱动了λ背后的平方范数分量。此外,均方根(RMS)到Weibull的重构偏移量可分解为桥接与积分两部分,总计约5%至6%。
实用方法:从稀疏检查点恢复对齐力
一个关键挑战是:真实训练中优化器动量(如一阶矩、二阶矩)通常不可获取。为此,作者提出了样条位移法(Spline Displacement Method),仅从稀疏保存的检查点即可恢复对齐力,准确率达到92%至94%,约为朴素两点基准(two-point baseline)的两倍。这使得该方法可应用于实际训练场景。
数据依赖性与未来方向
实验还观察到,λ的峰值与训练数据的连贯性(coherence)有关,暗示权重尺度增长存在数据依赖成分。作者计划在后续控制性研究中深入探索这一点。
总结
该工作不仅为AdamW训练中权重尺度的非单调演化提供了清晰的物理图像,还给出了实用的诊断工具。对于从事大模型训练、优化器设计或理解神经网络内部动力学的从业者,这一框架有望帮助更精细地监控训练过程,甚至指导超参数调整。
论文代码与数据已公开:https://arxiv.org/abs/2606.19367