Weibull框架揭示AdamW训练中权重尺度参数先升后降的动力学机制

一篇最新的预印本研究揭示了Transformer模型在AdamW优化器训练过程中，其权重分布中的Weibull尺度参数λ为何会呈现先增长、过冲、再松弛的独特动态。该研究来自Tiexin Ding，论文《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》为理解深度学习训练动力学提供了新的理论视角。

背景：Weibull框架为何重要？

此前研究已发现，Transformer模型的权重分布可以用双参数Weibull分布很好地拟合，其中尺度参数λ反映了权重的整体量级。然而，λ在训练中并非单调变化，而是先迅速上升，超过最终稳定值，再缓慢回落。这种现象背后的驱动力一直缺乏系统解释。

核心发现：三力分解模型

研究者从AdamW更新规则出发，对权重范数的平方进行了一阶动力学分解，识别出三种主要作用力：

对齐力（Alignment Force）：衡量权重与自适应更新方向之间的相关性。它主导了λ的上升阶段，贡献了**88%至94%**的绝对力预算（基于四个随机种子的实验），并且对移除极端权重（super-weight）保持稳健。
注入力（Injection Force）：来自自适应步长的大小，与梯度历史相关。
衰减力（Decay Force）：来自解耦的权重衰减（decoupled weight decay），持续将权重向零拉回。

当λ接近峰值时，对齐力与衰减力趋于平衡，从而解释了从增长到松弛的转变。这些力直接驱动了λ背后的平方范数分量。此外，均方根（RMS）到Weibull的重构偏移量可分解为桥接与积分两部分，总计约5%至6%。

实用方法：从稀疏检查点恢复对齐力

一个关键挑战是：真实训练中优化器动量（如一阶矩、二阶矩）通常不可获取。为此，作者提出了样条位移法（Spline Displacement Method），仅从稀疏保存的检查点即可恢复对齐力，准确率达到92%至94%，约为朴素两点基准（two-point baseline）的两倍。这使得该方法可应用于实际训练场景。

数据依赖性与未来方向

实验还观察到，λ的峰值与训练数据的连贯性（coherence）有关，暗示权重尺度增长存在数据依赖成分。作者计划在后续控制性研究中深入探索这一点。

总结

该工作不仅为AdamW训练中权重尺度的非单调演化提供了清晰的物理图像，还给出了实用的诊断工具。对于从事大模型训练、优化器设计或理解神经网络内部动力学的从业者，这一框架有望帮助更精细地监控训练过程，甚至指导超参数调整。

论文代码与数据已公开：https://arxiv.org/abs/2606.19367

AdamW训练中权重尺度参数为何先升后降？Weibull框架给出三力分解

背景：Weibull框架为何重要？

核心发现：三力分解模型

实用方法：从稀疏检查点恢复对齐力

数据依赖性与未来方向

总结

延伸阅读

相关资讯