权重范数决定神经网络「顿悟」时间尺度：因果延迟定律

研究背景：什么是「顿悟」现象？

在神经网络训练中，有时会出现一种奇特现象：模型早已完美拟合训练数据，但泛化能力却迟迟不出现，直到某个时刻突然爆发。这种现象被称为 「顿悟」（Grokking），最早在小型算法学习任务中被发现，随后成为理解神经网络泛化机制的重要窗口。

关于「顿悟」的触发条件，学术界一直存在争议。部分研究认为，权重范数（weight norm） 在达到某个临界值时才会触发泛化；但也有实验观察到，即使权重范数不固定，「顿悟」依然会发生。这种矛盾让问题悬而未决。

来自越南的研究团队在最新论文中，通过 主动干预权重范数 而非仅仅观察，首次明确证明了权重范数与「顿悟」延迟之间的因果关系。

关键发现包括：

自由训练下的规律：在使用权重衰减（weight decay）的标准训练中，网络会在权重范数达到一个特定值 ( W_c ) 时发生「顿悟」。该值在不同随机种子和学习率下变异系数仅 1%-2%，且随模运算的基数（modular base）呈幂律增长。
固定范数的指数延迟定律：当研究人员将权重范数固定为 ( W_c ) 的某个倍数 ( \rho ) 并保持恒定，网络仍然会「顿悟」，但延迟时间 ( T_{\text{grok}} ) 遵循 指数增长：( T_{\text{grok}} \propto \exp(\alpha \rho) )，其中指数 ( \alpha \approx 7.5 )，在四个不同模基数下拟合优度 ( R^2 = 0.996 )。
范数 vs 学习率的影响：在实验范围内，固定范数可以改变延迟约 19 倍，而学习率仅改变约 2 倍，表明范数是主导因素。
高于临界值反而更慢：将范数固定在 ( W_c ) 之上并不会阻止「顿悟」，反而会显著延迟其发生。
LayerNorm 的消除作用：在模型中添加 LayerNorm 层后，权重尺度与网络功能解耦，上述指数延迟定律消失；移除 LayerNorm 后定律恢复。

这项研究不仅解决了关于「顿悟」触发条件的长期争论，还提出了一个精确的数学关系：固定范数下的指数延迟定律，与自由训练下范数自然收缩时的对数延迟形成对称。这为理解神经网络的泛化动力学提供了新的理论工具。

未来，这一发现可能帮助研究者设计更高效的训练策略，通过控制权重范数来加速或延迟「顿悟」，从而在需要快速泛化的场景中提升模型性能。