噪声驱动亚稳态逃逸：深度学习“顿悟”的物理机制

深度神经网络（DNN）在训练中常出现一种令人困惑的现象：模型在长时间过拟合后突然泛化，仿佛“顿悟”。最新研究从统计物理视角揭示了这一机制——噪声驱动的亚稳态逃逸。

核心发现

来自波茨坦大学的研究者在论文中证明，DNN中的泛化延迟（grokking）本质上是L2正则化强度变化引发的一级相变中的滞后效应。当正则化强度低于临界值时，所有特征原则上都可学习，但网络会陷入由能量势垒分隔的亚稳态，导致收敛停滞。

关键在于，随机梯度下降（SGD）中的噪声提供了逃离亚稳态所需的能量。研究者在线性DNN中观察到，模型从低精度亚稳态逃离的时间符合阿伦尼乌斯标度——即逃逸时间随势垒高度指数增长。通过刻意将模型困在亚稳态，他们成功复现了跨越两个数量级的延迟收敛现象，且测试误差最终逼近训练误差的经典曲线。

亚稳态数量与特征维度

论文进一步指出，亚稳态的数量恰好等于可学习特征的数量——每个数据协方差矩阵的奇异值对应一个特征。这意味着，任务越复杂（奇异值越多），潜在的滞后效应越强，模型越容易陷入局部最优。

对深度学习实践的意义

这一发现为加速训练提供了新思路：

动态正则化：通过调整L2强度或噪声水平，主动控制模型在相空间中的迁移路径。
初始化策略：避免模型落入与目标任务无关的亚稳态。
理解泛化边界：将泛化能力与相变理论中的阶参数（如奇异值分布）关联，可能量化模型的“学习容量”。

尽管实验主要在线性模型上验证，作者提供了证据表明非线性DNN中同样存在类似机制。该工作不仅统一了“顿悟”现象的解释，更将深度学习与统计物理中的成核理论紧密联系起来。

噪声驱动亚稳态逃逸：深度学习“顿悟”现象背后的物理机制

核心发现

亚稳态数量与特征维度

对深度学习实践的意义

延伸阅读

相关资讯