新上线2天前0 投票
噪声驱动亚稳态逃逸:深度学习“顿悟”现象背后的物理机制
深度神经网络(DNN)在训练中常出现一种令人困惑的现象:模型在长时间过拟合后突然泛化,仿佛“顿悟”。最新研究从统计物理视角揭示了这一机制——噪声驱动的亚稳态逃逸。
核心发现
来自波茨坦大学的研究者在论文中证明,DNN中的泛化延迟(grokking)本质上是L2正则化强度变化引发的一级相变中的滞后效应。当正则化强度低于临界值时,所有特征原则上都可学习,但网络会陷入由能量势垒分隔的亚稳态,导致收敛停滞。
关键在于,随机梯度下降(SGD)中的噪声提供了逃离亚稳态所需的能量。研究者在线性DNN中观察到,模型从低精度亚稳态逃离的时间符合阿伦尼乌斯标度——即逃逸时间随势垒高度指数增长。通过刻意将模型困在亚稳态,他们成功复现了跨越两个数量级的延迟收敛现象,且测试误差最终逼近训练误差的经典曲线。
亚稳态数量与特征维度
论文进一步指出,亚稳态的数量恰好等于可学习特征的数量——每个数据协方差矩阵的奇异值对应一个特征。这意味着,任务越复杂(奇异值越多),潜在的滞后效应越强,模型越容易陷入局部最优。
对深度学习实践的意义
这一发现为加速训练提供了新思路:
- 动态正则化:通过调整L2强度或噪声水平,主动控制模型在相空间中的迁移路径。
- 初始化策略:避免模型落入与目标任务无关的亚稳态。
- 理解泛化边界:将泛化能力与相变理论中的阶参数(如奇异值分布)关联,可能量化模型的“学习容量”。
尽管实验主要在线性模型上验证,作者提供了证据表明非线性DNN中同样存在类似机制。该工作不仅统一了“顿悟”现象的解释,更将深度学习与统计物理中的成核理论紧密联系起来。