SheepNav
新上线2天前0 投票

噪声驱动亚稳态逃逸:深度学习“顿悟”现象背后的物理机制

深度神经网络(DNN)在训练中常出现一种令人困惑的现象:模型在长时间过拟合后突然泛化,仿佛“顿悟”。最新研究从统计物理视角揭示了这一机制——噪声驱动的亚稳态逃逸。

核心发现

来自波茨坦大学的研究者在论文中证明,DNN中的泛化延迟(grokking)本质上是L2正则化强度变化引发的一级相变中的滞后效应。当正则化强度低于临界值时,所有特征原则上都可学习,但网络会陷入由能量势垒分隔的亚稳态,导致收敛停滞。

关键在于,随机梯度下降(SGD)中的噪声提供了逃离亚稳态所需的能量。研究者在线性DNN中观察到,模型从低精度亚稳态逃离的时间符合阿伦尼乌斯标度——即逃逸时间随势垒高度指数增长。通过刻意将模型困在亚稳态,他们成功复现了跨越两个数量级的延迟收敛现象,且测试误差最终逼近训练误差的经典曲线。

亚稳态数量与特征维度

论文进一步指出,亚稳态的数量恰好等于可学习特征的数量——每个数据协方差矩阵的奇异值对应一个特征。这意味着,任务越复杂(奇异值越多),潜在的滞后效应越强,模型越容易陷入局部最优。

对深度学习实践的意义

这一发现为加速训练提供了新思路:

  • 动态正则化:通过调整L2强度或噪声水平,主动控制模型在相空间中的迁移路径。
  • 初始化策略:避免模型落入与目标任务无关的亚稳态。
  • 理解泛化边界:将泛化能力与相变理论中的阶参数(如奇异值分布)关联,可能量化模型的“学习容量”。

尽管实验主要在线性模型上验证,作者提供了证据表明非线性DNN中同样存在类似机制。该工作不仅统一了“顿悟”现象的解释,更将深度学习与统计物理中的成核理论紧密联系起来。

延伸阅读

  1. 美国称ASML顶级芯片设备可能在中国,ASML否认
  2. Barret Zoph 再次离开 OpenAI:回归仅五个月,企业 AI 销售主管离职
  3. SPSD:边缘端提示压缩缩小社交-语义鸿沟,降低云端LLM推理能耗
查看原文