平坦极小值是幻觉？新研究挑战深度学习泛化理论

深度学习中一个广为接受的信念是：损失景观中的平坦极小值（flat minima）比尖锐极小值具有更好的泛化性能，基于此的算法如Sharpness-Aware Minimization（SAM）被广泛使用。然而，一篇来自arXiv的最新论文提出了颠覆性观点：平坦极小值可能只是一个“幻觉”。

该研究指出，通过保函数重参数化（function-preserving reparameterisation），可以在不改变任何预测的情况下，将任意极小值的Hessian矩阵特征值放大两个数量级。这意味着权重空间的几何形状可以被任意“制造”，因此它不能是泛化的根本原因。

作者提出，真正的驱动力是“弱性”（weakness），即在学习者的具身语言中与所学函数兼容的完成体积。弱性是重参数化不变的，因为它定义在网络“做什么”而非“如何参数化”上。理论证明，弱性在可交换需求下是极小极大最优的，并且PAC-Bayes界限之所以有效正是因为它们与弱性相关。

实验提供了有力证据：在MNIST数据集上，大批次训练带来的泛化优势随着数据量增加而消失——从n=2000时的+1.6%下降到n=60000时的+0.02%。这表明，一个预测能力依赖于数据量的量并非原因，而是混杂因子。

进一步，作者在100个相同架构和训练过程的网络上进行正面比较：对于MNIST，弱性显著预测泛化（ρ=+0.374，p=0.00012），而尖锐度呈负相关（ρ=-0.226），简单性（simplicity）则完全不显著（p=0.848）。对于Fashion-MNIST，弱性依然有效（ρ=+0.384，p=8.15×10⁻⁵），但简单性有一定预测力。

结论：平坦极小值从来就不是答案。简单性是数据集依赖的，而弱性是不变的。这一发现挑战了当前对损失景观几何的普遍理解，可能引导未来研究转向更本质的泛化机制。

平坦极小值是个幻觉？新研究挑战深度学习经典认知

延伸阅读

相关资讯