平坦极小值是个幻觉?新研究挑战深度学习经典认知
深度学习中一个广为接受的信念是:损失景观中的平坦极小值(flat minima)比尖锐极小值具有更好的泛化性能,基于此的算法如Sharpness-Aware Minimization(SAM)被广泛使用。然而,一篇来自arXiv的最新论文提出了颠覆性观点:平坦极小值可能只是一个“幻觉”。
该研究指出,通过保函数重参数化(function-preserving reparameterisation),可以在不改变任何预测的情况下,将任意极小值的Hessian矩阵特征值放大两个数量级。这意味着权重空间的几何形状可以被任意“制造”,因此它不能是泛化的根本原因。
作者提出,真正的驱动力是“弱性”(weakness),即在学习者的具身语言中与所学函数兼容的完成体积。弱性是重参数化不变的,因为它定义在网络“做什么”而非“如何参数化”上。理论证明,弱性在可交换需求下是极小极大最优的,并且PAC-Bayes界限之所以有效正是因为它们与弱性相关。
实验提供了有力证据:在MNIST数据集上,大批次训练带来的泛化优势随着数据量增加而消失——从n=2000时的+1.6%下降到n=60000时的+0.02%。这表明,一个预测能力依赖于数据量的量并非原因,而是混杂因子。
进一步,作者在100个相同架构和训练过程的网络上进行正面比较:对于MNIST,弱性显著预测泛化(ρ=+0.374,p=0.00012),而尖锐度呈负相关(ρ=-0.226),简单性(simplicity)则完全不显著(p=0.848)。对于Fashion-MNIST,弱性依然有效(ρ=+0.384,p=8.15×10⁻⁵),但简单性有一定预测力。
结论:平坦极小值从来就不是答案。简单性是数据集依赖的,而弱性是不变的。这一发现挑战了当前对损失景观几何的普遍理解,可能引导未来研究转向更本质的泛化机制。

